はじめに
この度,講談社から『Kaggle ではじめる大規模言語モデル入門 〜自然言語処理〈実践〉プログラミング〜』の出版を予定しております. Amazonページや講談社の書籍ページはすでに公開されており,年明けの2026年1月中旬に出版される予定です.

書籍の概要
本書は,Kaggleと大規模言語モデル (Large Language Models; LLM) を題材とした書籍です. 従来のKaggle関連書籍は,コンペ参加のための入門書としてテーブルデータや画像データを扱ったコンペをメインに紹介しているものが多く,テキストデータを扱った自然言語処理 (Natural Language Processing; NLP) コンペの紹介は限定的でした. また,出版されたタイミングの関係で,近年のトレンドであるLLMを扱っているKaggle関連書籍はありませんでした.
そのような背景を踏まえて,本書では多様なタスクのNLPコンペを扱っています. 厳選した多様なNLPコンペを扱うことで,あるタスクに対して,様々な選択肢の中からどの技法を選択するのが適切なのかを学ぶことができます. そして,それらのコンペの事例を理解しやすくするために,基礎編は自然言語処理(1 章)とコンペ(2 章)の概要の説明から始まります. 続く章では,日本語のコンペプラットフォームである「atmaCup」で開催されたコンペを題材に,実際に手を動かしながらLLMのチューニング方法を学べる章を準備しております(3 章). 基礎編の後半では,応用編で頻出するLLM 自体の性能を改善(4 章)と,LLM の軽量化・高速化・省メモリ化(5 章)をまとめております. また,基礎編のいくつかの節末には,Kaggleや実務での活用が具体的にイメージできるようにColumnを設けています.
応用編では,実際にそのコンペで活躍した参加者の方々に,そのコンペで重要だった点や上位解法などの解説をまとめていただきました.
本書を通して,LLMの性能を最大限引き出す方法を身に着けることにより,コンペでの善戦や実務での活用に繋がるはずです!
著者の一人であり,全体の編集を担当いただいた石原さんのブログには、より情報の整理された書籍概要や出版の経緯や思いが掲載されていますので,ぜひご覧いただけますと幸いです.
【書籍メモ】『Kaggle ではじめる大規模言語モデル入門 〜自然言語処理〈実践〉プログラミング〜』(講談社)
書籍の目次
《基礎編》
1. 自然言語処理の基礎
NLPコンペに挑む上で必要となる知識や技術をなるべく網羅的に紹介しています.
2. データサイエンスコンペティションの基礎
次章のチュートリアルや応用編を読む上で必要となる基礎を紹介しています.
- 2.1 コンペの歴史・意義・役割
- 2.2 コンペの一般的な枠組み
- 2.3 コンペにおける機械学習の標準的な作法
- 2.4 コンペで利用する計算資源
3. 「atmaCup #17」に挑戦
本書の目的の一つは,LLMをタスクに合わせてチューニングできるようになることです.この章では,実際のコンペを題材に,LLMのチューニングに必要なコードなどをまとめて紹介しております.実際に手を動かして,LLMの簡単な学習ができるようになることで,この後の4章や5章による発展的な手法の紹介や応用編の理解がより深まることを期待しております.
- 3.1 コンペの概要
- 3.2 探索的データ解析
- 3.3 単語の頻度情報を用いたモデル
- 3.5 大規模言語モデル
- 3.6 アンサンブル
- 3.7 上位解法の紹介
4. 大規模言語モデルの性能改善
この章では,LLMの性能を引き出すために必要な技術を紹介しております.
- 4.1 ファインチューニング
- 4.2 プロンプトエンジニアリング
- 4.3 検索拡張生成
- 4.4 モデルマージ
5. 大規模言語モデルの軽量化・高速化・省メモリ化
LLMを実際にコンペで使用するためには,kaggle notebook上で時間内に推論をするという制約があります.それらの制約に対応するために必要な技術を紹介しております.
- 5.1 低精度化と量子化
- 5.2 知識蒸留
- 5.3 Attention の高速化
《応用編》
6. Jigsaw Unintended Bias in Toxicity Classification
BERTがNLPコンペの上位解法で使われた代表的なテキスト分類コンペを坂見耕輔さんにまとめていただきました.
7. CommonLit - Evaluate Student Summaries
分類タスクだけでなく回帰タスクも扱いたいと思い,生徒が書いた要約文を自動評価するコンペを中真人さんにまとめていただきました.
8. Kaggle - LLM Science Exam
近年のLLM活用において必須技術となっている検索拡張生成(Retrieval-Augmented Generation; RAG)が重要だった代表的なコンペを郭林升さんにまとめていただきました.
9. Bengali.AI Speech Recognition
近年では,画像を入力してテキストを出力させることや,テキストを入力して画像を生成のように,EncoderとDecoderを組み合わせることで様々なタスクに対応することができます.このようなタスクへの取り組みの参考になると思い,音声からテキストを文字起こしするコンペを三好拓志さんにまとめていただきました.
10. The Learning Agency Lab -PII Data Detection
NLPでは,文や文章の分類だけでなく,フレーズや単語単位での分類(抽出)なども非常に重要であるため,文章中から個人情報を検出するコンペを齋藤慎一朗さんにまとめていただきました.
11. Eedi - Mining Misconceptions in Mathematics
このコンペは誤答の理由として適切なものを推薦するようなタスクでした.LLM×推薦はホットなトピックの一つであり,検索クエリの拡張,文章の埋め込み,LLMによる候補のReRankingなど,様々なテクニックを学ぶことが可能な良コンペを村上直輝さんにまとめていただきました.
12. WSDM Cup - Multilingual Chatbot Arena
6章でもテキスト分類を扱いましたが,このコンペもテキスト分類タスクのコンペです.ただし,開催は2024年11月ということもあり,主流解法はLLM一色となっており,近年のLLMのチューニングを学ぶことのできるコンペだと考えて, 洪立航さんにまとめていただきました.
13. AI Mathematical Olympiad - Progress Prize 2
数学オリンピックの問題を解かせるために,問題を解くためのpythonコードをLLMに書かせたり,複数ある問題で解ける可能性の低い問題は捨て,解ける可能性の高い問題に推論時間を割くなどの様々な工夫が見られたコンペを 吉原浩之さん,井ノ上雄一さん,山口大器さんの3名にまとめていただきました.
書籍執筆の思い
書籍の概要に関しては,共著の石原さんが丁寧にブログで整理していただいているため,自身の方では,書籍執筆の動機と期待していること,そして関係者の皆様への感謝をまとめさせていただきます.
まず,書籍執筆の動機についてですが,端的に言えば,自分自身がKaggleをはじめとしたコンペティションのコミュニティのおかげでスキルを伸ばすことができたので,少しでもコミュニティに恩返しをしたいと思っているからです. いろいろと還元したいと思っていたものの,様々な制約上,これまで勉強会の運営などを行うことができず,何回かコンペの振り返り会やKaggler会でのLTでの登壇や現行コンペでnotebookやdiscussionを投稿する程度に留まっていました. このようなイベントや現行コンペに参加しているのは,データサイエンスや自然言語処理に関わっている方のほんの一部であり,もっと多くの人に情報を届けることができる手段がなにかないかと考えておりました. 自分自身,恥ずかしながらKaggleの存在を知ったのは27歳のときで,当時はなかなか対面でのイベントに参加するきっかけもなく,今思えばもっと早く存在を知って,イベントとかにももっと積極的に参加すればよかったなと思っています. 書籍として情報をまとめることで,偶然書店で手に取ってコンペという学びの場の存在を知ってくれる方が一人でもいたら,それだけでも本書を書いてよかったなと思います.
Kaggleを知らない方の新規参入はもちろんですが,すでにいくつかのコンペで結果を残しているKagglerでも,NLPコンペに参加することにハードルを感じている方も多くいるのが現状です. 自分自身,NLPがもともと専門領域ということもあり,NLPコンペには参加できていますが,一方で画像や強化学習などのコンペでは苦戦してばかりです. ただ,近年のNLPを取り巻く環境の変化は著しく,もともとNLPを専門にしてなかった方も,実務で活用する機会が増えているかと思います. また,NLPコンペに興味があっても,技術の進展が早すぎることやタスクが多様であるため参加できないという声を対面イベントで耳にする機会が多かったことも,書籍執筆の動機の一つとなっています. Kaggleの関連書籍では,NLPに関する言及は非常に限定的である点や,LLMの登場後に書かれた書籍はごくわずかであるため,現在のNLPコンペに参加するハードルは非常に高くなっていると思いました. 多くの企業で,LLMの活用に注目が集まっている中,API経由でプロンプトを少しいじって使用するというところから,応用的な活用にもハードルがあるかと思います. LLMの性能を引き出したり,どのような特徴があるのかを実践的に知る場として,コンペという場は非常に多くの知見を得ることができることが多いです. そのような学びの場に一歩踏み出すのを本書がサポートすることができたら,著者として大変嬉しく思います.
コンペは多くの参加者が集まって,同じタスクを切磋琢磨して解くことに面白さがあり,学びが生まれるため,自身はより競技者が増えていってほしいなと思っています.自身がKaggleというプラットフォームを好んでいるのは,他コンペよりも圧倒的にアクティブな参加者が多く,上位の解法から得られる知見も多いことが理由であり,この好循環がこの先も続いてほしいと思っています.
動機はここまで述べてきた通りで,ずっと思っていたこともあり,Kagglerで集まってご飯を食べに行ったりする中で,NLP関連の勉強会とか開催して還元したい的な話をすることが増えてきた時期に,共著者の齋藤さんが講談社への橋渡しをしてくれました. 自分自身は数回にわたって勉強会をしていく中で,後々書籍でも書けたらと思っていたところを,齋藤さんの行動力のおかげで,書籍を執筆する機会を得ることができました. 構想はあったものの,想定よりも早い段階で話が舞い込んできたため,様々な不安がありました. また,技術進展の早さを考慮すると執筆開始からある程度の期間で完成させる必要性があるため,どうするのがベストかを考えました. もともと,過去のNLPコンペを上位チームの方を招いて振り返る勉強会を通じて,知見を蓄積して書籍を書こうと思っていたので,応用編としてコンペでの事例を上位チームの方に依頼することはすぐに確定しました.
そして,共著としてこれまでもKaggle関連の書籍執筆に携わり,KagglerとしてもNLP人材としてもコンペ関連の取り組みも行っている石原さんに協力をお願いし,快く引き受けてくれました. お仕事はもちろん,学会の委員やプライベートでも忙しい中にも関わらず,石原さんには助けてもらうことが本当に多く,予定通りのスケジュールで執筆を進めることができました. 本来であれば発起人の自身がもっと動くべきところを,石原さんが率先して必要な連絡や全体の編集に時間を割いていただいたおかげで,自分自身が注力すべきことに多くの時間を割くことができ,大変感謝しております. 今回は初のメイン著者としての書籍執筆かつ関係者も多い特殊なケースでしたが,次回以降,自身も書籍執筆の経験者となるため,今回の石原さんから学んだことを率先してやっていけたらと思っています.
また,スケジュール通りに出版ができたのは,応用編の寄稿者の皆様のおかげでもあります. メイン著者らだけでは,あくまで復習ベースで学んだ内容を書くことしかできないところを,実際にそのコンペで上位に入賞した皆様に執筆いただいたことで,なぜ,その手法を選択するべきだったのかという過程などを詰め込むことができました. コンペに関しても,タスクや開催時期などを吟味して選択しており,断られてしまうと理想とするラインナップにすることができない状況でしたが,当初予定していた著作権の関係で掲載できるコンペをすべて扱うことができたのは,寄稿者の皆様がご快諾いただけた結果であり,大変感謝しております.
レビューにご協力いただいた秋葉さん,小嵜さん,村田さん,林さんにも大変感謝しております. レビューによって,足りていなかった視点や説明不足で分かりづらい部分を改善することができ,書籍をより良いものに仕上げることができました.
講談社の横山様には大変お世話になりました. メイン著者の内,石原さんと齋藤さんは書籍執筆経験者であり,あまり心配はされていなかったかもしれませんが,自身の疑問に対して丁寧に説明いただいたり,自身の仕事の都合による休日でのミーティングなど,大変助かりました.
最後となりますが,これまで同じコンペで切磋琢磨してきたコンペ参加者や振り返り会などのイベントで関わった皆様にも感謝しております. コンペ開催期間中のdiscussionや終了後の解法共有,対面イベントでの過去コンペの情報交換などが,現在の自身のスキルの根底にあり,そのおかげで書籍の執筆もできたと思っています.
この場を借りて深く感謝を申し上げます.
本書を通して,Kaggleに出会う方,LLMのチューニングができるようになる方,NLPコンペで好成績を残す方,実務で活躍する方が少しでも増えたら,著者として大変嬉しく思います. ぜひ書店やオンラインショップで手にとっていただけますと幸いです.
おわりに
年明け 2026 年 1 月中旬に出版予定の『Kaggle ではじめる大規模言語モデル入門 〜自然言語処理〈実践〉プログラミング〜』(講談社) の紹介と執筆への思いをまとめさせていただきました. より良いものをお届けすることができるよう,引き続き頑張ります.