生成LLMの学習

近年の生成型LLM（大規模言語モデル）の学習は、主に3つのステップを経て進められます。

この手順は、モデルに基本的な言語能力を習得させ、その後、特定のタスクや人間が望む振る舞いに合わせて性能を向上させることを目的としています。

1. 事前学習（Pre-training）

これは、モデルに言語の基礎的な知識と文法、世界の一般的な情報を教え込む最も土台となるステップです。

データ: インターネット上のウェブページ、書籍、論文、ニュース記事など、膨大で多岐にわたるテキストデータが使用されます。
学習タスク: 主に「次の単語予測」が行われます。モデルは与えられたテキストの文脈から、次に来るべき最も確率の高い単語（トークン）を予測するように訓練されます。
結果: このステップを通じて、モデルは言語のパターン、文法構造、そしてデータに含まれる一般的な知識を自己教師あり学習によって習得し、強力な基盤モデル（Foundation Model）となります。

2. 微調整（Fine-tuning）

事前学習を終えたモデルを、特定のタスクや目的に合わせて調整するステップです。

2-1. 教師あり微調整（Supervised Fine-Tuning: SFT）

目的: 質問応答、要約、翻訳、指示への忠実な応答（Instruction Following）など、具体的なタスクの能力を高めます。
データ: 高品質で、タスクに特化したラベル付きデータセット（例：質問とそれに対する正しい応答のペア）が使われます。
方法: モデルは、特定の入力に対して望ましい出力が得られるように、教師あり学習の手法でパラメーターが更新されます。

2-2. 人間のフィードバックによる強化学習（RLHF: Reinforcement Learning with Human Feedback）

SFTによって特定の指示に従う能力を獲得したモデルの出力を、さらに人間がより自然で有用、かつ安全だと感じるように最適化する、近年のLLMで重要なステップです。

このプロセスは通常、以下の3段階で構成されます。

比較データの収集: モデルが出力した複数の回答を、人間が「より良い」「悪い」という基準で順位付け（ランク付け）します。
報酬モデル（Reward Model: RM）の訓練: 人間による順位付けデータを使って、回答の品質をスコア化する別のモデル（報酬モデル）を訓練します。
強化学習による最適化: 訓練された報酬モデルのスコアを「報酬」として使用し、元のLLM（SFTモデル）を強化学習で再調整します。これにより、モデルは報酬スコアが高い、つまり人間が好む回答を生成するように学習します。

この3つのステップを経て、LLMはただの次単語予測マシンから、人間の意図を理解し、安全で有用な文章を生成できる対話エージェントへと進化します。

事前学習

近年の生成型LLM（大規模言語モデル）の事前学習（Pre-training）に用いられている最も具体的な手法名とタスクは以下の通りです。

1. 主要な学習タスク

LLMは、ラベル付けされていない膨大なテキストデータを用いて、以下の自己教師あり学習タスクを実行します。

手法名 (英語/日本語)	概要	採用モデルの例
Next Token Prediction / 次トークン予測	これがGPTシリーズやClaude、LLaMAなど、生成型LLMの事前学習における主要なタスクです。与えられたトークン列（文の左側）に続いて最も確率の高い次のトークンを予測するように学習します。これにより、モデルは文章を一貫して生成する能力を獲得します。	GPT-3, GPT-4, LLaMA, PaLM, Claude
Masked Language Modeling (MLM) / マスク言語モデリング	BERTのような双方向（文脈を理解する）モデルの事前学習に用いられた手法です。入力文の一部の単語（トークン）をマスク（隠す）し、そのマスクされたトークンを予測するように学習します。生成タスクよりも文脈理解や抽出に優れます。	BERT, RoBERTa

💡 ポイント: 近年の生成型LLM（例えばGPT）は、Next Token Prediction（次トークン予測）を主に使用し、文を一貫して生成する能力を優先して学習しています。

2. 基盤となるアーキテクチャ

これらの事前学習タスクを実行するために、ほぼ全ての現代的なLLMが採用している基盤技術です。

手法名	概要
Transformer (トランスフォーマー) 構造	2017年に発表され、LLMの基礎となったニューラルネットワークのアーキテクチャです。特に自己注意機構（Self-Attention Mechanism）

[Image of the Transformer Architecture] を用いることで、文中の遠く離れた単語間の依存関係や文脈を効率的に捉えることができます。 | | Decoder-Only Model | トランスフォーマーのデコーダー部分のみを使用したモデル構造です。GPTシリーズやLLaMAなどが採用しており、特に文章生成タスクに特化しています。 | | Encoder-Decoder Model | トランスフォーマーのエンコーダーとデコーダーの両方を使用したモデル構造です。翻訳や要約などの入力と出力の構造が異なるタスクに適しています。BARTなどが採用しています。 | | Rotary Positional Embedding (RoPE) | 単語の位置情報（位置埋め込み）をモデルに組み込むための手法の一つです。従来の絶対的な位置情報（例: Sinusoidal Positional Embedding）ではなく、回転行列を用いて相対的な位置関係を効率的にエンベットすることで、特に長い文脈の処理能力や、モデルが学習時より長いテキストを処理する能力（外挿性）の向上に寄与します。 |

3. その他の重要な手法

大規模データセットのキュレーション (Data Curation): 事前学習に使うテキストデータ（CommonCrawl、Wikipedia、書籍、コードなど）を収集し、重複除去、品質フィルタリング、有害なコンテンツの削除などの処理を大規模に行うことです。これは、モデルの性能と安全性を確保するために不可欠な工程です。
分散並列学習 (Distributed Parallel Training): 非常に大規模なLLMを、数千ものGPUを使用して効率的に学習させるための技術です。データ並列 (Data Parallelism)やモデル並列 (Model Parallelism)などが組み合わせて使用されます。

Next Token Prediction の課題

学習データに基づいて次のトークンとして最も確率の高いものを正解とするため、文脈的に正しいにもかかわらず、学習データでは頻度が低いニュアンスが同じ異なる言い回しを不正解としてしまうという課題があります。

この課題は、主に「モデルが生成する多様性の欠如」や「単一の正解に固執する」という形で現れます。

この課題に対応するための主な手段は、事前学習後の微調整フェーズやサンプリング戦略によって導入されます。

1. 事前学習後の課題対応策（微調整フェーズ）

事前学習後、モデルに多様な言い回しや人間の意図を理解させるための重要なステップです。

1-1. 教師あり微調整（SFT）の質の向上

Instruction Tuning (指示チューニング): モデルに多様な指示（プロンプト）と、それに対する多様で質の高い正解応答のペアを学習させます。このデータセットには、同じ意味でも表現が異なる複数の例を含めることで、モデルが「意図」と「表現」の多様性を関連付けて学習できます。
高品質なデータソースの利用: 特定のドメインやニュアンスに特化した、人間が手作業で作成またはキュレーションした多様な表現を含むデータセットを使用します。

1-2. 人間のフィードバックによる強化学習（RLHF/DPO）

これが、ニュアンスの課題に対処する上で最も強力な手段です。

報酬モデル（Reward Model: RM）の導入: RLHFでは、モデルが出した複数の異なる言い回しの回答を、人間が「この表現は自然で適切か」「この表現は質問の意図を正確に捉えているか」といったニュアンスや有用性の基準で評価し、ランク付けします。
多様性の評価: 報酬モデルは、単に学習データと同じ表現であるかではなく、人間の好む有用性や自然さ、そして質問の意図との整合性をスコア化するように訓練されます。これにより、学習データにない、または頻度が低い表現でも、人間にとって有用であれば高い報酬を得て、モデルはその多様な表現を積極的に生成するようになります。

2. 生成時のサンプリング戦略

モデルが次のトークンを決定する際、最も確率の高いトークン以外も選択肢に入れることで、表現の多様性を意図的に高めます。

手法名	概要	効果
Temperature (温度)	トークン選択の確率分布を平坦化するパラメータです。 $T$ の値を高くするほど、確率の低いトークン（つまり、学習データで頻度の低い異なる言い回し）も選ばれやすくなり、出力の多様性が増します。	表現のランダム性を増やし、単調な繰り返しを防ぎます。
Top-k Sampling	確率の高い方から上位 $k$ 個のトークンに絞り、その中からランダムにサンプリングする方法です。	完全に無関係なトークンが選ばれるのを防ぎつつ、多様性を確保します。
Top-p (Nucleus) Sampling	確率の累積和が $p$ になるまでトークンを絞り込み、その中からサンプリングする方法です。	確率分布の形状に応じて柔軟に選択肢を絞り込み、Top-kよりも自然で多様な出力を生成しやすいとされます。

これらのサンプリング戦略を組み合わせることで、モデルは文脈的に正しい複数の選択肢の中から、より多様で創造的な（しかし意味的に適切な）言い回しを選び出すことができるようになります。

まとめ

Next Token Predictionの課題を克服する鍵は、「正解が一つである」という認識からの脱却です。

RLHF/DPOによって、人間のニュアンスや意図との適合性を報酬として学習させる。
サンプリング戦略によって、生成時に多様な言い回しを積極的に探索させる。

この組み合わせにより、LLMはニュアンスが同じ異なる表現を適切に許容し、生成できるようになります。