生成LLMの学習

近年の生成型LLM(大規模言語モデル)の学習は、主に3つのステップを経て進められます。

この手順は、モデルに基本的な言語能力を習得させ、その後、特定のタスクや人間が望む振る舞いに合わせて性能を向上させることを目的としています。

1. 事前学習(Pre-training)

これは、モデルに言語の基礎的な知識と文法、世界の一般的な情報を教え込む最も土台となるステップです。

2. 微調整(Fine-tuning)

事前学習を終えたモデルを、特定のタスクや目的に合わせて調整するステップです。

2-1. 教師あり微調整(Supervised Fine-Tuning: SFT)

2-2. 人間のフィードバックによる強化学習(RLHF: Reinforcement Learning with Human Feedback)

SFTによって特定の指示に従う能力を獲得したモデルの出力を、さらに人間がより自然で有用、かつ安全だと感じるように最適化する、近年のLLMで重要なステップです。

このプロセスは通常、以下の3段階で構成されます。

  1. 比較データの収集: モデルが出力した複数の回答を、人間が「より良い」「悪い」という基準で順位付け(ランク付け)します。
  2. 報酬モデル(Reward Model: RM)の訓練: 人間による順位付けデータを使って、回答の品質をスコア化する別のモデル(報酬モデル)を訓練します。
  3. 強化学習による最適化: 訓練された報酬モデルのスコアを「報酬」として使用し、元のLLM(SFTモデル)を強化学習で再調整します。これにより、モデルは報酬スコアが高い、つまり人間が好む回答を生成するように学習します。

この3つのステップを経て、LLMはただの次単語予測マシンから、人間の意図を理解し、安全で有用な文章を生成できる対話エージェントへと進化します。

事前学習

近年の生成型LLM(大規模言語モデル)の事前学習(Pre-training)に用いられている最も具体的な手法名とタスクは以下の通りです。

1. 主要な学習タスク

LLMは、ラベル付けされていない膨大なテキストデータを用いて、以下の自己教師あり学習タスクを実行します。

手法名 (英語/日本語) 概要 採用モデルの例
Next Token Prediction / 次トークン予測 これがGPTシリーズClaude、LLaMAなど、生成型LLMの事前学習における主要なタスクです。与えられたトークン列(文の左側)に続いて最も確率の高い次のトークンを予測するように学習します。これにより、モデルは文章を一貫して生成する能力を獲得します。 GPT-3, GPT-4, LLaMA, PaLM, Claude
Masked Language Modeling (MLM) / マスク言語モデリング BERTのような双方向(文脈を理解する)モデルの事前学習に用いられた手法です。入力文の一部の単語(トークン)をマスク(隠す)し、そのマスクされたトークンを予測するように学習します。生成タスクよりも文脈理解や抽出に優れます。 BERT, RoBERTa

💡 ポイント: 近年の生成型LLM(例えばGPT)は、Next Token Prediction(次トークン予測)を主に使用し、文を一貫して生成する能力を優先して学習しています。

2. 基盤となるアーキテクチャ

これらの事前学習タスクを実行するために、ほぼ全ての現代的なLLMが採用している基盤技術です。

手法名 概要
Transformer (トランスフォーマー) 構造 2017年に発表され、LLMの基礎となったニューラルネットワークのアーキテクチャです。特に自己注意機構(Self-Attention Mechanism)

[Image of the Transformer Architecture] を用いることで、文中の遠く離れた単語間の依存関係や文脈を効率的に捉えることができます。 | | Decoder-Only Model | トランスフォーマーのデコーダー部分のみを使用したモデル構造です。GPTシリーズやLLaMAなどが採用しており、特に文章生成タスクに特化しています。 | | Encoder-Decoder Model | トランスフォーマーのエンコーダーとデコーダーの両方を使用したモデル構造です。翻訳や要約などの入力と出力の構造が異なるタスクに適しています。BARTなどが採用しています。 | | Rotary Positional Embedding (RoPE) | 単語の位置情報(位置埋め込み)をモデルに組み込むための手法の一つです。従来の絶対的な位置情報(例: Sinusoidal Positional Embedding)ではなく、回転行列を用いて相対的な位置関係を効率的にエンベットすることで、特に長い文脈の処理能力や、モデルが学習時より長いテキストを処理する能力(外挿性)の向上に寄与します。 |

3. その他の重要な手法

Next Token Prediction の課題

学習データに基づいて次のトークンとして最も確率の高いものを正解とするため、文脈的に正しいにもかかわらず、学習データでは頻度が低いニュアンスが同じ異なる言い回しを不正解としてしまうという課題があります。

この課題は、主に「モデルが生成する多様性の欠如」や「単一の正解に固執する」という形で現れます。

この課題に対応するための主な手段は、事前学習後の微調整フェーズサンプリング戦略によって導入されます。

1. 事前学習後の課題対応策(微調整フェーズ)

事前学習後、モデルに多様な言い回し人間の意図を理解させるための重要なステップです。

1-1. 教師あり微調整(SFT)の質の向上

1-2. 人間のフィードバックによる強化学習(RLHF/DPO)

これが、ニュアンスの課題に対処する上で最も強力な手段です。

2. 生成時のサンプリング戦略

モデルが次のトークンを決定する際、最も確率の高いトークン以外も選択肢に入れることで、表現の多様性を意図的に高めます。

手法名 概要 効果
Temperature (温度) トークン選択の確率分布を平坦化するパラメータです。 $T$ の値を高くするほど、確率の低いトークン(つまり、学習データで頻度の低い異なる言い回し)も選ばれやすくなり、出力の多様性が増します。 表現のランダム性を増やし、単調な繰り返しを防ぎます。
Top-k Sampling 確率の高い方から上位 $k$ 個のトークンに絞り、その中からランダムにサンプリングする方法です。 完全に無関係なトークンが選ばれるのを防ぎつつ、多様性を確保します。
Top-p (Nucleus) Sampling 確率の累積和が** $p$ **になるまでトークンを絞り込み、その中からサンプリングする方法です。 確率分布の形状に応じて柔軟に選択肢を絞り込み、Top-kよりも自然で多様な出力を生成しやすいとされます。

これらのサンプリング戦略を組み合わせることで、モデルは文脈的に正しい複数の選択肢の中から、より多様で創造的な(しかし意味的に適切な)言い回しを選び出すことができるようになります。

まとめ

Next Token Predictionの課題を克服する鍵は、「正解が一つである」という認識からの脱却です。

  1. RLHF/DPOによって、人間のニュアンスや意図との適合性を報酬として学習させる。
  2. サンプリング戦略によって、生成時に多様な言い回しを積極的に探索させる。

この組み合わせにより、LLMはニュアンスが同じ異なる表現を適切に許容し、生成できるようになります。