大規模言語モデル(LLM)とは
大規模言語モデル(LLM)は、巨大なデータセットを使用して作成された言語モデルの一部であり、深層学習の技術を用いて構築されます。LLMの能力は、人間の対話に似た会話を可能にし、自然言語処理における高度な能力により、世界的な認知を得ています。
LLMの文脈において、「大規模」という用語は、伝統的な言語モデルと比較して、計算リソース、データ量、およびパラメータ数の3つの要素の大幅な拡大を指します。ここでいう「計算リソース」とは、コンピュータの処理能力を意味します。「データ量」とは、コンピュータに供給されるテキストデータの量を指します。「パラメータ数」とは、深層学習技術に固有のパラメータの複雑さを示し、確率計算のための係数の配列を形成します。LLMは、これらの3つの側面を拡大することで急速に発展しており、その詳細はOpenAIの2020年の論文で詳述されています。この論文は、言語モデルの性能とこれらの3つの要素との相関関係を示唆しています。OpenAIはこれらの知見を活用し、これらの3つの要素を大幅に拡充することで高精度なLLMを成功裏に開発しました。2022年11月に発表されたChatGPTは、その優れた応答により自然言語応答の品質を向上させるLLMの注目すべき例です。
LLMの種類
2023年現在、さまざまなLLMが発表されています。
モデル名 | 概要 | 企業 | パラメータ数 | リリース日 |
---|---|---|---|---|
GPT-3 | 生成トランスフォーマーに基づいて文書生成に特化したモデル | OpenAI | 1750億 | 2020年5月 |
GPT-4 | GPT-3に加えて画像や音声などのモーダルデータを学習するモデル | OpenAI | 2000億以上 | 2023年3月 |
LaMDA | 会話に特化したトランスフォーマーに基づくモデル | 非公開 | 2021年5月 | |
PaLM | トランスフォーマーをベースにパラメータ数を大幅に増やすことで性能を向上させたモデル | 5400億 | 2022年4月 | |
LLaMA | GPT-3と同等の性能を持ちながら、GPT-3よりもはるかに少ないパラメータで軽量で単一のGPUで動作するモデル | Meta | 700億から6500億 | 2023年2月 |
Alpaca 7B | LLaMAに基づいてInstruction-followingの結果を利用してファインチューニングされたモデル | スタンフォード大学 | 700億 | 2023年3月 |
LLMの機能
LLMは、テキストデータに基づいて次のテキスト処理タスクにおいて優れた能力を持っています。
タスク | 説明 |
---|---|
機械翻訳 | 自然な翻訳を生成 |
要約 | 長文を短文にまとめる |
質問応答 | 自然言語のテキストに関する質問に回答 |
テキスト生成 | テーマに基づいて長文を生成 |
感情分析 | テキストのトーンや感情を分析 |
言語生成タスク | 説明文、ニュース記事、小説、詩、広告など、さまざまなタイプのテキストを生成 |
キーワード抽出 | テキストから重要なキーワードを抽出 |
ワード埋め込み | 自然言語処理の他のタスクで使用される数値ベクトルに単語を変換 |
テキスト分類 | テキストドキュメントを分類し、ラベルを付ける |
テキストの言い換え | テキストを異なる表現に変換しながら同じ意味を保持したままより自然な表現を生成 |
LLMの課題
優れた能力を持つ一方で、大規模言語モデルはいくつかの課題に直面しています。誤ったデータやハルシネーションを生成する傾向があります。さらに、有害なプロンプトを操作して禁止された機能を起動させ、不適切な返答を引き出すプロンプトインジェクションの潜在的な危険も存在します。また、LLMは一定の情報を処理してそれに基づいて回答するため、古いの情報である可能性があります。パフォーマンスを向上させる取り組みと並行して、これらの課題に対処するための研究が進行中です。
参考