2023-03-29

LLM (大規模言語モデル)

大規模言語モデル（LLM）とは

大規模言語モデル（LLM）は、巨大なデータセットを使用して作成された言語モデルの一部であり、深層学習の技術を用いて構築されます。LLMの能力は、人間の対話に似た会話を可能にし、自然言語処理における高度な能力により、世界的な認知を得ています。

LLMの文脈において、「大規模」という用語は、伝統的な言語モデルと比較して、計算リソース、データ量、およびパラメータ数の3つの要素の大幅な拡大を指します。ここでいう「計算リソース」とは、コンピュータの処理能力を意味します。「データ量」とは、コンピュータに供給されるテキストデータの量を指します。「パラメータ数」とは、深層学習技術に固有のパラメータの複雑さを示し、確率計算のための係数の配列を形成します。LLMは、これらの3つの側面を拡大することで急速に発展しており、その詳細はOpenAIの2020年の論文で詳述されています。この論文は、言語モデルの性能とこれらの3つの要素との相関関係を示唆しています。OpenAIはこれらの知見を活用し、これらの3つの要素を大幅に拡充することで高精度なLLMを成功裏に開発しました。2022年11月に発表されたChatGPTは、その優れた応答により自然言語応答の品質を向上させるLLMの注目すべき例です。

LLMの種類

2023年現在、さまざまなLLMが発表されています。

モデル名	概要	企業	パラメータ数	リリース日
GPT-3	生成トランスフォーマーに基づいて文書生成に特化したモデル	OpenAI	1750億	2020年5月
GPT-4	GPT-3に加えて画像や音声などのモーダルデータを学習するモデル	OpenAI	2000億以上	2023年3月
LaMDA	会話に特化したトランスフォーマーに基づくモデル	Google	非公開	2021年5月
PaLM	トランスフォーマーをベースにパラメータ数を大幅に増やすことで性能を向上させたモデル	Google	5400億	2022年4月
LLaMA	GPT-3と同等の性能を持ちながら、GPT-3よりもはるかに少ないパラメータで軽量で単一のGPUで動作するモデル	Meta	700億から6500億	2023年2月
Alpaca 7B	LLaMAに基づいてInstruction-followingの結果を利用してファインチューニングされたモデル	スタンフォード大学	700億	2023年3月

LLMの機能

LLMは、テキストデータに基づいて次のテキスト処理タスクにおいて優れた能力を持っています。

タスク	説明
機械翻訳	自然な翻訳を生成
要約	長文を短文にまとめる
質問応答	自然言語のテキストに関する質問に回答
テキスト生成	テーマに基づいて長文を生成
感情分析	テキストのトーンや感情を分析
言語生成タスク	説明文、ニュース記事、小説、詩、広告など、さまざまなタイプのテキストを生成
キーワード抽出	テキストから重要なキーワードを抽出
ワード埋め込み	自然言語処理の他のタスクで使用される数値ベクトルに単語を変換
テキスト分類	テキストドキュメントを分類し、ラベルを付ける
テキストの言い換え	テキストを異なる表現に変換しながら同じ意味を保持したままより自然な表現を生成

LLMの課題

優れた能力を持つ一方で、大規模言語モデルはいくつかの課題に直面しています。誤ったデータやハルシネーションを生成する傾向があります。さらに、有害なプロンプトを操作して禁止された機能を起動させ、不適切な返答を引き出すプロンプトインジェクションの潜在的な危険も存在します。また、LLMは一定の情報を処理してそれに基づいて回答するため、古いの情報である可能性があります。パフォーマンスを向上させる取り組みと並行して、これらの課題に対処するための研究が進行中です。

LLM (大規模言語モデル)

大規模言語モデル（LLM）とは

LLMの種類

LLMの機能

LLMの課題

参考

効率的なTransformerトレーニングのためのHugging Face Trainer

ベクトルDBと独自データを使用したLLMシステム

Ryusei Kakujo