「大規模言語モデルは本当にそのすべての層が必要なのか? このAI研究がモデルの効率を明らかにする:大規模言語モデルにおける必須コンポーネントの追求」

Is every layer of large-scale language models truly necessary? This AI research reveals the efficiency of models Pursuit of essential components in large-scale language models.

大規模言語モデル(LLM)の出現により、特にChatGPTの登場により、一般の人々の間で大きな関心が集まっています。これらのモデルは、膨大な量のデータでトレーニングされ、最小限の例でも文脈を学習することができます。今年、Association for Computational Linguistics(ACL)の会議で発表された論文では、文脈学習のためのモデルのスケールの重要性とLLMアーキテクチャの解釈可能性について詳しく調査しています。

この研究では、MetaがGPT-3のオープンレプリカとして開発した66兆パラメータのLLMであるOPT-66Bモデルに焦点を当てています。研究者たちは、LLMのすべてのコンポーネントが文脈学習において重要であるかどうかを判断し、改善されたトレーニングの可能性のある領域についての洞察を提供することを目指して、OPT-66Bを分析しました。

LLMはTransformerアーキテクチャを使用して構築されており、アテンションメカニズムに依存しています。このメカニズムにより、モデルは現在のトークンを生成する際に、どの前のトークンに焦点を当てるべきかを予測することができます。これらのLLMは、複数のアテンションメカニズムを並列に使用するマルチヘッドアテンションを利用しています。OPT-66Bは、72のアテンションヘッドを含む64層から構成されています。マルチヘッドアテンションの出力は、各層ごとに個別のフィードフォワードネットワーク(FFN)を通過します。

OPT-66Bモデルを調査するために、研究者たちは2つの方法を使用しました。まず、各アテンションヘッドとFFNにスコアを割り当て、与えられたタスクに対する重要性を判断しました。これらのスコアを使用して、モデルをプルーニングし、一部のコンポーネントを破棄しました。驚くべきことに、パフォーマンスに影響を与えることなく、モデルのかなりの部分が削除できることがわかりました。これは、OPT-66Bや他の著名なLLMが未学習である可能性があることを示唆しています。

研究者たちは、重要なアテンションヘッドがモデルの中間層に主に存在し、重要なFFNが主に後の層に存在することを発見しました。驚くべきことに、アテンションヘッドの約70%(約157億のパラメータ)を削除しても、14の異なる自然言語処理(NLP)データセット/タスクでのゼロまたはフューショットの文脈学習の能力はほとんど影響を受けませんでした。さらに、タスクとショットにわたる文脈学習に責任がある共通のアテンションヘッドのサブセットを特定し、タスクに対してタスクに依存しない機能性を示しました。さらに、ゼロまたはフューショットの文脈学習にほとんど影響を与えずに、FFNの約20%(約85億のパラメータ)を削除できることも確認しました。

2番目の解析技術では、研究者たちはOPT-66Bのすべてのアテンションヘッドが、文脈学習に関連するタスクに対してタスクに依存しない原始的な操作を実行する能力を評価しました。これらの操作には、プレフィックスの一致とコピーが含まれます。これにより、現在のトークンの前の出現を検索し、次のトークンをコピーすることができます。彼らは、一部のアテンションヘッドが両方のプリミティブに対して重要なスコアを示したことを発見しました。興味深いことに、これらのヘッドは、特定のタスクに対して重要であると特定されたアテンションヘッドとも重なっており、潜在的なコンセプトマッチングなどのより洗練された文脈学習行動に関与している可能性を示しています。

この研究は、文脈学習において重要なアテンションヘッドとFFNのみが存在し、OPT-66Bや他の主要なLLMが未学習であることを示し、最近の研究で固定された事前トレーニングデータの効果に疑問が投げかけられていることに合致しています。結果は、最適なパフォーマンスを実現するために、モデルと事前トレーニングデータの量の両方を同時にスケーリングする必要があることを示唆しています。将来の調査では、指示に従うように設計された新しいLLMバリアントが同様の分析でどのような結果を示すかを探ることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

このAI研究では、詳細な全身のジオメトリと高品質のテクスチャを持つ、リアルな3Dの服を着た人物を、単一の画像から再構築するためのテクノロジー(TeCH)を提案します

ハイフィデリティ ゲーム、ソーシャルネットワーキング、教育、eコマース、没入型テレプレゼンスなど、多くの拡張現実と仮想...

AIニュース

マルチモーダルAIがデジタルのつながりを作り出す

「複数の要素とデータストリームを組み合わせることにより、マルチモーダルAIはよりスマートで人間らしいシステムの可能性を...

機械学習

Webスケールトレーニング解放:DeepMindがOWLv2とOWL-STを紹介、未知語彙物体検出の革新的ツール、前例のない自己学習技術によって駆動されます

オープンボキャブラリーの物体検出は、さまざまな実世界のコンピュータビジョンタスクにおいて重要な要素です。ただし、検出...

データサイエンス

「PyTorchでのSoft Nearest Neighbor Lossの実装方法」

表現学習は、深層ニューラルネットワークによって与えられたデータセット内の最も顕著な特徴を学習するタスクです通常は教師...

AIニュース

「AIの成長する需要が世界的な水不足を引き起こす可能性がある」

人工知能は技術革命の原動力でありながら、静かに私たちの水資源を枯渇させています。OpenAIのChatGPTなどの高度なシステムを...

機械学習

「One-2-3-45++に出会ってみましょう:おおよその1分で単一の画像を詳細な3Dテクスチャメッシュに変換する革新的な人工知能手法」

UCサンディエゴ、浙江大学、清華大学、UCLA、およびスタンフォード大学の研究者たちは、高速かつ高品質な3Dオブジェクト生成...