Google DeepMindの研究者は、機能を維持しながら、トランスフォーマーベースのニューラルネットワークのサイズを段階的に増やすための6つの組み合わせ可能な変換を提案しています

DeepMindの研究者は、トランスフォーマーベースのニューラルネットワークのサイズを増やすための6つの変換を提案しています

最近、トランスフォーマベースのニューラルネットワークは注目を集めています。トランスフォーマーアーキテクチャ(図1参照)は、機械翻訳、テキスト生成、質問応答など、自然言語処理の活動の中で業界標準として浮上しました。トランスフォーマベースのモデルの効果はNLPに制限されません。音声認識、コンピュータビジョン、レコメンデーションシステムなど、他のいくつかの分野でも成功を収めています。言語、ビジョン、マルチモーダルの基礎モデルは、数十億から数兆のパラメータを持つこれらのモデルの中で最も複雑で効果的です。

ただし、新しいモデルは通常、以前に学習した小さなモデルのスキルを活用せずに最初から教えられます。さらに、モデルのサイズはトレーニング中も一貫して維持されます。トレーニングに必要なトレーニングデータの量の増加により、モデルサイズの計算コストは二次的に増加します。事前学習モデルのパラメータを再利用するか、トレーニング中にモデルのサイズを動的に増やすことで、トレーニングの総コストを削減することができます。ただし、トレーニングの進捗を犠牲にすることなくこれを行うことは容易ではありません。これらの制限を解決するために、トランスフォーマベースのモデルには、機能保存パラメータ拡張変換が提供されています。

これらの変換は、モデルのサイズを増やし、その機能を変えずにモデルの潜在的な容量を増やすため、トレーニングを継続できます。これらの組み合わせ可能な変換は、アーキテクチャの独立した次元で動作し、細粒度なアーキテクチャの拡張を可能にします。以前の研究では、小さな畳み込みモデルや密なモデルのための技術を拡張したトランスフォーマベースのモデルのための機能保存パラメータ拡張変換も提案されています。

図1は、トランスフォーマーデザインに基づく典型的なニューラルネットワークの様子を示しています。

この研究では、Google DeepMindとトゥールーズ大学の研究者が、トランスフォーマアーキテクチャに適用される機能保存変換の最も包括的でモジュラーなコレクションを開発しました。この論文の6つの貢献は、トランスフォーマーアーキテクチャに適用される6つの組み合わせ可能な機能保存変換です。以下に示します。

  1. MLP内部表現のサイズ
  2. アテンションヘッドの数
  3. アテンションヘッドの出力表現のサイズ
  4. アテンション入力表現のサイズ
  5. トランスフォーマーレイヤーの入力/出力表現のサイズ
  6. レイヤーの数

著者たちは、各変換において追加パラメータの初期化に可能な制限を最小限に抑えながら、正確な機能保存性がどのように達成されるかを実証しています。これらの貢献については、論文で詳しく議論されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「LangChainとGPT-4を使用した多言語対応のFEMAディザスターボットの研究」

この記事では、洪水や竜巻などの災害に備え、生き残るために、多言語対応のアメリカ連邦緊急事態管理庁(FEMA)の災害チャッ...

AI研究

メタAI研究者が生産準備完了の強化学習AIエージェントライブラリ「Pearl」をオープンソース化

強化学習(RL)は、エージェントが適切なアクションを取り、報酬を最大化するために学習する機械学習のサブフィールドです。...

AIニュース

『AI規制に関するEUの予備的な合意:ChatGPTへの影響』

ヨーロッパ連合は最近、広く認識されているChatGPTを含む先進的なAIモデルの規制に関する予備的な合意を仲介しました。これは...

機械学習

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク:違いは何ですか?」

テクノロジーの急速な進化は、ビジネスが効率化のために洗練されたアルゴリズムにますます頼ることで、私たちの日常生活を形...

機械学習

NLPの探究- NLPの立ち上げ(ステップ#2)を探る

最近、面接の一環として、2つの質問を探求するよう求められ、その過程で新しい概念を学びました以下に、2つの質問に対する私...

データサイエンス

分析から実際の応用へ:顧客生涯価値の事例

データサイエンティスト、マーケター、あるいはデータリーダーであろうと、もし「顧客生涯価値」をGoogleで検索したことがあ...