「MatFormerをご紹介します:プラットフォーム間で柔軟なモデル展開を可能にする、汎用なネストされたTransformerアーキテクチャ」

「MatFormer 柔軟なモデル展開を可能にする汎用なネストされたTransformerアーキテクチャをご紹介」

Transformerモデルは、強力なマルチアクセラレータクラスタから個々のモバイルデバイスまで、さまざまなアプリケーションで使用されます。これらの設定での推論のさまざまな要件により、開発者はPaLM 2、Llama、ViTsなどの基本モデルを異なるサイズでトレーニングします。ただし、トレーニングに関連する高いコストにより、サポートされるモデルサイズの範囲が制限されます。

大規模な基本モデルは、モバイル電話での迅速な応答や大規模なWebアプリケーションのマルチクラスタGPUでのバッチ処理など、さまざまな状況で使用されます。各モデルは、さまざまな状況に対応するために、異なるサイズで独立にトレーニングされたモデルの選択肢を提供します。これらのモデルサイズは、通常、対数スケールでおおよそ線形にグループ化されます。

そのため、Google Research、テキサス大学オースティン校、ワシントン大学、ハーバード大学の研究者グループは、最新の論文「MatFormer:Elastic InferenceのためのネストされたTransformer」で明らかにしたように、アダプタビリティのために明示的に作成されたTransformerアーキテクチャであるMatFormerを導入しました。MatFormerを使用すると、追加のトレーニングなしで多数の小さなサブモデルを生成できる統合モデルを構築することが容易になります。

彼らは、標準のTransformer内にネストされたサブ構造を組み込み、すべての粒度を共同で最適化して、単一の汎用弾性モデルを生成しています。

研究者たちは、意図的にさまざまなサイズの情報をユニバーサルなMatFormerモデルのさまざまなレイヤーに混在させることで、追加のトレーニングコストを負担せずに多くの正確なサブモデルを生成したと強調しています。MatFormerアーキテクチャの各Feed Forward Network(FFN)ブロックは、より小さなネストされたFFNブロックのコレクションで最適化されています。このトレーニングアプローチにより、異なるレイヤー間でモデルの複雑さを組み合わせて調整しました。

ネスト構造は、Feed Forward Network(FFN)ブロックの非表示表現上に実装されており、注意ヘッドが重要度の順に配置されることでモデルの能力が拡大されます。最も重要なものから最も重要でないものまで、注意ヘッド内のサブ構造が作成されます。より重要なヘッドがより多くのサブモデルに分散されるため、独立してトレーニングされた同等のTransformerベースのサブモデルに比べてトレーニングが15%加速されます。さらに、この方法は特に最適化されたサブモデルカーブと整合し、精度を維持しながら複数の小さなサブモデルの抽出を許可します。

研究者たちは、MatFormerの各レイヤーに対して異なる詳細レベルを選択することで、さまざまな正確な小さいモデルをさらなる最適化なしに生成できることを発見しました。

研究チームは、モデルの種類(デコーダとエンコーダ)、モダリティ(言語とビジョン)、およびスケール(最大26億パラメータまで)の効果を研究しました。研究者たちは、これらの小さなモデルを独立にトレーニングされた対応するモデルと比較することで、類似の検証損失とワンショットのダウンストリームパフォーマンスを実証しました。また、MatFormerは堅牢な汎化性を示し、ビジョンエンコーダ(MatViT)およびデコーダのみの言語モデル(MatLM)として優れた動作をします。精度と信頼性の面では、従来のTransformerに類似したスケーリングを実現しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「AIコントロールを手にして、サイバーセキュリティシステムに挑戦しましょう」

あなたの組織のデータは、サイバー犯罪者の悪意のある行為に対して免疫を持っていますか?そうでなければ、弱い防御システム...

人工知能

ウェブコンテンツの選択肢と制御を進化させるための原則に基づいたアプローチ

私たちは、Webパブリッシャーの選択肢とコントロールを提供するための新しい機械可読手段の開発に向けて、WebおよびAIコミュ...

AI研究

「産業界が音声AIを活用して消費者の期待に応えている方法」

急速な技術の進歩のおかげで、消費者は前例のないほどの便利さと効率性に慣れてきました。 スマートフォンを使えば、商品を検...

人工知能

生成型AIによる検索のスーパーチャージ

私たちは、ジェネレーティブAIを使用するSGE(Search Generative Experience)という名前の検索ラボの実験から始めます

AIニュース

Googleがコンテンツを評価する方法:最新の更新

グーグルは、世界をリードする検索エンジンであり、人工知能(AI)技術の理解と適応において重要な進展を遂げています。最近...

機械学習

「BoomiのCEOが統合と自動化プラットフォームのビジョンを概説」

「AIを活用したプラットフォームがデジタルの分断を乗り越え、開発者に力を与え、企業がより迅速にデータからビジネス価値を...