中国からの新しいAI研究、「Meta-Transformer マルチモーダル学習のための統一されたAIフレームワーク」を提案する

中国からの新しいAI研究を提案する:Meta-Transformer マルチモーダル学習のための統一されたAIフレームワーク

人間の脳は、視覚、聴覚、触覚の信号など、さまざまな感覚入力からの情報を同時に処理する神経ネットワーク理論の典型とされています。さらに、ある情報源からの理解が別の情報源の知識に役立つこともあります。しかし、深層学習におけるモダリティの隔たりの大きさのため、さまざまな入力形式を処理できる統合ネットワークを構築するには多くの作業が必要です。あるデータモダリティでトレーニングされたモデルは、各データモダリティの異なるデータパターンと連携するために調整する必要があります。口述言語とは対照的に、写真は画像中のピクセルが密集しているため、かなりの情報冗長性を持っています。

一方、点群は3D空間でのまばらな分布とノイズへの感受性の増加のため、記述が困難です。オーディオスペクトログラムは、異なる周波数領域の波の組み合わせから成る時間変動する非定常データパターンです。ビデオデータは、一連の画像フレームから成るため、空間情報と時間的ダイナミクスを記録する特有の能力を持っています。グラフデータは、アイテムをノード、関係をエッジとしてグラフ内で複雑な多対多の相互作用をモデル化します。異なるデータモダリティ間の大きな不均衡のため、各データモダリティを独立にエンコードするために他のネットワークトポロジーを使用することが一般的な手法です。

たとえば、Point Transformerは、3D座標から構造情報を抽出するためにベクトルレベルの位置注意を使用しますが、写真や自然言語の文章、オーディオスペクトログラムのスライスをエンコードすることはできません。したがって、さまざまなデータタイプをエンコードするために複数のモダリティで共有されるパラメータ空間を使用できる単一のフレームワークを作成するには、時間と努力がかかります。最近開発されたVLMO、OFA、BEiT-3などの統合フレームワークは、対になったデータで広範なマルチモーダルプリトレーニングを通じて、ネットワークのマルチモーダル理解能力を向上させました。ただし、ビジョンと言語に重点を置いているため、完全なエンコーダをモダリティ間で共有することはできません。ディープラーニングは、自然言語処理(NLP)のために他の研究者が提案したトランスフォーマーアーキテクチャと注意メカニズムから大いに恩恵を受けています。

これらの進展により、2Dビジョン(ViTやSwin Transformerを含む)、3Dビジョン(Point TransformerやPoint-ViTを含む)、音響信号処理(AST)など、さまざまなモダリティでの知覚が大幅に向上しました。これらの研究は、トランスフォーマーベースの設計の適応性を示し、いくつかのモダリティを組み合わせるための基礎モデルが作成できるかどうかを研究するための学術界の動機を提供し、最終的にはすべてのモダリティでの人間レベルの知覚を実現する可能性を追求しています。図1は、トランスフォーマーデザインの潜在能力を調査するために、画像、自然言語、点群、オーディオスペクトログラム、ビデオ、赤外線、高分光、X線、IMU、表形式、グラフ、時系列データなど、12のモダリティを扱うMeta-Transformerを使用している様子を示しています。

図1: Meta-Transformerを使用して、自然言語、画像、点群、オーディオ、ビデオ、赤外線、高分光、X線、時系列、表形式、慣性計測ユニット(IMU)、グラフデータをすべて同じバックボーンを使用してエンコードする方法を示しています。トランスフォーマーシステムが統合されたマルチモーダルインテリジェンスを提供する可能性を示しています。

彼らは、トランスフォーマーを使用した各モダリティの学習プロセスについて説明し、それらを統合フレームワークに組み合わせる際の困難について取り組んでいます。その結果、香港中文大学と上海AIラボの研究者は、Meta-Transformerという新しい統合型マルチモーダル学習フレームワークを提案しています。最初のフレームワークであるMeta-Transformerは、12の異なるモダリティからの入力を同時にエンコードするために同じセットのパラメータを使用し、より統合されたアプローチのマルチモーダル学習を実現します。データからシーケンスへのトークン化のためのモダリティ専門家、モダリティ共有エンコーダ、ダウンストリームタスクのためのタスク固有のヘッドという、3つのシンプルで貴重な構成要素がMeta-Transformerにあります。より具体的には、Meta-Transformerはまず、マルチモーダルデータから共有の多様体空間を持つトークンシーケンスを作成します。

その後、凍結されたパラメータを持つモダリティ共有エンコーダを使用して表現が抽出されます。個々のタスクは、軽量なトークナイザと更新されたダウンストリームタスクヘッドのパラメータを使用してさらにカスタマイズされます。最終的に、この簡単なアプローチによってタスク固有およびモダリティ一般の表現を効率的に学習することができます。彼らは12のモダリティからいくつかの標準を使用して重要な研究を行います。Meta-Transformerは、LAION-2Bデータセットの画像のみを使用して事前学習を行い、さまざまな多モーダル学習タスクで最先端の技術を常に上回る優れた処理能力を発揮します。

まとめると、彼らの貢献は以下の通りです:

• 彼らはMeta-Transformerと呼ばれるユニークなフレームワークを提供し、単一のエンコーダを使用して同じパラメータセットを使用して複数のモダリティから表現を同時に抽出することが可能になります。

• 彼らはTransformerの構成要素である埋め込み、トークナイゼーション、およびエンコーダが多モーダルネットワークアーキテクチャの処理に果たす役割について徹底的に調査しました。

• 実験的に、Meta-Transformerは12のモダリティに関するさまざまなデータセットで優れたパフォーマンスを達成し、統一された多モーダル学習のさらなる可能性を検証します。

• Meta-Transformerは、すべてのモダリティを統合するモダリティ非依存のフレームワークの開発における有望な新しい方向性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

3B、4B、9B のスケールで 5 つの新しいマルチモーダルモデルを備えた OpenFlamingo チームが、前モデルを上回る OpenFlamingo v2 をリリースしました

ワシントン大学、スタンフォード大学、AI2、UCSB、Googleの研究者グループは、最近OpenFlamingoプロジェクトを開発しました。...

機械学習

「GoogleのDeblur AI:画像をシャープにする」

「私たちの常に進化するデジタル時代において、写真を通じて瞬間を捉えて共有することが私たちの生活の重要な一部となった中...

機械学習

クロスバリデーションの助けを借りて、あなたの機械学習モデルに自信を持ちましょう

「訓練された機械学習モデルを訓練データ自体で評価することは基本的に間違っていますもし評価が行われれば、モデルは訓練中...

AI研究

このAIリサーチはGAIAを紹介します:一般AIの能力の次のマイルストーンを定義するベンチマーク

FAIR Meta、HuggingFace、AutoGPT、GenAI Metaの研究者は、論理思考や多様性のハンドリングなどの基本的なスキルを必要とする...

AI研究

「強力な遺産:研究者の母が核融合への情熱をかきたてる」

編集者のメモ:これは、高性能コンピューティングを用いて科学を進める研究者を紹介するシリーズの一部です。 高校に入る前、...