CMUの研究者がFROMAGeを紹介:凍結された大規模言語モデル(LLM)を効率的に起動し、画像と交錯した自由形式のテキストを生成するAIモデル

CMUの研究者がFROMAGeを紹介:AIモデルであるFROMAGeは、凍結された大規模言語モデル(LLM)を効率的に起動し、画像と交錯した自由形式のテキストを生成します

巨大な言語モデル(LLM)は、大規模なテキストコーパスでスケールに基づいて訓練されているため、人間のような話し言葉を生成したり、複雑な問いに応答したりするなど魅力的なスキルを発揮することができます。これらのモデルは非常に素晴らしいものですが、ほとんどの先端的なLLMはインターネットからダウンロードしたテキストデータのみで訓練されています。そのため、豊富な視覚的手がかりに触れる必要があるため、実世界に基づく概念を吸収することができません。その結果、現在使用されているほとんどの言語モデルは、視覚的な推論や基盤を必要とするタスクに制約があり、また視覚的な要素を生成することができません。本記事では、凍結されたLLMの能力をマルチモーダル(画像とテキスト)の入力と出力に効果的に使用する方法を示しています。

彼らは、言語モデルを訓練して、画像の代わりになる[RET]トークンを学習させ、コントラスティブラーニングを使用して[RET]の埋め込みを、それに関連する画像の視覚的な埋め込みに近づける線形マッピングも行っています。訓練中には、線形層と[RET]トークンの埋め込みの重みのみが更新され、モデルの大部分は凍結されたままです。そのため、彼らの提案手法はメモリと計算効率が非常に高いです。訓練が完了すると、モデルはいくつかのスキルを示します。元のテキストのみのLLMがテキストを生成する能力に加えて、新たなマルチモーダルの会話と推論のスキルを持っています。彼らの提案手法はモデルに依存せず、より強力なまたは大きなLLMの将来のリリースの基盤として使用することができます。

言語モデルは、画像を表す新しい[RET]トークンを学習し、コントラスティブラーニングを使用して、キャプションの[RET]の埋め込みを対応する画像の視覚的な埋め込みに近づける線形マッピングを行います。訓練中には、線形層と[RET]トークンの埋め込みの重みのみが更新され、モデルの大部分は固定されたままです。その結果、彼らの提案手法はメモリと計算効率が非常に高いです。訓練が完了すると、彼らのモデルはいくつかのスキルを示します。元のテキストのみのLLMがテキストを生成する能力に加えて、新たなマルチモーダルの会話と推論のスキルを持っています。彼らの提案手法はモデルに依存せず、より強力なまたは大きなLLMの将来のリリースの基盤として使用することができます。

オートリグレッシブLLMによるテキストから画像への検索の感度の向上を示しています。彼らの主な貢献の一つは、凍結された検索を使用したマルチモーダルデータに対するオートリグレッシブジェネレーション(FROMAGe)モデルであり、画像キャプションとコントラスティブラーニングを通じてLLMを視覚的に固定することが効果的に訓練されています。以前のアルゴリズムはウェブスケールの画像テキストデータが必要でしたが、FROMAGeは画像キャプションのペアだけから強力なフューショットのマルチモーダル能力を開発しています。彼らの手法は、以前のモデルよりも長く複雑な自由形式のテキストに対してより正確です。視覚的な入力を必要とするタスクにおいて、事前に訓練されたテキストのみのLLMの現在のスキル、コンテキストでの学習、入力の感度、会話の作成などを活用する方法を示しています。

彼らは以下を示しています:(1) 画像とテキストが交互に並ぶシーケンスからの文脈に基づいた画像の検索、(2) ビジュアルな会話におけるゼロショットの優れたパフォーマンス、および(3) 画像の検索における強化された対話文脈の感度。彼らの結果は、マルチモーダルなシーケンスの学習と生成を可能にするモデルの可能性を示しています。また、視覚に基づくタスクでの事前に訓練されたテキストのみのLLMの能力も強調しています。より多くの研究開発を促進するために、彼らのコードと事前訓練モデルは近々一般に公開される予定です。

このアプローチを使用することで、言語モデルは視覚領域に基づいて固定され、任意の画像テキスト入力を処理し、一貫した画像テキスト出力を生成することができます。緑の吹き出しはモデルによって作成され、グレーの吹き出しは入力プロンプトを表します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

安定性AIの新しいアップカミングツールは、AIを使用して3Dモデルを生成します

3Dモデルの作成は常に困難で時間がかかる作業であり、数時間または数日にわたる綿密な作業が必要です。この難しさは、3Dコン...

AI研究

「マイクロソフトの研究者がSpeechXを紹介:ゼロショットのTTSと様々な音声変換タスクに対応する多目的音声生成モデル」

テキスト、ビジョン、音声など、複数の機械学習アプリケーションは、生成モデルの技術において急速かつ重要な進展を遂げてき...

機械学習

BITEとは 1枚の画像から立ち姿や寝そべりのようなポーズなど、困難なポーズでも3D犬の形状とポーズを再構築する新しい手法

生物学や保全、エンターテインメントや仮想コンテンツの開発など、多くの分野で3D動物の形状や態度を捕捉してモデリングする...

データサイエンス

「バイアス調整の力を明らかにする:不均衡なデータセットにおける予測精度の向上」

データサイエンスの領域では、不均衡なデータセットを効果的に管理することが正確な予測には重要です主要なクラスの差異が顕...

人工知能

DALLE-3の5つの使用例

「DALL-E 3を使って、あなたの生活を少しでも楽にする方法を学んでください(またはたくさん)」

AIニュース

「マルチモーダル人工知能とは?その応用と使用例」という文章です

技術革新によって定義され、技術進歩に支配される現代において、人工知能(AI)の領域は我々の生活を変革し、産業を再構築す...