Google Researchが、凍結された大規模言語モデル(LLM)を用いたマルチモーダル生成のための自己符号化器(SPAE)を紹介します

Google Researchがマルチモーダル生成のための自己符号化器(SPAE)を紹介します

大規模言語モデル(LLM)は、自然言語処理と自然言語理解の非凡な能力により、急速に大きな人気を博してきました。人間とコンピューターの相互作用の方法を革新したこの最近の人工知能の分野の発展により、OpenAIによって開発された最近のモデルであるChatGPTは、GPTのトランスフォーマーアーキテクチャに基づいており、現実的な会話をするための人間の模倣として有名であり、質問応答やコンテンツ生成からコード補完、機械翻訳、テキスト要約まで、あらゆることができます。

LLMは、語彙的な埋め込みを通じて世界についての深い概念的な知識をキャプチャすることに優れています。しかし、研究者たちは、適切な視覚表現が入力された場合に凍結されたLLMが視覚的なモダリティタスクを完了できるようにするための努力を続けています。研究者たちは、画像を凍結されたLLMのトークン空間にマッピングするベクトル量子化器の使用を提案しており、これにより、LLMが理解できる言語に画像を変換し、画像テキストのペアでトレーニングする必要なく、LLMの生成能力を利用して条件付けられた画像の理解と生成のタスクを実行することが可能になります。

このクロスモーダルタスクを対処し、促進するために、Google Researchとカーネギーメロン大学の研究者チームは、Semantic Pyramid AutoEncoder(SPAE)を紹介しました。SPAEは、凍結された大規模言語モデルを使用したマルチモーダル生成のためのオートエンコーダであり、信号再構築のために詳細を保持しながら、豊かな意味を持つ語彙的な単語シーケンスを生成します。SPAEでは、オートエンコーダアーキテクチャを階層ピラミッド構造と組み合わせており、以前のアプローチとは対照的に、SPAEは画像を解釈可能な離散潜在空間、つまり単語にエンコードします。

SPAEトークンのピラミッド状の表現には、複数のスケールがあり、ピラミッドの下層では画像再構築のための詳細な表現を優先し、ピラミッドの上層には意味的に中心的な概念が含まれます。このシステムは、異なるタスクに対応するためにトークンの長さを動的に調整することができ、知識を必要とするタスクではより少ないトークンを使用し、生成を必要とするジョブではより多くのトークンを使用します。このモデルは、言語モデルを通じて逆伝播する必要なく、独立してトレーニングされました。

SPAEの効果を評価するために、研究チームは、画像理解のタスク、画像分類、画像キャプショニング、ビジュアルクエスチョンアンサリングなどの実験を行いました。結果は、LLMが視覚的なモダリティをどれだけうまく処理できるか、コンテンツ生成、デザイン支援、インタラクティブストーリーテリングなどの優れたアプリケーションを示しています。研究者たちはまた、インコンテキストノイズリングの方法を使用して、LLMの画像生成能力を説明しました。

チームは、貢献を次のようにまとめています:

  1. この研究では、言語トークンだけでトレーニングされた凍結言語モデルを使用して、インコンテキスト学習を使用した直接的な視覚コンテンツの生成の素晴らしい方法を提供します。
  1. Semantic Pyramid AutoEncoder(SPAE)は、意味的な概念と細かい詳細の解釈可能な表現を生成するために提案されました。トークナイザが生成する多言語の言語トークンは、カスタマイズ可能な長さを持っており、視覚情報の微妙なニュアンスをキャプチャするためにより柔軟性と適応性を持っています。
  1. 進行的なプロンプティング方法も導入されており、言語と視覚モダリティのシームレスな統合を可能にし、品質と精度の向上をもたらす包括的で一貫したクロスモーダルシーケンスの生成を実現しています。
  1. この手法は、同一のインコンテキスト条件下での最先端のフューショット画像分類の精度を絶対的な差で25%上回っています。

総括すると、SPAEは言語モデルと視覚理解のギャップを埋める重要な突破口です。LLMのクロスモーダルタスクの処理能力の驚異的なポテンシャルを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

専門AIトレーニングの変革- LMFlowの紹介:優れたパフォーマンスのために大規模な基盤モデルを効率的に微調整し、個別化するための有望なツールキット

大規模言語モデル(LLMs)は、大規模な基盤モデルの上に構築されており、以前は不可能だったさまざまなタスクを実行する一般...

人工知能

「CG ギークが VFX を楽々に作ります 今週の 'NVIDIA Studio'」

編集者の注:この記事は、当社の週刊企画「In the NVIDIA Studio」シリーズの一環であり、注目のアーティストを紹介し、クリ...

機械学習

「読むアバター:リアルな感情制御可能な音声駆動のアバター」

「既存の音声駆動型のディープフェイクの重要な制約の1つは、スタイル属性をより制御できる能力の必要性です理想的には、これ...

データサイエンス

「Juliaでスクラッチから作成するゲート付き再帰ニューラルネットワーク」

私は以前から、科学プログラミングとデータサイエンスのためにJuliaを学び始めましたJuliaの持つ統計的な強力さと、Rの表現力...

AI研究

中国の研究者がiTransformerを提案:時間系列予測のためのTransformerアーキテクチャの見直し

トランスフォーマーは、自然言語処理とコンピュータビジョンで大成功を収めた後、スケーリングのルールに従う基本モデルとな...

データサイエンス

極小データセットを用いたテキスト分類チャレンジ:ファインチューニング対ChatGPT

Toloka MLチームは、さまざまな条件下でのテキスト分類の異なるアプローチを継続的に研究し比較していますここでは、NLPのパ...