「CMUの研究者らが提案するGILL:LLMと画像エンコーダおよびデコーダモデルを統合するためのAIメソッド」

GILL An AI method integrating LLM, image encoder, and decoder models proposed by researchers at CMU.

OpenAIの新しいGPT 4のリリースにより、大規模言語モデルの多様性が導入されました。以前のバージョンであるGPT 3.5は、テキスト入力を受け付けるためにChatGPTが使用されていましたが、最新のGPT-4はテキストだけでなく画像も入力として受け付けます。最近、カーネギーメロン大学の研究者チームはGenerating Images with Large Language Models (GILL)という手法を提案しました。この手法は、マルチモーダル言語モデルを拡張し、ユニークな画像を生成することに焦点を当てています。

GILL手法により、画像とテキストが混在した入力を処理し、テキストを生成し、画像を取得し、新しい画像を作成することが可能となります。GILLは、異なるテキストエンコーダを使用するモデルが、凍結されたテキストのみのLLMの出力埋め込み空間から凍結された画像生成モデルの埋め込み空間への転送によってこれを実現しています。他の手法とは異なり、画像とテキストのペアリングを使用して、わずかなパラメータのファインチューニングを行うことで、マッピングを実現しています。

チームは、この手法が、凍結されたテキストの大規模言語モデルと既に訓練された画像エンコーディングおよびデコーディングモデルを組み合わせています。これにより、画像検索、ユニークな画像生成、マルチモーダル対話など、幅広いマルチモーダル機能を提供することができます。これは、モダリティの埋め込み空間をマッピングして統合することによって実現されています。GILLは、混在した画像とテキストの入力を条件付きで処理し、一貫性のある読みやすい出力を生成します。

この手法は、優れたパフォーマンスを発揮するために、LLMをテキストから画像生成モデルに接続する効果的なマッピングネットワークを提供します。このマッピングネットワークは、非表示のテキスト表現を視覚モデルの埋め込み空間に変換します。これにより、LLMの強力なテキスト表現を使用して、美学的に一貫した出力を生成します。

この手法により、モデルは指定されたデータセットから画像を取得するだけでなく、新しい画像も作成することができます。モデルは推論時に画像を生成するか取得するかを選択します。LLMの非表示表現に依存する条件付きの学習済み決定モジュールを使用して、この選択を行います。この手法は、トレーニング時に画像生成モデルを実行する必要がないため、計算効率が高いです。

この手法は、特に長くて複雑な言語を必要とするタスクにおいて、ベースラインの生成モデルよりも優れたパフォーマンスを発揮します。比較して、GILLはStable Diffusion手法よりも長い形式のテキスト(対話や議論を含む)の処理において優れた性能を発揮します。GILLは、非LLMベースの生成モデルよりも対話条件付きの画像生成において優れた性能を発揮し、マルチモーダルなコンテキストを活用して与えられたテキストにより適合する画像を生成します。従来のテキストから画像へのモデルがテキスト入力のみを処理するのに対して、GILLは任意の交互に配置された画像とテキストの入力も処理することができます。

まとめると、Generating Images with Large Language Models(GILL)は、以前のマルチモーダル言語モデルと比較して、より幅広い能力を持つ有望な手法です。コンテキストの依存性を測定するさまざまなテキストから画像へのタスクにおいて、非LLMベースの生成モデルを上回る能力を持つため、マルチモーダルタスクにおける強力な解決策となります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

QLoRAを使用して、Amazon SageMaker StudioノートブックでFalcon-40Bと他のLLMsをインタラクティブにチューニングしてください

大規模な言語モデル(LLM)の微調整により、オープンソースの基礎モデルを調整して、特定のドメインタスクでのパフォーマンス...

データサイエンス

「ChatGPT Essentials:必要なデータサイエンスのチートシート」

イントロダクション 広大なデータセットから意味のある情報を抽出するために、アルゴリズム、統計学、および専門知識が交わる...

AIニュース

ビデオ編集は、VideoCrafterとともに新しい時代へ高品質なビデオ生成のためのオープンディフュージョンAIモデル

VideoCrafterは新しいオープンソースのビデオ作成および編集スイートです。このスイートは機械学習モデル、拡散モデルによっ...

データサイエンス

「このAI論文は、すべての科学分野をカバーする学術データを含む26億以上のトリプルを持つ包括的なRDFデータセットを紹介しています」

最近の研究について追いつくことは、科学論文の増加によりますます困難になっています。たとえば、2022年だけでも800万以上の...

機械学習

「読むアバター:リアルな感情制御可能な音声駆動のアバター」

「既存の音声駆動型のディープフェイクの重要な制約の1つは、スタイル属性をより制御できる能力の必要性です理想的には、これ...

機械学習

このAIニュースレターは、あなたが必要とするすべてです #66

AIの今週のトピックスでは、OpenAIが再び注目を浴びましたChatGPTに新たな音声と画像の機能を追加する計画が発表されたからで...