Google AIはPixelLLMを提案します:細かい粒度のローカリゼーションとビジョン・ランゲージのアラインメントが可能なビジョン・ランゲージモデル

『Google AIがPixelLLMを提案:ビジョン・ランゲージモデルで可能な細部のローカリゼーションとアラインメント』

大規模言語モデル(LLMs)は、自然言語処理(NLP)、自然言語生成(NLG)、コンピュータビジョンなど、人工知能(AI)のサブフィールドの力を活用しています。LLMsにより、画像について複雑な推論を行い、画像に関するクエリに応答し、自然言語で画像を説明することが可能になりました。しかし、LLMsが単語の位置特定や位置の参照などの位置情報タスクを実行できるかはまだ不確かです。

この課題を解決するため、Google ResearchとUC San Diegoの研究チームが、PixelLLMという賢いモデルを導入し、細かい位置情報と画像-言語の整合性を実現することが可能になりました。このアプローチは、特に赤ちゃんがジェスチャーや指さし、命名などで自然に自分の視覚環境を説明する方法に着想を得ています。チームは、LLMsが視覚入力から空間的理解と推論をどのように派生できるかを見つけることを目標としていると共有しています。

PixelLLMは、言語モデルの各単語出力をピクセルの位置に密接に対応させます。これには、単語特徴の上に小さなマルチレイヤーパーセプトロン(MLP)が追加され、各単語のピクセル位置に回帰できるようになっています。低ランクのファインチューニング(LoRA)が使用され、言語モデルの重みを更新または凍結することができます。モデルはテキストまたは場所のプロンプトも受け取ることができ、プロンプトに合わせた出力を提供できます。

モデルのアーキテクチャには、画像エンコーダ、プロンプトエンコーダ、およびプロンプト特徴抽出器が含まれています。大規模言語モデルは、プロンプトに基づいた画像特性とオプションのテキストプロンプトを入力とし、単語ごとの位置特定とキャプションという形で出力します。言語または位置の様々な組み合わせを入力または出力として受け取る能力により、アーキテクチャは幅広い視覚言語活動に適応できます。

チームは、密なオブジェクトキャプショニングや位置条件付きキャプショニング、位置の参照など、よく知られたビジョンタスクを使用してモデルを評価しました。89.8 [email protected]のRefCOCOを参照した位置情報、Visual Genome条件付きキャプショニングの19.9 CIDEr、密なオブジェクトキャプショニングの17.0 mAPなど、優れたパフォーマンス指標を持つPixelLLMは、さまざまな課題において最先端の結果を示しています。ピクセルごとの密な位置特定の定式化が重要であることは、RefCOCOでの収縮研究によって示されており、他の位置特定の定式化に比べて3.7ポイントの利益を上げています。したがって、PixelLLMは正確なビジョン-言語の整列と位置情報を達成することに成功しています。

チームは、主な貢献を以下のようにまとめています。

  1. 「PixelLLM」という新しいビジョン-言語モデルを紹介し、単語の位置特定と画像キャプションを生成する。
  1. モデルは、画像入力に加えてテキストまたはオプションの場所の手がかりをサポートします。
  1. 位置特定のトレーニングには、ローカル化されたナラティブデータセットが使用されました。
  1. セグメンテーション、位置条件付きキャプショニング、参照位置、密なキャプショニングなど、さまざまなビジョン-言語タスクに適応することができます。
  1. 位置条件付きキャプショニング、密なキャプショニング、参照位置とセグメンテーションで優れた成果を示しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「Google.orgの新しい助成金は、永久凍土の融解を追跡するのに役立ちます」

新たな500万ドルの助成金は、Woodwell Climate Research Centerが北極の永久凍土の解凍をほぼリアルタイムで追跡するのを支援...

AIニュース

「AIが顧客がAmazonでより良いショッピングをするのを支援している方法」

顧客のレビューは、オンラインショッピングの基盤となり、購入前に貴重なインサイトを提供することで、購入者に力を与えてい...

機械学習

AI導入の迷宮を進む

「過去5年間、複数の企業と協力し、彼らがAIソリューションを展開するのを支援してきましたその過程で、いくつかの共通のパタ...

データサイエンス

スタンフォード大学の研究者たちは、安定した拡散に基づき、大規模な胸部X線および放射線データセットで微調整された「RoentGen」という人工知能(AI)モデルを開発しました

最近、高い忠実度、多様性、解像度を持つ画像を生成することが可能なデノイジング拡散モデルの一部である潜在的拡散モデル(L...

機械学習

CLIP基礎モデル

この記事では、CLIP(対照的な言語画像事前学習)の背後にある論文を詳しく解説しますキーコンセプトを抽出し、わかりやすく...

機械学習

RayはNVIDIA AIとの協業により、開発者が製品向けのLLMを構築、調整、トレーニング、スケールアップするのを支援します

大規模言語モデルの開発は、NVIDIAとAnyscaleのコラボレーションにより、超音速の速さに達する予定です。 Anyscaleは、急速に...