「ビジョン・ランゲージの交差点でのブレイクスルー:オールシーイングプロジェクトの発表」

Breakthrough at the Intersection of Vision and Language Announcement of the All-Seeing Project

AIチャットボットの急速な台頭を支えるLLMは、話題の的です。ユーザーに合わせた自然言語処理機能において驚異的な能力を示していますが、視覚世界を理解する能力には欠けているようです。視覚と言語の世界のギャップを埋めるために、研究者たちはオールシーイング(AS)プロジェクトを提案しています。

ASプロジェクトは、オープンワールドのパノプティックな視覚認識と理解を目指し、人間の認知を模倣するビジョンシステムの構築を目指しています。”パノプティック”という用語は、一つの視点で見えるすべてを含むことを指します。

ASプロジェクトは以下の要素から構成されています:

  • オールシーイング1B(AS-1B)データセットは、現実世界の広範で珍しい3.5百万の概念をカバーしており、これらの概念とその属性を説明する1322億のトークンを持っています。
  • オールシーイングモデル(ASM)は、統一された位置情報を考慮した画像テキストの基礎モデルです。このモデルは、位置情報を考慮した画像トークナイザとLLMベースのデコーダの2つの主要なコンポーネントで構成されています。

このデータセットには、意味的なタグ、位置、質問応答のペア、キャプションなど、さまざまな形式で1億以上の領域の注釈が含まれています。ImageNetやCOCOなどの従来の視覚認識データセット、Visual GenomeやLaion-5Bなどの視覚理解データセットと比較して、AS-1Bデータセットは、豊富で多様なインスタンスレベルの位置注釈と対応する詳細なオブジェクトの概念と説明があるため、際立っています。

ASモデルのアーキテクチャは、さまざまなレベルの統一されたフレームワークで構成されています。このモデルは、画像レベルと領域レベルの対比的なおよび生成的な画像テキストのタスクをサポートしています。事前学習されたLLMと強力なビジョン基盤モデル(VFM)を活用することで、このモデルは、画像テキストの検索やゼロ分類などの識別的なタスク、およびビジュアルクエスチョンアンサリング(VQA)、ビジュアルリーズニング、画像キャプショニング、領域キャプショニング/VQAなどの生成的なタスクにおいて、有望なパフォーマンスを示しています。さらに、研究者たちは、クラスに依存しない検出器の支援を受けてフレーズのグラウンディングや参照表現の理解などのタスクに潜在的な可能性を見出しています。

オールシーイングモデル(ASM)は、次の3つの主要な設計要素で構成されています:

  1. 位置情報を考慮した画像トークナイザは、画像とバウンディングボックスに基づいて画像レベルと領域レベルの特徴を抽出します。
  2. 訓練可能なタスクプロンプトは、ビジョンとテキストのトークンの先頭に組み込まれ、識別的なタスクと生成的なタスクを区別するためにモデルをガイドします。
  3. LLMベースのデコーダは、識別的なタスクのためのビジョンとテキストの特徴を抽出し、生成的なタスクでは応答トークンを自己回帰的に生成するために使用されます。

ASMとCLIPベースのベースラインモデル(GPT-2および3のゼロショット機能を表示)および主要なマルチモダリティ大規模言語モデル(VLLM)を代表するビジョンタスク(ゼロショット領域認識、画像レベルキャプション、領域レベルキャプションなど)で分析および比較することにより、ASMの品質、スケーリング、多様性、および実験に関する包括的なデータ分析が行われました。その結果、当社のASMによる強力な領域レベルのテキスト生成能力が示され、また、全体の画像を理解する能力も示されました。人間の評価結果は、当社のASMによって生成されたキャプションがMiniGPT4やLLaVAよりも好まれることを示しています。

このモデルは、オープンエンドの言語プロンプトと位置情報でトレーニングされており、領域テキストの検索、領域認識、キャプション付け、質問応答など、ゼロショットのパフォーマンスを持つさまざまなビジョンと言語のタスクに汎化することができます。これにより、LLMに「全見の目」が与えられ、ビジョンと言語の交差点が革新されたと研究者は述べています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

このAIツールでデータを即座に視覚化する

ChatCSVは、データ分析を友人にメッセージを送るように簡単にするAIツールです

機械学習

KPMGのジェネレーティブAIの未来への飛躍

驚くべき出来事の中で、コンサルティングと金融の世界は、生成型AIの台頭により、変革の旅を経験しています。ビッグフォーの...

機械学習

「Declarai、FastAPI、およびStreamlitを使用したLLMチャットアプリケーション— パート2 🚀」

前回のVoAGI記事(リンク🔗)の人気を受けて、LLMチャットアプリケーションの展開について詳しく説明しました皆様からのフィ...

データサイエンス

「モノのインターネット:進化と例」

「モノのインターネット(IoT)は単なる流行語ではなく、過去数十年間にわたって世界を変革してきた画期的な技術です」

AIテクノロジー

「生成AIに関する一般的な迷信を解明する 網羅的な探求」

イントロダクション テクノロジーは常に変化しており、生成的人工知能は近年の最も革命的な進展の一つです。この革新的な技術...

データサイエンス

「LLMsが幻覚を見るのを止めることはできますか?」

ほぼすべての人々の注目を集めている大規模言語モデル(LLM)ですが、このような技術の広範な展開は、それに関連するやや厄介...