「ビジョン・ランゲージの交差点でのブレイクスルー：オールシーイングプロジェクトの発表」

Breakthrough at the Intersection of Vision and Language Announcement of the All-Seeing Project

AIチャットボットの急速な台頭を支えるLLMは、話題の的です。ユーザーに合わせた自然言語処理機能において驚異的な能力を示していますが、視覚世界を理解する能力には欠けているようです。視覚と言語の世界のギャップを埋めるために、研究者たちはオールシーイング（AS）プロジェクトを提案しています。

ASプロジェクトは、オープンワールドのパノプティックな視覚認識と理解を目指し、人間の認知を模倣するビジョンシステムの構築を目指しています。”パノプティック”という用語は、一つの視点で見えるすべてを含むことを指します。

ASプロジェクトは以下の要素から構成されています：

オールシーイング1B（AS-1B）データセットは、現実世界の広範で珍しい3.5百万の概念をカバーしており、これらの概念とその属性を説明する1322億のトークンを持っています。
オールシーイングモデル（ASM）は、統一された位置情報を考慮した画像テキストの基礎モデルです。このモデルは、位置情報を考慮した画像トークナイザとLLMベースのデコーダの2つの主要なコンポーネントで構成されています。

このデータセットには、意味的なタグ、位置、質問応答のペア、キャプションなど、さまざまな形式で1億以上の領域の注釈が含まれています。ImageNetやCOCOなどの従来の視覚認識データセット、Visual GenomeやLaion-5Bなどの視覚理解データセットと比較して、AS-1Bデータセットは、豊富で多様なインスタンスレベルの位置注釈と対応する詳細なオブジェクトの概念と説明があるため、際立っています。

ASモデルのアーキテクチャは、さまざまなレベルの統一されたフレームワークで構成されています。このモデルは、画像レベルと領域レベルの対比的なおよび生成的な画像テキストのタスクをサポートしています。事前学習されたLLMと強力なビジョン基盤モデル（VFM）を活用することで、このモデルは、画像テキストの検索やゼロ分類などの識別的なタスク、およびビジュアルクエスチョンアンサリング（VQA）、ビジュアルリーズニング、画像キャプショニング、領域キャプショニング/VQAなどの生成的なタスクにおいて、有望なパフォーマンスを示しています。さらに、研究者たちは、クラスに依存しない検出器の支援を受けてフレーズのグラウンディングや参照表現の理解などのタスクに潜在的な可能性を見出しています。

オールシーイングモデル（ASM）は、次の3つの主要な設計要素で構成されています：

位置情報を考慮した画像トークナイザは、画像とバウンディングボックスに基づいて画像レベルと領域レベルの特徴を抽出します。
訓練可能なタスクプロンプトは、ビジョンとテキストのトークンの先頭に組み込まれ、識別的なタスクと生成的なタスクを区別するためにモデルをガイドします。
LLMベースのデコーダは、識別的なタスクのためのビジョンとテキストの特徴を抽出し、生成的なタスクでは応答トークンを自己回帰的に生成するために使用されます。

ASMとCLIPベースのベースラインモデル（GPT-2および3のゼロショット機能を表示）および主要なマルチモダリティ大規模言語モデル（VLLM）を代表するビジョンタスク（ゼロショット領域認識、画像レベルキャプション、領域レベルキャプションなど）で分析および比較することにより、ASMの品質、スケーリング、多様性、および実験に関する包括的なデータ分析が行われました。その結果、当社のASMによる強力な領域レベルのテキスト生成能力が示され、また、全体の画像を理解する能力も示されました。人間の評価結果は、当社のASMによって生成されたキャプションがMiniGPT4やLLaVAよりも好まれることを示しています。

このモデルは、オープンエンドの言語プロンプトと位置情報でトレーニングされており、領域テキストの検索、領域認識、キャプション付け、質問応答など、ゼロショットのパフォーマンスを持つさまざまなビジョンと言語のタスクに汎化することができます。これにより、LLMに「全見の目」が与えられ、ビジョンと言語の交差点が革新されたと研究者は述べています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceComputer VisionEditors PickLanguage modelMachine learningStaffTech NewsTechnology

Was this article helpful?

93 out of 132 found this helpful

「ビジョン・ランゲージの交差点でのブレイクスルー：オールシーイングプロジェクトの発表」

Breakthrough at the Intersection of Vision and Language Announcement of the All-Seeing Project

Was this article helpful?

「大規模言語モデルのパディング — Llama 2を用いた例」

レコメンドシステムの評価指標 — 概要

機械学習

「AIと脳インプラントにより、麻痺した男性の運動と感覚が回復する」

「明日のニュースを、今日に！」ニュースGPTが新しいAI技術の「ニュース予報」を紹介

8つの方法でGoogleレンズがあなたの生活をより簡単にする方法

AIパワードテックカンパニーが、食品小売業者に供給チェーン管理での新たなスタートを支援します

Deep learning論文の数学をPyTorchで効率的に実装する：SimCLR コントラスティブロス

Taplio LinkedInの成長に最適なAIツール