「このAI研究は、姿勢オブジェクト認識を次のトークン予測として新しいアプローチを提案します」という意味です

「新たなアプローチとしての姿勢オブジェクト認識の次のトークン予測」とはどのような意味か

どのようにして効果的に物体認識にアプローチできるのでしょうか? Meta AIとメリーランド大学の研究チームは、画像埋め込みからテキストトークンを予測してラベルを形成するために言語デコーダを利用する新しい手法を開発し、物体認識の問題に取り組みました。また、パフォーマンスを損なうことなく、より効率的なデコーダの作成戦略も提案しました。

深層学習時代以前から存在した物体認識は、画像注釈に貢献してきました。領域のスライシングや単語の予測などの手法を用いて、領域と単語を語彙に基づいて結びつけました。画像とテキストを共有空間に共同埋め込みすることで、画像とテキストのマッチングに取り組み、フレーズのグラウンディングを強調しました。画像注釈はトピックモデルからトランスフォーマベースのアーキテクチャへ進化しました。GPTやLLaMAなどの言語モデルは視覚認識に貢献し、検出、フューショット認識、説明、推論などに応用されました。言語モデルからの建築的な概念、例えばプレフィックスのアイデアなどは、ビジョン-言語ドメインで影響を与え、探索されてきました。

この研究は、画像エンコーダが埋め込みを生成し、言語デコーダが物体のラベルを予測するフレームワークを導入することによって、コンピュータビジョンにおける物体認識に取り組んでいます。従来の固定埋め込みを持つ従来の手法とは異なり、提案手法では認識を次のトークンの予測として扱い、画像の埋め込みからタグの自己回帰的なデコーディングを可能にします。この手法により、事前に定義されたラベルの必要性がなくなり、柔軟で効率的な認識が促進されます。非因果的な注意マスクやコンパクトなデコーダなどの主要な革新は、パフォーマンスを損なうことなく効率を向上させ、コンピュータビジョンにおける物体認識への新しい解決策を提供します。

研究では、次のトークン予測に基づく物体認識に関する手法を提案し、画像埋め込みからテキストトークンを予測してラベルを作成する言語デコーダを使用します。デコーダは非因果的な注意マスクを組み込んで自己回帰を行い、画像トークンをプレフィックスとして扱います。推論時には、複数のラベルから並列トークンサンプリングを行い、確率に基づいてランキングします。効率性のために、事前学習された言語モデルから中間ブロックを削除するコンパクトなデコーダ構築戦略が提案されていますが、パフォーマンスは保持されます。

研究はCLIP、Open Flamingo、LLaVA、BLIP-2、InstructBLIP、CaSEDと比較し、トップ-kの予測と適合率-再現率曲線を評価しています。提案手法はトップ10の予測で競合他社を一貫して上回り、ラベル生成の優れた関連性を示しています。適合率-再現率曲線は強い線形相関を示し、kが増加するにつれて高い再現率が得られ、データセット全体で予測品質が向上していることを示唆しています。デコーダの切り詰めによる摘出解析に関する研究では、CC3Mではわずかなパフォーマンスの低下が見られましたが、COCOとOpenImagesでは変化がありませんでした。これは、物体認識のための初期のLLaMA 7Bモデルブロックの重要性を強調し、よりコンパクトなデコーダのために11番目以降のブロックを削除することを示しています。

結論として、提案された次のトークン予測を活用した自己回帰的な物体認識手法は、データセット全体でトップ10の予測を生成する他の手法よりも優れた関連性を示しています。適合率-再現率曲線で観察される強い線形相関は、すべてのテストデータセットで予測品質が向上していることを示唆しています。デコーダの切り詰めに関する摘出解析の研究では、CC3Mではわずかなパフォーマンスの低下が見られましたが、COCOとOpenImagesでは変化がありませんでした。また、LLaMAモデルの中間トランスフォーマーブロックを削除することで、よりコンパクトなデコーダが得られ、パフォーマンスも保持されました。これは、物体認識においてLLMの一部の知識の重要性を強調しています。

さらなる研究では、一回のサンプリングでの競合の懸念に対処するため、緩和策を探索することに焦点を当てることができます。他の可能性としては、事前に定義されたサブセットや参照ピボットなしで、特にLLMと物体認識を直接的に結びつける生成モデルの直接のアライメントを調査することがあります。また、訓練データのボリュームを大幅に増やして、未知のデータや概念を解釈または認識するための依存度を減らす効果を検証することも有益であり、時間の経過とともに新しいラベルを増やしていくオープンワールドのパラダイムと一致しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「Raspberry Piは音を使って目に見えないドローンを追跡する」

テキサス大学とテネシー大学の研究者たちは、ラズベリーパイコンピューターを使用して、音で見えないドローンを追跡しました

AIニュース

Segmind APIsを使用した安定した拡散モデルのサーバーレスAPIの活用

紹介 現代のソフトウェア開発において、サーバーレスコンピューティングの登場により、アプリケーションの構築と展開の方法が...

AIニュース

新技術による道路と橋の建設および修復のためのツール:人工知能

「ペンシルベニア州とその他の地域で、AIが国の老朽化したインフラに適用されていますそれは賢明な判断でしょうか?」

AI研究

「UCIとハーバードの研究者が、ユーザーに機械学習モデルを説明するTalkToModelを紹介する」

機械学習モデルは、スマートフォン、ソフトウェアパッケージ、オンラインサービスなど、さまざまな専門分野で欠かせないツー...

機械学習

メタAIが効率的なSAMを紹介します:パラメータ数が20分の1でランタイムが20倍速いSAMの弟です

ビジョンにおいて、Segment Anything Model (SAM) は、ゼロショットオブジェクト提案生成、ゼロショットインスタンスセグメン...

人工知能

「ChatGPTは、ソフトウェアエンジニアリングの質問の半分以上に対して誤った回答をします」

ChatGPTは、パデュー大学の研究者による調査によれば、517件のStack Overflowの質問のうち52%を誤って回答し、回答の77%が不...