「CMUの研究者がBUTD-DETRを導入:言語発話に直接依存し、発話で言及されるすべてのオブジェクトを検出する人工知能(AI)モデル」

CMU researchers introduce BUTD-DETR an AI model that directly relies on language speech to detect all objects mentioned in the speech.

画像内のすべての「オブジェクト」を見つけることは、コンピュータビジョンの基礎です。カテゴリの語彙を作成し、この語彙のインスタンスを認識するモデルを訓練することで、「オブジェクトとは何か?」という問いに回答することができます。これらのオブジェクト検出器を実用的なホームエージェントとして使用しようとすると、問題が発生します。モデルは、2Dまたは3Dの設定で指示的な発話を視覚的に関連付ける場合、事前に訓練された検出器が提供するオブジェクトの候補のプールから参照されたアイテムを選択することを学習します。その結果、検出器は、椅子、椅子の脚、または椅子の脚の先端など、より詳細な視覚的なものに関連する発話を見逃す場合があります。

研究チームは、ボトムアップ、トップダウンの検出トランスフォーマー(BUTD-DETR、発音:ビューティーデター)を、口述発話に直接条件付け、言及されたすべてのアイテムを見つけるモデルとして提案します。 BUTD-DETRは、発話がオブジェクトカテゴリのリストである場合、通常のオブジェクト検出器として機能します。モデルは、画像と言語のペアリングにトレーニングされ、発話で言及されたすべてのアイテムの境界ボックス、および固定語彙のオブジェクト検出データセット付きのタグが付いています。ただし、いくつかの調整を加えることで、BUTD-DETRは3Dポイントクラウドと2D画像で言語フレーズをアンカーすることもできます。

プールからランダムに選択する代わりに、BUTD-DETRは言語的および視覚的な入力に注意を払ってオブジェクトボックスをデコードします。ボトムアップでタスク非依存の注意は、アイテムの位置を特定する際に細部を見落とす場合がありますが、言語指向の注意がそのギャップを埋めます。モデルには、シーンと口述発話が入力として使用されます。既にトレーニングされた検出器を使用してボックスの提案が抽出されます。次に、パーカテゴリ固有のエンコーダを使用して、シーン、ボックス、および音声から視覚的な、ボックス、および言語的なトークンが抽出されます。これらのトークンは、お互いに注意を払うことで、その文脈内で意味を持ちます。洗練された視覚チケットは、多くのストリームにわたってボックスをデコードし、広がります。

オブジェクト検出の実践は、検出されるもののカテゴリラベルであるという、根拠のある指示的な言語の例です。研究者は、オブジェクト検出を、検出器の語彙から特定のオブジェクトカテゴリをランダムに選択し、それらをシーケンスして合成発話を生成することによって、検出促進の根拠として使用します(たとえば、「ソファ、人、椅子」といったもの)。これらの検出のヒントは、補足的な監督情報として使用され、目標は、シーン内で指定されたカテゴリラベルのすべての出現を見つけることです。モデルは、視覚的な入力例がないカテゴリラベル(上記の例では「人」など)に対してボックスの関連付けを行わないように指示されます。このアプローチでは、単一のモデルが言語を根拠にし、オブジェクトを認識することができ、両方のタスクのための同じトレーニングデータを共有します。

成果

開発されたMDETR-3Dと同等のものは、以前のモデルと比較して性能が低いですが、BUTD-DETRは3D言語グラウンディングで最先端のパフォーマンスを実現しています。

BUTD-DETRは2Dドメインでも機能し、変形可能な注意などのアーキテクチャの向上により、MDETRと同等のパフォーマンスを達成すると同時に、収束時間を2倍に短縮します。このアプローチは、2Dおよび3Dのグラウンディングモデルを統一する一歩を踏み出しており、少ない修正で両方の次元で機能するように簡単に適応できます。

3D言語グラウンディングのすべてのベンチマークでは、BUTD-DETRは最先端の手法(SR3D、NR3D、ScanRefer)に比べて大幅なパフォーマンス向上を示しています。さらに、ECCVのLanguage for 3D Scenesワークショップで行われたReferIt3Dコンペティションでは、最優秀の投稿であった。ただし、大規模なデータでトレーニングされた場合、BUTD-DETRは2D言語グラウンディングのベンチマークでも最高の既存手法と競合する可能性があります。具体的には、研究者の効率的な変形可能な注意により、2Dモデルは最先端のMDETRと比べて収束時間を2倍速くすることができます。

以下のビデオでは、完全なワークフローについて説明しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「タンパク質設計の次は何か?マイクロソフトの研究者がエボディフ:シーケンスファーストのタンパク質エンジニアリングのための画期的なAIフレームワークを紹介」

ディープ生成モデルは、新規タンパク質のインシリコ創造において、ますます有効なツールとなっています。拡散モデルは、最近...

AIニュース

あなたの次の夢の役割(2023年)を見つけるのに役立つ、最高のAIツール15選

Resumaker.ai Resumaker.aiは、数分で履歴書を作成するのを支援するウェブサイトです。ポータルは、いくつかのカスタマイズ可...

機械学習

3Dインスタンスセグメンテーションにおける境界の打破:改善された疑似ラベリングと現実的なシナリオを備えたオープンワールドアプローチ

オブジェクトインスタンスレベルの分類と意味的なラベリングを提供することにより、3D意味インスタンスセグメンテーションは...

AI研究

スタンフォード大学とマイクロソフトの研究者が自己向上型AIを紹介:GPT-4を活用して足場プログラムのパフォーマンスを向上させる

ほぼすべての目標は、自然言語で説明される場合には、言語モデルのクエリによって最適化されることができます。ただし、プロ...

機械学習

「ファインチューニング中に埋め込みのアニメーションを作成する方法」

「機械学習の分野では、ビジョントランスフォーマー(ViT)は画像分類に使用されるモデルの一種です従来の畳み込みニューラル...

機械学習

Meet ChatGLM2-6B:オープンソースのバイリンガル(中国語-英語)チャットモデルChatGLM-6Bの第2世代バージョンです

OpenAIの革命的なChatGPTの導入以来、自然言語対話エージェントの分野ではかなりの進歩が見られています。研究者たちは、チャ...