「CMUの研究者がBUTD-DETRを導入:言語発話に直接依存し、発話で言及されるすべてのオブジェクトを検出する人工知能(AI)モデル」

CMU researchers introduce BUTD-DETR an AI model that directly relies on language speech to detect all objects mentioned in the speech.

画像内のすべての「オブジェクト」を見つけることは、コンピュータビジョンの基礎です。カテゴリの語彙を作成し、この語彙のインスタンスを認識するモデルを訓練することで、「オブジェクトとは何か?」という問いに回答することができます。これらのオブジェクト検出器を実用的なホームエージェントとして使用しようとすると、問題が発生します。モデルは、2Dまたは3Dの設定で指示的な発話を視覚的に関連付ける場合、事前に訓練された検出器が提供するオブジェクトの候補のプールから参照されたアイテムを選択することを学習します。その結果、検出器は、椅子、椅子の脚、または椅子の脚の先端など、より詳細な視覚的なものに関連する発話を見逃す場合があります。

研究チームは、ボトムアップ、トップダウンの検出トランスフォーマー(BUTD-DETR、発音:ビューティーデター)を、口述発話に直接条件付け、言及されたすべてのアイテムを見つけるモデルとして提案します。 BUTD-DETRは、発話がオブジェクトカテゴリのリストである場合、通常のオブジェクト検出器として機能します。モデルは、画像と言語のペアリングにトレーニングされ、発話で言及されたすべてのアイテムの境界ボックス、および固定語彙のオブジェクト検出データセット付きのタグが付いています。ただし、いくつかの調整を加えることで、BUTD-DETRは3Dポイントクラウドと2D画像で言語フレーズをアンカーすることもできます。

プールからランダムに選択する代わりに、BUTD-DETRは言語的および視覚的な入力に注意を払ってオブジェクトボックスをデコードします。ボトムアップでタスク非依存の注意は、アイテムの位置を特定する際に細部を見落とす場合がありますが、言語指向の注意がそのギャップを埋めます。モデルには、シーンと口述発話が入力として使用されます。既にトレーニングされた検出器を使用してボックスの提案が抽出されます。次に、パーカテゴリ固有のエンコーダを使用して、シーン、ボックス、および音声から視覚的な、ボックス、および言語的なトークンが抽出されます。これらのトークンは、お互いに注意を払うことで、その文脈内で意味を持ちます。洗練された視覚チケットは、多くのストリームにわたってボックスをデコードし、広がります。

オブジェクト検出の実践は、検出されるもののカテゴリラベルであるという、根拠のある指示的な言語の例です。研究者は、オブジェクト検出を、検出器の語彙から特定のオブジェクトカテゴリをランダムに選択し、それらをシーケンスして合成発話を生成することによって、検出促進の根拠として使用します(たとえば、「ソファ、人、椅子」といったもの)。これらの検出のヒントは、補足的な監督情報として使用され、目標は、シーン内で指定されたカテゴリラベルのすべての出現を見つけることです。モデルは、視覚的な入力例がないカテゴリラベル(上記の例では「人」など)に対してボックスの関連付けを行わないように指示されます。このアプローチでは、単一のモデルが言語を根拠にし、オブジェクトを認識することができ、両方のタスクのための同じトレーニングデータを共有します。

成果

開発されたMDETR-3Dと同等のものは、以前のモデルと比較して性能が低いですが、BUTD-DETRは3D言語グラウンディングで最先端のパフォーマンスを実現しています。

BUTD-DETRは2Dドメインでも機能し、変形可能な注意などのアーキテクチャの向上により、MDETRと同等のパフォーマンスを達成すると同時に、収束時間を2倍に短縮します。このアプローチは、2Dおよび3Dのグラウンディングモデルを統一する一歩を踏み出しており、少ない修正で両方の次元で機能するように簡単に適応できます。

3D言語グラウンディングのすべてのベンチマークでは、BUTD-DETRは最先端の手法(SR3D、NR3D、ScanRefer)に比べて大幅なパフォーマンス向上を示しています。さらに、ECCVのLanguage for 3D Scenesワークショップで行われたReferIt3Dコンペティションでは、最優秀の投稿であった。ただし、大規模なデータでトレーニングされた場合、BUTD-DETRは2D言語グラウンディングのベンチマークでも最高の既存手法と競合する可能性があります。具体的には、研究者の効率的な変形可能な注意により、2Dモデルは最先端のMDETRと比べて収束時間を2倍速くすることができます。

以下のビデオでは、完全なワークフローについて説明しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「このAI論文は、すべての科学分野をカバーする学術データを含む26億以上のトリプルを持つ包括的なRDFデータセットを紹介しています」

最近の研究について追いつくことは、科学論文の増加によりますます困難になっています。たとえば、2022年だけでも800万以上の...

機械学習

人間の理解と機械学習のギャップを埋める:説明可能なAIを解決策として

この記事は、説明可能なAI(XAI)の重要性、解釈可能なAIモデルを構築する上での課題、および企業がXAIモデルを構築するため...

機械学習

このAIの論文は、インコンテキスト学習の秘密を解き明かすものです:言語モデルがベクトルマジックに関数をエンコードする方法

自己回帰トランスフォーマーモデルでは、関数ベクトル(FV)として知られるコンパクトなベクトルで入出力関数を表現するニュ...

機械学習

FastAPI、AWS Lambda、およびAWS CDKを使用して、大規模言語モデルのサーバーレスML推論エンドポイントを展開します

データサイエンティストにとって、機械学習(ML)モデルを概念実証から本番環境へ移行することは、しばしば大きな課題を提供...

データサイエンス

機械学習において決定木とランダムフォレストを使い分けるタイミング

この記事では、決定木とランダムフォレストアルゴリズムの背後にあるアイデアについて説明し、その2つを比較して利点を検討し...

AI研究

「タンパク質設計の革命:ディープラーニングの改良により成功率が10倍に向上したこのAI研究」

タンパク質はほぼすべての疾患を統治するポリマー構造です。主な問題は、どのタンパク質がそれに対応するタンパク質ポリマー...