「MITとハーバードの研究者が提案する(FAn):SOTAコンピュータビジョンとロボティクスシステムの間のギャップを埋める包括的なAIシステム- 任意のオブジェクトのセグメンテーション、検出、追跡、および追従のためのエンドツーエンドのソリューションを提供する」

MIT and Harvard researchers propose a comprehensive AI system (FAn) to bridge the gap between state-of-the-art computer vision and robotics systems, providing an end-to-end solution for segmentation, detection, tracking, and following of any object.

MITとハーバード大学の研究者チームが新しいAI研究で、画期的なフレームワーク「Follow Anything」(FAn)を紹介しました。このシステムは、現在の物体追跡ロボットシステムの制約を解決し、リアルタイムでのオープンセット物体追跡と追従の革新的な解決策を提供しています。

既存のロボット物体追跡システムの主な欠点は、認識されるカテゴリの固定セットと、対象物体の指定における利便性の欠如による新しいオブジェクトの収容能力の制約です。新しいFAnシステムは、テキスト、画像、またはクリッククエリを介して新しいオブジェクトに適応しながら、幅広い物体をシームレスに検出、セグメント化、追跡、追従するオープンセットアプローチを提案することで、これらの問題に取り組んでいます。

提案されたFAnシステムの主な特徴は次のとおりです:

オープンセットマルチモーダルアプローチ:FAnは、カテゴリに関係なく、与えられた環境内の任意の物体のリアルタイム検出、セグメンテーション、追跡、追従を容易にする新しい手法を導入しています。

統一的な展開:このシステムは、マイクロエアリアルビークルに焦点を当てたロボットプラットフォームへの簡単な展開を設計しており、実用的なアプリケーションへの効率的な統合を可能にしています。

堅牢性:このシステムは、トラッキングプロセス中に追跡されるオブジェクトが遮られたり一時的に見失われたりするシナリオを処理するための再検出メカニズムを組み込んでいます。

FAnシステムの基本的な目的は、オンボードカメラを搭載したロボットシステムが興味のあるオブジェクトを識別し、追跡することです。これには、ロボットが移動する中でオブジェクトがカメラの視野内に留まることを確認する必要があります。

FAnは、この目標を達成するために最先端のVision Transformer(ViT)モデルを活用しています。これらのモデルはリアルタイム処理に最適化され、一体化されたシステムに統合されています。研究者たちは、セグメンテーションのためのSegment Anything Model(SAM)、自然言語から視覚的な概念を学習するためのDINOとCLIP、そして軽量の検出と意味セグメンテーションスキームなど、さまざまなモデルの強みを活用しています。また、リアルタイムのトラッキングは(Seg)AOTとSiamMaskモデルを使用して容易に行われます。オブジェクト追従プロセスを制御するために、軽量のビジュアルサービングコントローラも導入されています。

研究者たちは、FAnの性能をさまざまなオブジェクトでゼロショット検出、追跡、追従のシナリオで評価するために包括的な実験を行いました。その結果、システムはリアルタイムで興味のあるオブジェクトを追跡する能力がシームレスかつ効率的であることが示されました。

結論として、FAnフレームワークはクローズドセットシステムの制約を排除し、リアルタイムの物体追跡と追従の包括的な解決策を提供します。オープンセットの性質、マルチモーダルの互換性、リアルタイム処理、新しい環境への適応性により、それはロボティクスにおける重要な進歩です。さらに、チームがシステムのオープンソース化に取り組んでいることは、幅広い実世界のアプリケーションに利益をもたらす可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

AIモデルが高解像度のコンピュータビジョンを高速化します

システムは、ビデオストリーミングにおける画像品質の向上や、自動運転車両がリアルタイムで道路の危険を識別するのに役立つ...

機械学習

[GPT-4V-Actと出会いましょう:GPT-4V(ision)とウェブブラウザを調和させたマルチモーダルAIアシスタント]

最新プロジェクトのGPT-4V-Actのリリースを、Machine Learningの研究者が最近Redditコミュニティと共有しました。このアイデ...

機械学習

主要な金融グループは、AWSのポストコール分析ソリューションを使用して、オムニチャネルの顧客洞察を抽出しています

「事業140年以上の確立された金融サービス企業、プリンシパルは、グローバルな投資管理のリーダーであり、世界中で6,200万人...

機械学習

「T2I-Adapter-SDXL:小型で効率的な制御モデルに出会ってください」

T2I-アダプタは、完全な再学習を必要とせずにテキストから画像へのモデルを強化するプラグアンドプレイツールであり、Control...

機械学習

『RAPとLLM Reasonersに会いましょう:LLMsを活用した高度な推論のための類似概念に基づく2つのフレームワーク』

毎日は驚くべき進歩をもたらし、画期的なツールと進展をもたらす大規模言語モデル(LLM)があります。これらのLLMは、テキス...

AI研究

このPythonライブラリ「Imitation」は、PyTorchでの模倣と報酬学習アルゴリズムのオープンソース実装を提供します

明確な報酬関数が定義されたゲームのような領域では、強化学習(RL)は人間のパフォーマンスを上回っています。残念ながら、...