「SUSTech VIP研究室が、高性能なインタラクティブトラッキングとセグメンテーションを実現するトラックアニシングモデル(TAM)を提案する」

SUSTech VIP研究室 proposes the Track Anishing Model (TAM) to achieve high-performance interactive tracking and segmentation.

ビデオアイテムトラッキング(VOT)は、制約のない状況で未知のアイテムを追跡する重要性により、コンピュータビジョン研究の基盤です。ビデオオブジェクトセグメンテーション(VOS)は、VOTと同様に、ビデオの興味領域を識別し、フレームの残りから分離する技術です。現在の最高のビデオトラッカー/セグメンターは、セグメンテーションマスクまたはバウンディングボックスで初期化され、大規模な手動注釈付きデータセットでトレーニングされています。一方で、大量のラベル付きデータは膨大な人的労力を隠しています。また、半教師ありのVOSでは、現在の初期化パラメータの下で初期化のために一意のオブジェクトマスクの正解が必要です。

Segment-Anythingアプローチ(SAM)は、画像のセグメンテーションの包括的なベースラインとして最近開発されました。柔軟なプロンプトとリアルタイムのマスク計算により、対話的な使用が可能であり、ポイント、ボックス、または言語の形式でユーザーフレンドリーな提案が与えられた場合、SAMは指定された画像領域に対して満足のいくセグメンテーションマスクを返すことができます。しかし、SAMを直ちにビデオに適用した場合、時間的な一貫性の欠如により、研究者は目の覚ましいパフォーマンスを見ることはありません。

SUSTech VIP Labの研究者は、ビデオオブジェクトの追跡とセグメンテーションのための強力なツールを提供するTrack-Anythingプロジェクトを紹介します。Track Anything Model(TAM)は、直感的なインターフェースを持ち、単一の推論ラウンドでビデオ内の任意のオブジェクトをトラッキングおよびセグメンテーションすることができます。

TAMは、大規模なセグメンテーションモデルであるSAMを拡張し、最新のVOSモデルであるXMemを組み合わせたものです。ユーザーは、SAMを対話的に初期化することにより、対象オブジェクトを定義できます(つまり、オブジェクトをクリックする)。次に、XMemは時間的および空間的な対応に基づいて次のフレームのオブジェクトのマスク予測を提供します。最後に、SAMはより正確なマスクの説明を提供します。ユーザーは、トラッキングの過程でトラッキングの失敗に気付いたら一時停止して修正することができます。

TAMの分析には、DAVIS-2016の検証セットとDAVIS-2017のテスト開発セットが使用されました。特に、研究結果は、TAMが困難で複雑な環境で優れたパフォーマンスを発揮することを示しています。TAMは、クリックの初期化だけでマルチオブジェクトの分離、ターゲットの変形、サイズ変更、カメラの動きをうまく処理する能力により、優れた追跡およびセグメンテーション能力を示しています。

提案されたTrack Anything Model(TAM)は、以下に限定されない適応型ビデオトラッキングとセグメンテーションのさまざまなオプションを提供します:

  • 素早く簡単なビデオの転写:TAMは、映画の興味領域を分離し、ユーザーが追跡およびセグメンテーションしたいアイテムを選択できるようにします。これは、ビデオの注釈(ビデオオブジェクトの追跡およびセグメンテーションなど)に使用することができます。
  • オブジェクトの長期間の観察:長期の追跡は、多くの現実世界の用途があるため、研究者たちはますます関心を持っています。TAMの実世界の応用はより高度であり、長時間のビデオ内の頻繁なショットの変更に対応することができます。
  • 使いやすいビデオエディタ:Track Anything Modelにより、物事をカテゴリに分けることができます。TAMのオブジェクトセグメンテーションマスクを使用すると、映画内の任意のオブジェクトを選択的に切り取るか再配置することができます。
  • ビデオ関連の活動の可視化および開発キット:チームはさまざまなビデオ操作(VOS、VOT、ビデオインペイントなど)のための可視化されたユーザーインターフェースも提供しており、それらの使用を容易にするためです。ユーザーは実世界の映像でモデルをテストし、ツールボックスでリアルタイムの結果を確認することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

UC San Diegoの研究者たちは、EUGENeという使いやすいディープラーニングゲノミクスソフトウェアを紹介します

ディープラーニングは生活のあらゆる分野で使用されています。あらゆる領域でその有用性があります。バイオメディカル研究に...

機械学習

「ChatGPTは私たちを出し抜いているのか? チューリングテストの視点からの探求」

「機械は思考することができるのか?この記事は、チャットGPTの性能をチューリングテストが設定した厳しい基準に基づいて調査...

AI研究

「MITのインドの学生が声を必要としない会話デバイスを開発」

魅力的な進展として、名門マサチューセッツ工科大学(MIT)の学生が革新的なAI対応デバイス、AlterEgoを紹介しました。AlterE...

AIニュース

OpenAIのCEOであるSam Altman氏:AIの力が証明されるにつれて、仕事に関するリスクが生じる

OpenAIのCEOであるSam Altmanは、特に彼の作品であるChatGPTに関するAIの潜在的な危険性について公言してきました。最近のイ...

AI研究

SalesForce AI研究所によって開発されたProGen:人工知能を使用したタンパク質エンジニアリングの飛躍的進歩

機能性タンパク質の開発は、医療、バイオテクノロジー、環境持続性など、さまざまな科学分野で重要な追求となっています。し...

機械学習

「プロンプトエンジニアリングによるAIの潜在能力の解放」

迅速なエンジニアリングは、簡潔でコンテキスト豊かなクエリの作成スキルであり、AIが最も関連性の高い正確な応答を生成する...