「SUSTech VIP研究室が、高性能なインタラクティブトラッキングとセグメンテーションを実現するトラックアニシングモデル(TAM)を提案する」

SUSTech VIP研究室 proposes the Track Anishing Model (TAM) to achieve high-performance interactive tracking and segmentation.

ビデオアイテムトラッキング(VOT)は、制約のない状況で未知のアイテムを追跡する重要性により、コンピュータビジョン研究の基盤です。ビデオオブジェクトセグメンテーション(VOS)は、VOTと同様に、ビデオの興味領域を識別し、フレームの残りから分離する技術です。現在の最高のビデオトラッカー/セグメンターは、セグメンテーションマスクまたはバウンディングボックスで初期化され、大規模な手動注釈付きデータセットでトレーニングされています。一方で、大量のラベル付きデータは膨大な人的労力を隠しています。また、半教師ありのVOSでは、現在の初期化パラメータの下で初期化のために一意のオブジェクトマスクの正解が必要です。

Segment-Anythingアプローチ(SAM)は、画像のセグメンテーションの包括的なベースラインとして最近開発されました。柔軟なプロンプトとリアルタイムのマスク計算により、対話的な使用が可能であり、ポイント、ボックス、または言語の形式でユーザーフレンドリーな提案が与えられた場合、SAMは指定された画像領域に対して満足のいくセグメンテーションマスクを返すことができます。しかし、SAMを直ちにビデオに適用した場合、時間的な一貫性の欠如により、研究者は目の覚ましいパフォーマンスを見ることはありません。

SUSTech VIP Labの研究者は、ビデオオブジェクトの追跡とセグメンテーションのための強力なツールを提供するTrack-Anythingプロジェクトを紹介します。Track Anything Model(TAM)は、直感的なインターフェースを持ち、単一の推論ラウンドでビデオ内の任意のオブジェクトをトラッキングおよびセグメンテーションすることができます。

TAMは、大規模なセグメンテーションモデルであるSAMを拡張し、最新のVOSモデルであるXMemを組み合わせたものです。ユーザーは、SAMを対話的に初期化することにより、対象オブジェクトを定義できます(つまり、オブジェクトをクリックする)。次に、XMemは時間的および空間的な対応に基づいて次のフレームのオブジェクトのマスク予測を提供します。最後に、SAMはより正確なマスクの説明を提供します。ユーザーは、トラッキングの過程でトラッキングの失敗に気付いたら一時停止して修正することができます。

TAMの分析には、DAVIS-2016の検証セットとDAVIS-2017のテスト開発セットが使用されました。特に、研究結果は、TAMが困難で複雑な環境で優れたパフォーマンスを発揮することを示しています。TAMは、クリックの初期化だけでマルチオブジェクトの分離、ターゲットの変形、サイズ変更、カメラの動きをうまく処理する能力により、優れた追跡およびセグメンテーション能力を示しています。

提案されたTrack Anything Model(TAM)は、以下に限定されない適応型ビデオトラッキングとセグメンテーションのさまざまなオプションを提供します:

  • 素早く簡単なビデオの転写:TAMは、映画の興味領域を分離し、ユーザーが追跡およびセグメンテーションしたいアイテムを選択できるようにします。これは、ビデオの注釈(ビデオオブジェクトの追跡およびセグメンテーションなど)に使用することができます。
  • オブジェクトの長期間の観察:長期の追跡は、多くの現実世界の用途があるため、研究者たちはますます関心を持っています。TAMの実世界の応用はより高度であり、長時間のビデオ内の頻繁なショットの変更に対応することができます。
  • 使いやすいビデオエディタ:Track Anything Modelにより、物事をカテゴリに分けることができます。TAMのオブジェクトセグメンテーションマスクを使用すると、映画内の任意のオブジェクトを選択的に切り取るか再配置することができます。
  • ビデオ関連の活動の可視化および開発キット:チームはさまざまなビデオ操作(VOS、VOT、ビデオインペイントなど)のための可視化されたユーザーインターフェースも提供しており、それらの使用を容易にするためです。ユーザーは実世界の映像でモデルをテストし、ツールボックスでリアルタイムの結果を確認することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「RNNにおける誤差逆伝播法と勾配消失問題(パート2)」

このシリーズの第1部では、RNNモデルのバックプロパゲーションを解説し、数式と数値を用いてRNNにおける勾配消失問題を説明し...

データサイエンス

「動きのあるAIトレンドに対応するAPI戦略の適応」

AIは最近注目を集めていますこの記事では、APIを使用して製品を開発している私たちにとって、AIのトレンドがどういう意味を持...

機械学習

「Mozilla Common Voiceにおける音声言語認識 — 音声変換」

これは、Mozilla Common Voiceデータセットに基づく話し言葉認識に関する3番目の記事です第1部では、データの選択とデータの...

機械学習

KPMGのジェネレーティブAIの未来への飛躍

驚くべき出来事の中で、コンサルティングと金融の世界は、生成型AIの台頭により、変革の旅を経験しています。ビッグフォーの...

人工知能

AIがあなたのように文章を書く方法(クロード2のチュートリアル)

「あなたはClaude 2の回答をChatGPTよりもずっと人間らしくすることができます」

機械学習

SalesForce AIはCodeChainを導入:代表的なサブモジュールによる自己改訂の連鎖を通じたモジュラーコード生成のための革新的な人工知能フレームワーク

“`html 人工知能の研究における重要な目標の一つは、困難な問題に対処するための有用なコンピュータプログラムを提供で...