SAM-PTとは SAM(Segment Anything Model)の機能を拡張し、動画内の任意のオブジェクトのトラッキングとセグメンテーションを可能にする、新しいAIメソッドです

'SAM-PTは、動画内の任意のオブジェクトのトラッキングとセグメンテーションを可能にする、新しいAIメソッドです'

ロボティクス、自動運転、ビデオ編集など、多くのアプリケーションはビデオセグメンテーションの恩恵を受けています。深層ニューラルネットワークは過去数年間で大きな進歩を遂げています。しかし、既存の手法は未試験データに対してサポートが必要であり、特にゼロショットのシナリオでは困難です。これらのモデルは、一貫したパフォーマンスを維持するために、特定のビデオセグメンテーションデータをファインチューニングする必要があります。ゼロショットの設定やこれらのモデルが訓練されていないビデオドメインに移され、訓練分布外のオブジェクトカテゴリを含む場合、半教師ありビデオオブジェクトセグメンテーション(VOS)およびビデオインスタンスセグメンテーション(VIS)の現在の手法は、未知のデータを扱う際に性能のギャップが生じます。

ビデオセグメンテーションタスクにおいて、画像セグメンテーションドメインから成功したモデルを使用することは、これらの問題に対する潜在的な解決策を提供します。Segment Anything(SAM)はそのような有望なコンセプトの一つです。SA-1Bデータセットは、1億枚以上のマスクを持つ1,100万枚以上の画像で構成され、SAMのトレーニンググラウンドとして機能しました。SAMの優れたゼロショットの汎化能力は、巨大なトレーニングセットによって可能になりました。このモデルは、ゼロショットの転送プロトコルを使用してさまざまな下流タスクで信頼性の高い動作をすることが証明されており、非常にカスタマイズ可能で、単一の前景点から高品質なマスクを作成することができます。

SAMは優れたゼロショットの画像セグメンテーション能力を示します。しかし、ビデオセグメンテーションの問題には自然に適していません。最近、SAMはビデオセグメンテーションを含めるように改良されました。例えば、TAMはSAMを最先端のメモリベースのマスクトラッカーXMemと組み合わせます。SAM-TrackはDeAOTとSAMを組み合わせる方法と同様です。これらの手法は、主にSAMのインディストリビューションデータでのパフォーマンスを回復させますが、より困難なゼロショットの条件に適用すると不十分です。SegGPTなどのSAMを必要としない他のビジュアルプロンプティングによって、多くのセグメンテーションの問題が解決されるかもしれませんが、初期のビデオフレームにマスク注釈が必要です。

この問題は、特に研究者が新しい状況に一般化し、さまざまなビデオドメインで高品質なセグメンテーションを信頼性良く生成するための簡単な手法を作成しようとする中で、ゼロショットのビデオセグメンテーションにおいて大きな障害となります。ETH Zurich、HKUST、EPFLの研究者は、Segment Anything Meets Point Tracking(SAM-PT)を紹介しています。このアプローチは、スパースポイントトラッキングとSAMを使用して、ビデオをセグメンテーションする最初のアプローチであり、問題に新たな解決策を提供します。マスクの伝播やオブジェクト中心の密な特徴マッチングではなく、映画にエンコードされた詳細なローカル構造データを使用してポイントをトラッキングする、ポイント駆動の方法を提案しています。

そのため、ターゲットアイテムを示すために最初のフレームでスパースポイントの注釈のみが必要であり、未知のオブジェクトに対する優れた汎化能力を提供します。この戦略は、オープンワールドのUVOベンチマークで証明された強みを持っています。この方法により、SAMの柔軟性を維持しながら、ビデオセグメンテーションの能力を効果的に拡張できます。PIPSなどの現代のポイントトラッカーの適応性を活用し、これらのツールを使用して予測されたスパースポイント軌跡でSAM-PTを促進します。彼らは、SAMを促進するための最も適したアプローチは、マスクラベルからのK-Medoidsクラスターセンターを使用してトラッキングする場所を初期化することであると結論づけました。

背景とターゲットアイテムを明確に区別するために、ポジティブポイントとネガティブポイントの両方をトラッキングします。彼らは、両方のポイントを使用して出力マスクをさらに改善する異なるマスクデコーディングプロセスを提案しています。また、トラッキングの精度を時間とともに向上させるためのポイント再初期化技術も開発しました。この方法では、信頼性が低いまたは遮蔽されたポイントは破棄され、オブジェクトのセクションやセグメントが後続フレームで可視化される場合(例:オブジェクトの回転時)、それらのポイントが追加されます。

特筆すべきは、彼らのテスト結果が、SAM-PTがいくつかのビデオセグメンテーションベンチマークで既存のゼロショットアプローチと同等またはそれ以上の性能を発揮することを示していることです。これは、トレーニング中にビデオセグメンテーションデータが必要なかったため、彼らの手法がどれだけ適応性があり信頼性があるかを示しています。ゼロショットの設定では、SAM-PTはビデオセグメンテーションタスクの進捗を加速することができます。彼らのウェブサイトには、複数のインタラクティブなビデオデモがあります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「JavaとGradleを使用したAIアプリケーションの開発」

実際のコード例を通じて、Deeplearning4j、Weka、そしてEncogなどの人気のあるライブラリを使用して、JavaとGradleを使ったAI...

機械学習

科学者たちは、AIと迅速な応答EEGを用いて、せん妄の検出を改善しました

うつ病を検出することは容易ではありませんが、それには大きな報酬があります。患者に必要な治療を迅速かつ確実に行うことで...

人工知能

「Canvaを使用して無料のAIアバターを作成する」

この記事の最後まで読むと、無料で自分そっくりのAIビデオを作る方法が完璧にわかるでしょう

データサイエンス

「研究データ管理の変革:AIの役割によるデベロッパーのエンパワーメント」

「人工知能(AI)は、開発者にとって便利な友達のような存在ですAIは大量のデータの中から情報を見つけることを簡単にします」

人工知能

「AIガバナンスにおけるステークホルダー分析の包括的ガイド(パート2)」

「著者注:本記事はAIガバナンスにおけるステークホルダー分析の包括的なガイドのパート2として書かれていますパート1はこち...