「ビデオセグメンテーションはよりコスト効果的になることができるのか?アノテーションを節約し、タスク間で一般化するための分離型ビデオセグメンテーションアプローチDEVAに会いましょう」

DEVA, a separate video segmentation approach, can save annotation costs and generalize across tasks. Can video segmentation become more cost-effective?

監視システムがどのように動作し、ビデオのみを使用して個人や車両を識別する方法について考えたことはありますか?また、水中ドキュメンタリーを使用してオルカを識別する方法や、ライブスポーツ分析の方法についても知りたいですか?これらのすべては、ビデオセグメンテーションによって行われます。ビデオセグメンテーションは、オブジェクトの境界、動き、色、テクスチャなど、特定の特徴に基づいてビデオを複数の領域に分割するプロセスです。基本的なアイデアは、ビデオ内の異なるオブジェクトと背景および時間的なイベントを識別し分離し、視覚的なコンテンツのより詳細で構造化された表現を提供することです。

ビデオセグメンテーションのアルゴリズムの利用を拡大することは、多くのデータにラベルを付ける必要があるため、コストがかかる場合があります。特定のタスクごとにアルゴリズムをトレーニングする必要がないように、研究者たちはデカップルドビデオセグメンテーションDEVAを考案しました。DEVAには、個々のフレーム内のオブジェクトを見つけるための専用のパートと、オブジェクトが何であるかに関係なく、時間的なつながりを支援するもう1つのパートがあります。このようにして、DEVAはより柔軟かつ適応性のあるさまざまなビデオセグメンテーションタスクに対応できるようになり、広範なトレーニングデータが必要ありません。

この設計では、興味のある特定のタスクのためのより単純なイメージレベルモデル(トレーニングがより安価)と、一度だけトレーニングする必要がある汎用的な時間伝播モデルを使用します。これら2つのモジュールを効果的に連携させるために、研究者は双方向伝播アプローチを使用します。これにより、異なるフレームからのセグメンテーションの推測をマージし、最終的なセグメンテーションが一貫して見えるようにします。オンラインまたはリアルタイムで行われる場合でも同様です。

上記の画像は、フレームワークの概要を提供しています。研究チームは、まず画像レベルのセグメンテーションをクリップ内の合意に基づいてフィルタリングし、結果を時間的に伝播させます。後の時間ステップで新しい画像セグメンテーションを組み込むために(以前に見たことのないオブジェクト、例えば赤いボックスなど)、伝播された結果をクリップ内の合意と統合します。

この研究で採用されたアプローチは、特定のターゲットタスクへの依存度を減らすために、外部のタスクに関係のないデータを大いに活用しています。これにより、利用可能なデータが限られているタスクに対して、エンドツーエンドの方法と比較してより優れた一般化能力が得られます。さらに、微調整も必要ありません。汎用的な画像セグメンテーションモデルと組み合わせると、このデカップルドパラダイムは最先端のパフォーマンスを示します。それは間違いなく、オープンワールドのコンテキストで最先端の大語彙ビデオセグメンテーションを達成するための初歩的な進歩を表しています!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

マイクロソフトAIがLLMLinguaを発表:大型言語モデル(LLM)の高速推論のためのユニークなクイック圧縮テクニックでプロンプトを圧縮

大規模言語モデル(LLM)は、その高い一般化能力と推論能力により、人工知能(AI)コミュニティを大きく押し上げています。こ...

人工知能

「Retrato:セルフィーをプロの写真に変える」

予算の関係でプロの写真撮影が難しい場合、非常に安価なオプションがありますそれが「Retrato」です

AI研究

インディアナ大学の研究者たちは、「Brainoware」という最先端の人工知能技術を発表しましたこの技術は、脳器官のようなオルガノイドとシリコンチップからインスピレーションを受けています

生物学の原理と技術革新の融合により、人工知能(AI)の著しい進歩が得られてきました。インディアナ大学ブルーミントン校の...

AI研究

アマゾンの研究者がフォーチュナを紹介:ディープラーニングにおける不確実性量子化のためのAIライブラリ

人工知能と機械学習の最近の発展は、皆の生活をより容易にしてくれています。その信じられない能力により、AIとMLはあらゆる...

データサイエンス

データを中心に:Srikanth Velamakanniと共にデータドリブンの組織を築く

Analytics Vidhyaの「データを活用したリーダーシップ(Leading With Data)」は、業界のリーダーが自身の経験、キャリアの道...

データサイエンス

「ゼロからLLMを構築する方法」

「これは、大規模言語モデル(LLM)を実践的に使用するシリーズの6番目の記事です以前の記事では、プロンプトエンジニアリン...