DeepMindの研究者たちは、任意のポイントを追跡するための新しいAIモデルであるTAPIRをオープンソース化しましたこのモデルは、ビデオシーケンス内のクエリポイントを効果的に追跡します

DeepMind researchers have open-sourced TAPIR, a new AI model for effectively tracking query points in video sequences.

コンピュータビジョンは、人工知能の最も人気のある分野の1つです。コンピュータビジョンを使用したモデルは、デジタル画像、動画、またはその他の視覚的入力など、さまざまな種類のメディアから有意義な情報を導き出すことができます。それは、機械が視覚情報を知覚・理解し、その詳細に基づいて行動する方法を教えるものです。新しいモデルであるTracking Any Point with per-frame Initialization and Temporal Refinement(TAPIR)の導入により、コンピュータビジョンは大きく前進しました。TAPIRは、ビデオシーケンスで特定の関心点を効果的に追跡することを目的として設計されました。

TAPIRモデルの背後にあるアルゴリズムは、Google DeepMind、VGG、エンジニアリングサイエンス学科、そしてオックスフォード大学の研究者チームによって開発されました。TAPIRモデルのアルゴリズムは、2つのステージ、すなわちマッチングステージとリファインメントステージから構成されています。マッチングステージでは、TAPIRモデルは各ビデオシーケンスフレームを個別に分析し、クエリポイントに適した候補点マッチを見つけます。このステップは、各フレームでクエリポイントの最も関連性が高い点を特定することを目的としており、TAPIRモデルがビデオ全体でクエリポイントの移動を追跡できるようにするため、フレームごとにこの手順を実行します。

候補点マッチが特定されるマッチングステージには、リファインメントステージの使用が続きます。このステージでは、TAPIRモデルは、局所的相関に基づいて軌跡(クエリポイントがたどるパス)とクエリ特徴を更新し、各フレームの周囲の情報を考慮してクエリポイントの追跡の精度と正確性を向上させます。リファインメントステージにより、局所的相関を統合することで、モデルのクエリポイントの動きを正確に追跡し、ビデオシーケンスの変動に対応する能力が向上します。

TAPIRモデルの評価には、ビデオトラッキングタスクの標準化された評価データセットであるTAP-Vidベンチマークが使用されました。その結果、TAPIRモデルは、ベースライン技術よりも明らかに優れた性能を発揮しました。性能改善は、平均ジャッカード(AJ)という指標を用いて測定され、DAVIS(Densely Annotated VIdeo Segmentation)ベンチマークにおいて、TAPIRモデルは他の手法に比べてAJで約20%の絶対的な改善を達成したことが示されました。

モデルは、長いビデオシーケンスでの高速な並列推論を容易にするように設計されており、複数のフレームを同時に処理できるため、トラッキングタスクの効率を向上させます。チームは、モデルをライブで適用できるように設計し、新しいビデオフレームが追加されるたびにポイントを処理・追跡できるようにしています。256×256ビデオで256ポイントを約40フレーム/秒の速度で追跡でき、解像度の高い映画を処理できるように拡張することもできます。

チームは、ユーザーがインストールせずにTAPIRを試すことができる2つのオンラインGoogle Colabデモを提供しています。最初のColabデモでは、ユーザーが自分のビデオでモデルを実行し、モデルのパフォーマンスをテストして観察するインタラクティブな体験を提供します。2番目のデモでは、オンラインでTAPIRを実行することに焦点を当てています。また、提供されたコードベースをクローンし、モダンなGPUで自分自身のWebカメラのポイントを追跡することによって、ユーザーはTAPIRをライブで実行することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「プログラマーの生産性を10倍にするための5つの無料のAIツール」

「これらの5つのAIツールは、プログラマーやコーダーの生活を簡単にするために、コーディングプロジェクトの速度と精度を向上...

機械学習

新たな能力が明らかに:GPT-4のような成熟したAIのみが自己改善できるのか?言語モデルの自律的成長の影響を探る

研究者たちは、AlphaGo Zeroと同様に、明確に定義されたルールで競争的なゲームに反復的に参加することによってAIエージェン...

データサイエンス

IDSSの影響力を祝う

MITでの2日間の会議で、創設ディレクターのMunther Dahlehが退任に備えて、データ、システム、社会研究所の影響について反省...

AIニュース

「AWS上でのPySparkの展開におけるベストプラクティスは何ですか?」

イントロダクション ビッグデータと高度な分析において、PySparkは大規模なデータセットの処理と分散データの分析における強...

AIニュース

MITが革新的なAIツールを発表:すべての能力レベルのユーザーに対して適応可能で詳細豊富なキャプションを使用して、チャートの解釈とアクセシビリティを向上させる

複雑なグラフや図のアクセシビリティと理解を向上させるための重要な一歩として、MITの研究チームがVisTextと呼ばれる画期的...

機械学習

「グラフ彩色の魅力的な世界を探索する」

この記事では、グラフ塗り分けの複雑さに深く入り込み、その実用的な応用事例を探求し、いくつかの注目すべきアルゴリズムに...