「深層学習を用いた深層オブジェクト:ZoeDepthはマルチドメインの深度推定のためのAIモデルです」

ZoeDepth is an AI model for multi-domain depth estimation using deep learning.

画像に子供が大人よりも高くて大きく見える錯覚に出くわしたことはありますか?エームスの部屋の錯視は、台形の形状をした部屋で、部屋の一角が他の角よりも視聴者に近いという有名なものです。特定のポイントから見ると、部屋の中のオブジェクトは正常に見えますが、別の位置に移動すると、サイズと形状が変わり、自分の近くに何があるのか、何がないのかがわかりにくくなります。

ただし、これは私たち人間にとっての問題です。通常、私たちはシーンを見るとき、錯覚のトリックがなければ、オブジェクトの奥行きをかなり正確に推定します。一方、コンピュータは視覚処理の基本的な問題である奥行き推定においてはあまり成功していません。

奥行き推定は、カメラとシーン内のオブジェクトとの距離を決定するプロセスです。奥行き推定アルゴリズムは、画像または画像の連続を入力として受け取り、シーンの対応する奥行きマップまたは3D表現を出力します。これは、ロボット工学、自律型車両、仮想現実、拡張現実など、さまざまなアプリケーションでシーンの奥行きを理解するために重要なタスクです。たとえば、安全な自動運転車を持ちたい場合、前方の車までの距離を理解して運転速度を調整することが重要です。

奥行き推定アルゴリズムには、メトリック奥行き推定(MDE)と、シーン内のオブジェクトの相対距離を推定する相対奥行き推定(RDE)の2つの分野があります。

MDEモデルは、マッピング、計画、ナビゲーション、オブジェクト認識、3D再構築、画像編集に役立ちます。ただし、MDEモデルのパフォーマンスは、特に画像の奥行きスケールに大きな差がある場合(たとえば、室内と屋外の画像など)に、複数のデータセットをまたがって単一のモデルをトレーニングする場合に低下することがあります。その結果、現在のMDEモデルは、特定のデータセットにオーバーフィットし、他のデータセットに対してうまく汎化しません。

一方、RDEモデルは、視差を監督手段として使用します。RDEの深さ予測は、画像フレーム間で互いに一貫しているだけで、スケールファクターは不明です。これにより、RDEメソッドは、3D映画を含むさまざまなシーンとデータセットでトレーニングすることができ、モデルの汎用性を向上させるのに役立ちます。ただし、トレードオフとして、RDEで予測される深さにはメトリックな意味がないため、その応用範囲が制限されます。

これらの2つのアプローチを組み合わせたらどうなるでしょうか?私たちは、さまざまなドメインにうまく汎化できる同時に正確なメトリックスケールを保持する奥行き推定モデルを持つことができます。これがZoeDepthが達成したことです。

ZoeDepthの概要。出典:https://arxiv.org/pdf/2302.12288.pdf

ZoeDepthは、MDEとRDEのアプローチを組み合わせた2ステージのフレームワークです。第1ステージは、相対的な深さを推定するためにトレーニングされたエンコーダーデコーダー構造で構成されています。このモデルはさまざまなデータセットでトレーニングされており、汎化性能が向上しています。第2ステージでは、メトリックな深さを推定するためのコンポーネントが追加されます。

このアプローチで使用されるメトリックヘッドのデザインは、単一の深さ値ではなく、各ピクセルに対して一連の深さ値を推定するメトリックビンズモジュールと呼ばれる手法に基づいています。これにより、モデルは各ピクセルに対して可能な深さ値の範囲を捉えることができ、その精度と頑健性を向上させることができます。これにより、シーン内のオブジェクト間の物理的な距離を考慮した正確な深度測定が可能になります。これらのヘッドはメトリックな深度データセットでトレーニングされ、第1ステージと比べて軽量です。

推論においては、分類モデルがエンコーダーの特徴を使用して各画像に適切なヘッドを選択します。これにより、モデルは特定のドメインやシーンのタイプに対して深度推定に特化することができ、相対的な深度の事前トレーニングからも恩恵を受けることができます。最終的に、複数の構成で使用できる柔軟なモデルが得られます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Learning to build—Towards AI コミュニティニュースレター第1号

私たちは最新のニュースレターをお知らせすることをとても楽しみにしています!それは私たちの共同体についてのすべてですコ...

AIニュース

「チャンドラヤーン3の着陸:AIとセンサーがISROの壮大な月探査を支援」

宇宙探査の魅惑的な広がりの中で、すべてのミッションは未知へのサイコロのような賭けです。インドの国立宇宙機関であるイン...

人工知能

生成型AIによる検索のスーパーチャージ

私たちは、ジェネレーティブAIを使用するSGE(Search Generative Experience)という名前の検索ラボの実験から始めます

データサイエンス

「機械学習と人工知能を利用した在庫管理の改善」

「人工知能(AI)は在庫管理システムの効果を大幅に向上させることができます需要予測をサポートし、在庫レベルを最適化し、...

データサイエンス

「明日のAIによるサイバーセキュリティの風景に備える」

「AIの能力は二律背反の剣であり、既存のセキュリティ製品の効果を向上させる強力なツールである一方で、より洗練された脅威...

機械学習

GPT-4の主な6つの利用事例

GPT-4の画期的な応用を、コンテンツ制作から医療に至るまで、さまざまな業界で探求してください6つのユースケースでAIの変革...