「深層学習を用いた深層オブジェクト:ZoeDepthはマルチドメインの深度推定のためのAIモデルです」

ZoeDepth is an AI model for multi-domain depth estimation using deep learning.

画像に子供が大人よりも高くて大きく見える錯覚に出くわしたことはありますか?エームスの部屋の錯視は、台形の形状をした部屋で、部屋の一角が他の角よりも視聴者に近いという有名なものです。特定のポイントから見ると、部屋の中のオブジェクトは正常に見えますが、別の位置に移動すると、サイズと形状が変わり、自分の近くに何があるのか、何がないのかがわかりにくくなります。

ただし、これは私たち人間にとっての問題です。通常、私たちはシーンを見るとき、錯覚のトリックがなければ、オブジェクトの奥行きをかなり正確に推定します。一方、コンピュータは視覚処理の基本的な問題である奥行き推定においてはあまり成功していません。

奥行き推定は、カメラとシーン内のオブジェクトとの距離を決定するプロセスです。奥行き推定アルゴリズムは、画像または画像の連続を入力として受け取り、シーンの対応する奥行きマップまたは3D表現を出力します。これは、ロボット工学、自律型車両、仮想現実、拡張現実など、さまざまなアプリケーションでシーンの奥行きを理解するために重要なタスクです。たとえば、安全な自動運転車を持ちたい場合、前方の車までの距離を理解して運転速度を調整することが重要です。

奥行き推定アルゴリズムには、メトリック奥行き推定(MDE)と、シーン内のオブジェクトの相対距離を推定する相対奥行き推定(RDE)の2つの分野があります。

MDEモデルは、マッピング、計画、ナビゲーション、オブジェクト認識、3D再構築、画像編集に役立ちます。ただし、MDEモデルのパフォーマンスは、特に画像の奥行きスケールに大きな差がある場合(たとえば、室内と屋外の画像など)に、複数のデータセットをまたがって単一のモデルをトレーニングする場合に低下することがあります。その結果、現在のMDEモデルは、特定のデータセットにオーバーフィットし、他のデータセットに対してうまく汎化しません。

一方、RDEモデルは、視差を監督手段として使用します。RDEの深さ予測は、画像フレーム間で互いに一貫しているだけで、スケールファクターは不明です。これにより、RDEメソッドは、3D映画を含むさまざまなシーンとデータセットでトレーニングすることができ、モデルの汎用性を向上させるのに役立ちます。ただし、トレードオフとして、RDEで予測される深さにはメトリックな意味がないため、その応用範囲が制限されます。

これらの2つのアプローチを組み合わせたらどうなるでしょうか?私たちは、さまざまなドメインにうまく汎化できる同時に正確なメトリックスケールを保持する奥行き推定モデルを持つことができます。これがZoeDepthが達成したことです。

ZoeDepthの概要。出典:https://arxiv.org/pdf/2302.12288.pdf

ZoeDepthは、MDEとRDEのアプローチを組み合わせた2ステージのフレームワークです。第1ステージは、相対的な深さを推定するためにトレーニングされたエンコーダーデコーダー構造で構成されています。このモデルはさまざまなデータセットでトレーニングされており、汎化性能が向上しています。第2ステージでは、メトリックな深さを推定するためのコンポーネントが追加されます。

このアプローチで使用されるメトリックヘッドのデザインは、単一の深さ値ではなく、各ピクセルに対して一連の深さ値を推定するメトリックビンズモジュールと呼ばれる手法に基づいています。これにより、モデルは各ピクセルに対して可能な深さ値の範囲を捉えることができ、その精度と頑健性を向上させることができます。これにより、シーン内のオブジェクト間の物理的な距離を考慮した正確な深度測定が可能になります。これらのヘッドはメトリックな深度データセットでトレーニングされ、第1ステージと比べて軽量です。

推論においては、分類モデルがエンコーダーの特徴を使用して各画像に適切なヘッドを選択します。これにより、モデルは特定のドメインやシーンのタイプに対して深度推定に特化することができ、相対的な深度の事前トレーニングからも恩恵を受けることができます。最終的に、複数の構成で使用できる柔軟なモデルが得られます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「2023年版AI音声生成器の究極ガイド」

導入 人工知能(AI)の導入により、さまざまな産業で画期的な進歩が生まれています。AI音声生成器の登場は、AIが人間の振る舞...

データサイエンス

単一のマシンで複数のCUDAバージョンを管理する:包括的なガイド

私の以前の役職の一つでAIコンサルタントとして、仮想環境をPython環境を管理し、分離するツールとして利用するという課題が...

データサイエンス

「EU AI Actについて今日関心を持つべき理由」

「MLおよびAI業界で働く私たちのほとんどは、新しい規制に関する見出しを見て流し読みするでしょう新しい規制は『法律用語』...

AIニュース

気候変動との戦いをリードする6人の女性

「私たちは気候科学の先駆者であるユニス・ニュートン・フートと、より持続可能な未来を築く6人の女性主導のGoogle.orgの助成...

データサイエンス

推論:可観測性のAI主導の未来?

この記事では、オペラビリティの後続としての推論、AIOpsからの教訓、その成功の不足、および推論ソリューションの新興原則に...

データサイエンス

学習トランスフォーマーコード入門:パート1 - セットアップ

あなたについてはわかりませんが、コードを見ることの方が論文を読むよりも簡単なことがありますAdventureGPTに取り組んでい...