NeRFを使用して室内空間を再構築する

Reconstruct indoor spaces using NeRF.

Marcos Seefelder、ソフトウェアエンジニア、およびDaniel Duckworth、リサーチソフトウェアエンジニア、Google Research

場所を選ぶ際、私たちは次のような疑問を持ちます。このレストランは、デートにふさわしい雰囲気を持っているのでしょうか?屋外にいい席はありますか?試合を見るのに十分なスクリーンがありますか?これらの質問に部分的に答えるために、写真やビデオを使用することがありますが、実際に訪れることができない場合でもそこにいるような感覚には代わりがありません。

インタラクティブでフォトリアルな多次元の没入型体験は、このギャップを埋め、スペースの感触や雰囲気を再現し、ユーザーが必要な情報を自然かつ直感的に見つけることができるようにすることができます。これを支援するために、Google MapsはImmersion Viewを開発しました。この技術は、機械学習(ML)とコンピュータビジョンの進歩を活用して、Street Viewや航空写真など数十億の画像を融合して世界の豊富なデジタルモデルを作成します。さらに、天気、交通、場所の混雑度などの役立つ情報を上に重ねます。Immersive Viewでは、レストラン、カフェ、その他の会場の屋内ビューが提供され、ユーザーが自信を持ってどこに行くかを決めるのに役立ちます。

今日は、Immersion Viewでこれらの屋内ビューを提供するために行われた作業について説明します。私たちは、写真を融合してニューラルネットワーク内で現実的な多次元の再構成を生成するための最先端の手法であるニューラル輝度場(NeRF)に基づいています。私たちは、DSLRカメラを使用してスペースのカスタム写真キャプチャ、画像処理、およびシーン再現を含むNeRFの作成パイプラインについて説明します。私たちは、Alphabetの最近の進歩を活用して、視覚的な忠実度で以前の最先端を上回るか、それに匹敵する方法を設計しました。これらのモデルは、キュレーションされたフライトパスに沿って組み込まれたインタラクティブな360°ビデオとして埋め込まれ、スマートフォンで利用可能になります。

アムステルダムのThe Seafood Barの再構築(Immersive View内)。

写真からNeRFへ

私たちの作業の中核にあるのは、最近開発された3D再構成および新しいビュー合成の方法であるNeRFです。シーンを説明する写真のコレクションがある場合、NeRFはこれらの写真をニューラルフィールドに凝縮し、元のコレクションに存在しない視点から写真をレンダリングするために使用できます。

NeRFは再構成の課題を大部分解決したものの、実世界のデータに基づくユーザー向け製品にはさまざまな課題があります。たとえば、照明の暗いバーから歩道のカフェ、ホテルのレストランまで、再構成品質とユーザー体験は一貫している必要があります。同時に、プライバシーは尊重され、個人を特定する可能性のある情報は削除される必要があります。重要なのは、シーンを一貫してかつ効率的にキャプチャし、必要な写真を撮影するための労力を最小限に抑えたまま、高品質の再構成が確実に得られることです。最後に、すべてのモバイルユーザーが同じ自然な体験を手に入れられるようにすることが重要です。

Immersive View屋内再構築パイプライン。

キャプチャ&前処理

高品質なNeRFを生成するための最初のステップは、シーンを注意深くキャプチャすることです。3Dジオメトリーとカラーを派生させるための複数の異なる方向からの密な写真のコレクションを作成する必要があります。オブジェクトの表面に関する情報が多いほど、モデルはオブジェクトの形状やライトとの相互作用の方法を発見する際により優れたものになります。

さらに、NeRFモデルはカメラやシーンそのものにさらなる仮定を置きます。たとえば、カメラのほとんどのプロパティ(ホワイトバランスや絞りなど)は、キャプチャ全体で固定されていると仮定されます。同様に、シーン自体は時間的に凍結されていると仮定されます。ライティングの変更や動きは避ける必要があります。これは、キャプチャに必要な時間、利用可能な照明、機器の重さ、およびプライバシーなどの実用上の問題とのバランスを取る必要があります。プロの写真家と協力して、DSLRカメラを使用して会場写真を迅速かつ信頼性の高い方法でキャプチャする戦略を開発しました。このアプローチは、現在までのすべてのNeRF再構築に使用されています。

キャプチャがシステムにアップロードされると、処理が開始されます。写真には個人情報が含まれる場合があるため、個人を特定する可能性のあるコンテンツを自動的にスキャンしてぼかします。次に、構造からの動きパイプラインを適用して、各写真のカメラパラメーター(他の写真に対する位置および方向、焦点距離などのレンズ特性)を解決します。これらのパラメータは、各ピクセルを3D空間の点と方向に関連付け、NeRF再構成プロセスの重要な信号を構成します。

NeRF再構成

多くの機械学習モデルと異なり、新しいNeRFモデルは、各キャプチャされた場所でゼロから訓練されます。目標のコンピューティング予算内で可能な限り最高の再構成品質を得るために、Alphabetで開発されたNeRFに関するさまざまな公開作品の機能を組み込んでいます。これらには以下のものが含まれます。

  • 私たちは、これまでで最高のNeRFモデルの1つであるmip-NeRF 360に基づいて構築しています。Nvidiaの広く使用されているInstant NGPよりも計算量が多いですが、mip-NeRF 360は常により少ないアーティファクトと高い再構成品質を生み出すことがわかっています。
  • 私たちは、NeRF in the Wildで紹介された低次元の生成潜在最適化(GLO)ベクトルを、モデルの放射線ネットワークの補助入力として組み込んでいます。これらは、各画像の外観情報を埋め込む実数値の潜在ベクトルであり、各画像に独自の潜在ベクトルを割り当てることで、モデルは、一般的なNeRFキャプチャでの一般的なアーティファクトである曇りがちなジオメトリに頼らずに、照明の変化などの現象を捕捉できます。
  • 私たちは、Block-NeRFで紹介された露出調整を組み込んでいます。GLOベクトルとは異なり、これらは、写真のメタデータから直接派生し、モデルの放射線ネットワークへの追加入力として供給されます。これには2つの主な利点があります。ISOの変化を可能にし、推論時に画像の明るさを制御する方法を提供します。私たちは、両方の特性が暗い場所をキャプチャし、再構成するためには非常に貴重であると考えています。

私たちは、TPUまたはGPUアクセラレーターで各NeRFモデルをトレーニングしています。すべてのGoogle製品と同様に、私たちは、計算要件を減らしたり、再建品質を向上させたりするための新しい方法を探し続けています。

私たちの方法とmip-NeRF 360のベースラインの横並び比較。

スケーラブルなユーザー体験

NeRFがトレーニングされると、任意の視点とカメラレンズからシーンの新しい写真を作成することができます。私たちの目標は、再構成自体だけでなく、ユーザーが自然にスマートフォンから空間を探索する自由を与えるガイド付きのインタラクティブツアーを提供することです。

このために、私たちは、事前定義されたパスに沿って屋内スペースを飛行するような360°コントローラブルビデオプレーヤーを設計しました。360°ビデオは、この新しい技術を探る最初のGoogle製品として、生成されたコンテンツを提供する形式として選択されました。

技術的には、リアルタイムの推論とベイクされた表現は、クライアントごとにリソースを多く消費するため(デバイスまたはクラウド計算)、それらに頼ることは、この体験にアクセスできるユーザー数を制限することになります。ビデオを使用することで、YouTubeで使用されている同じビデオ管理および配信インフラストラクチャを利用して、ビデオのストレージと配信をすべてのユーザーにスケーリングすることができます。オペレーション側では、ビデオは、探索体験に対するより明確な編集コントロールを提供し、大量の品質検査が容易です。

私たちは、スペースを360°カメラで直接キャプチャすることも検討しましたが、NeRFを使用してスペースを再構成してレンダリングすることには、いくつかの利点があります。仮想カメラは、障害物や窓を通り抜けることができ、任意の所望のカメラレンズを使用できます。カメラパスは、ライブ録画とは異なり、事後に編集して滑らかさと速度を調整できます。NeRFキャプチャには、専用のカメラハードウェアを使用する必要もありません。

私たちの360°ビデオは、仮想の球形カメラの各ピクセルを通過するレイキャスティングと、シーンの可視要素を合成してレンダリングされます。各ビデオは、撮影者がキャプチャ中に撮影したキーフレーム写真のシーケンスによって定義されるスムーズなパスに従います。各画像のカメラの位置は、構造からのモーション中に計算され、画像のシーケンスは滑らかに補間されてフライトパスになります。

異なる会場間で速度を一定に保つため、私たちは、各会場で3メートル離れた2つの画像を撮影して距離をキャリブレーションしています。空間内の測定値を知ることで、生成されたモデルをスケーリングし、すべてのビデオを自然な速度でレンダリングします。

最終的な体験は、Immersive View内でユーザーに提示されます。ユーザーは、レストランや他の屋内会場にシームレスに飛行し、写真のような360°ビデオを通じてスペースを探索することができます。

オープンな研究課題

私たちは、この機能が普遍的にアクセス可能で、AIによって駆動される没入型体験に向けた旅の最初のステップであると信じています。NeRFの研究面からは、さらに多くの質問が未解決のままです。これらには、以下のものが含まれます。

  1. シーン分割による復元の強化。シーンに意味情報を追加することで、シーンを検索しやすく、ナビゲーションしやすくすることができます。
  2. 屋内だけでなく、屋外の写真コレクションにも NeRF を適用することで、世界中のあらゆる場所で同様の体験を可能にし、ユーザーが屋外の世界を体験する方法を変えることができます。
  3. オンデバイスでのニューラルレンダリングによるリアルタイムでインタラクティブな 3D 探索の実現。
ストリートビューパノラマで訓練された NeRF モデルを使用した屋外シーンの復元。

我々は今後も成長を続け、コミュニティと協力して没入型体験の次世代を構築することを楽しみにしています。

謝辞

このプロジェクトは Google の複数チームによる共同作業です。プロジェクトへの貢献者には、Jon Barron、Julius Beres、Daniel Duckworth、Roman Dudko、Magdalena Filak、Mike Harm、Peter Hedman、Claudio Martella、Ben Mildenhall、Cardin Moffett、Etienne Pot、Konstantinos Rematas、Yves Sallat、Marcos Seefelder、Lilyana Sirakovat、Sven Tresp、Peter Zhizhin が含まれます。

また、Luke Barrington、Daniel Filip、Tom Funkhouser、Charles Goran、Pramod Gupta、Mario Lučić、Isalo Montacute、Dan Thomasset に貴重なフィードバックと提案をいただきました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Amazon SageMaker Canvasで構築されたMLモデルをAmazon SageMakerリアルタイムエンドポイントに展開します」

『Amazon SageMaker Canvasは、機械学習(ML)モデルをリアルタイム推論エンドポイントにデプロイできるようになりましたこれ...

データサイエンス

「バリー・ディラー対生成AI:著作権法的な戦い」

メディアの大物であるバリー・ディラー氏と一部の著名な出版社は、人工知能(AI)システムのトレーニングで公開された作品の...

機械学習

「フラミンゴとDALL-Eはお互いを理解しているのか?イメージキャプションとテキストから画像生成モデルの相互共生を探る」

テキストとビジュアルのコンピュータ理解を向上させるマルチモーダル研究は、最近大きな進歩を遂げています。DALL-EやStable ...

機械学習

「ハリウッドの自宅:DragNUWAは、制御可能なビデオ生成を実現できるAIモデルです」

生成AIは、大規模な拡散モデルの成功的なリリースにより、過去2年間で大きな飛躍を遂げました。これらのモデルは、リアルな画...

AI研究

コンピュータビジョンシステムは、画像認識と生成を結びつけたものです

MAGEは、通常は別々に訓練される画像生成と認識の2つの主要なタスクを1つのシステムに統合します

AI研究

自動化された欺瞞検出:東京大学の研究者が機械学習を通じて表情と脈拍を利用して欺瞞を暴く

デジタル時代において、自動化された欺瞞検知システムは、様々な分野で重要な存在となっています。正確な検知の需要は、商業...