DORSalとは 3Dシーンの生成とオブジェクトレベルの編集のための3D構造拡散モデル

DORSal is a 3D structural diffusion model for generating 3D scenes and editing at the object level.

人工知能は、Generative AIとLarge Language Models(LLMs)の導入により進化しています。GPT、BERT、PaLMなどのよく知られたモデルは、人間とコンピュータの相互作用を変革するLLMの長いリストに素晴らしい追加です。画像生成では、拡散モデルが研究者の注目を集めています。これらのモデルは、画像データセットの複雑な確率分布を捉え、トレーニングデータに似た新しいサンプルを生成します。3Dシーン理解も進化しており、大規模なシーンデータセットで訓練できるジオメトリフリーなニューラルネットワークの開発を可能にしています。これらのネットワークは、見たことのないシーンやオブジェクトにも適用でき、単一またはわずかな入力画像から視点を生成し、トレーニングにはシーンごとにわずかな観測データのみが必要です。

拡散モデルと3Dシーン表現学習モデルの能力を組み合わせることで、UCバークレー、Google Research、Google DeepMindの研究チームはDORSal(Diffusion for Object-centric Representations of Scenes et al.)を開発しました。これは、オブジェクト表現と拡散デコーダを組み合わせて、3Dシーンの新しい視点を生成するアプローチです。DORSalはジオメトリフリーであり、高価なボリュームレンダリングを必要とせず、データだけから純粋に3Dシーン構造を学習します。

3Dシーンの作成を目的として、DORSalは元々画像合成のために作成されたビデオ拡散アーキテクチャを利用しています。主なコンセプトは、シーンのオブジェクトに関するスロットベースのオブジェクト中心の表現を拡散モデルに制約として利用することです。これらの表現は、シーンのオブジェクトとその特性に関する重要な詳細を捉えています。DORSalは、これらのオブジェクト中心の表現に拡散モデルを構成することで、3Dシーンの高品質な革新的な視点の合成を容易にします。また、オブジェクトレベルのシーン編集の機能も持ち、ユーザーはシーン内の特定のアイテムを変更および変更することができます。

チームによる主な貢献は次のとおりです。

  1. 拡散モデルとオブジェクト中心のシーン表現の強みを活用した3D新視点合成アプローチであるDORSalは、描画された視点の品質を向上させます。
  1. 従来の3Dシーン理解の方法と比較して、DORSalは優れたパフォーマンスを発揮し、Fréchet Inception Distance(FID)の5倍から10倍の改善を実現します。
  1. 3D拡散モデルに関する従来の研究と比較して、DORSalはより複雑なシーンの処理能力に優れています。Google Street Viewの実世界のデータを評価した結果、DORSalは描画品質の点で著しく優れたパフォーマンスを発揮します。
  1. DORSalは、構造化されたオブジェクトベースのシーン表現を拡散モデルに条件付けることができます。この表現を使用することで、DORSalは個々のオブジェクトを使用してシーンを構成することを学び、推論中に基本的なオブジェクトレベルのシーン編集を可能にし、ユーザーはシーン内の特定のオブジェクトを操作および変更することができます。

結論として、DORSalの効果は、複雑な合成マルチオブジェクトシーンとGoogle Street Viewなどの実世界の大規模データセットで行われた実験によって確認されます。スケーラブルな3Dシーンのオブジェクトレベルの編集を可能にする能力は、将来の展望に向けた有望なアプローチです。改善された描画品質は、3Dシーン理解の進歩の可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

バイオメディカルインサイトのための生成AI

OpenBIOMLとBIO GPTを利用したGenerative AIを探求し、Large Language Models (LLMs)を使用して疾患の理解と治療に新たなアプ...

データサイエンス

「データ注釈は機械学習の成功において不可欠な役割を果たす」

「自動車から医療まで、AIの成功におけるデータアノテーションの重要な役割を発見しましょう方法、応用、そして将来のトレン...

人工知能

レオナルド・ダ・ヴィンチ:天才の心の内部

世界中の28の機関が力を合わせ、レオナルド・ダ・ヴィンチの比類のない遺産を紹介し、芸術、科学、AIイノベーションを融合させる

人工知能

ChatGPTを使用したメール自動化の方法

ChatGPT内を出たりすることなく、ChatGPTにメールを書いて送信することができます

機械学習

マルチクエリアテンションの解説

マルチクエリアテンション(MQA)は、モデルのパフォーマンスを保証しながら、デコーダ内のトークン生成の速度を加速すること...

データサイエンス

「限られた訓練データで機械学習モデルは信頼性のある結果を生み出すのか?ケンブリッジ大学とコーネル大学の新しいAI研究がそれを見つけました...」

ディープラーニングは、音声認識から自律システム、コンピュータビジョン、自然言語処理まで、人工知能の中で強力で画期的な...