「一貫性への超克:このAIモデルは、頑強なテキストから3D生成のための拡散モデルの3D認識を教える」

Overcoming Consistency This AI model teaches 3D recognition for diffusion models in 3D generation from robust text.

テキストから画像へのモデルは最近急速に成長しており、その進歩のほとんどはテキストから画像へのモデルにあります。これらのモデルは与えられたテキストのプロンプトを使用して写真のようなリアルな画像を生成することができます。

画像生成はこの分野の包括的な研究の一部です。重要な側面ではありますが、さまざまなアプリケーションで重要な役割を果たす他のテキストからXへのモデルも存在します。例えば、テキストからビデオへのモデルは、与えられたテキストのプロンプトに基づいてリアルなビデオを生成することを目指しています。これらのモデルはコンテンツの準備プロセスを劇的に加速することができます。

一方、テキストから3D生成はコンピュータビジョンとグラフィックスの分野で重要な技術として登場しています。まだ初期段階ではありますが、テキスト入力からリアルな3Dモデルを生成する能力は、学術研究者や業界のプロフェッショナルから大きな関心を集めています。この技術はさまざまな産業を革新する潜在能力を持ち、複数の学問領域の専門家がその継続的な開発を注視しています。

Neural Radiance Fields(NeRF)は、一連の2D画像またはまばらな3Dポイントから複雑な3Dシーンの高品質なレンダリングを可能にする最近導入された手法です。テキストから3DモデルとNeRFを組み合わせるためのいくつかの手法が提案されていますが、これらはしばしば歪みやアーティファクトを引き起こし、テキストのプロンプトやランダムシードに対して敏感です。

特に、3Dの非整合性の問題は、レンダリングされた3Dシーンが各視点で前面のビューに属する幾何学的特徴を複数回生成し、重い歪みが生じる一般的な問題です。この問題は、2D拡散モデルが3D情報、特にカメラの位置に関する認識の欠如によるものです。

では、テキストから3DモデルをNeRFの進化と組み合わせてリアルな3Dレンダリングを得る方法があったらどうでしょうか?それが3DFuseです。

3DFuseパイプラインの概要。出典: https://ku-cvlab.github.io/3DFuse/

3DFuseは、3D認識を持つ事前学習済みの2D拡散モデルを組み合わせる中間的なアプローチであり、3D整合性のあるNeRF最適化に適したものにします。これにより、3D認識が事前学習済みの2D拡散モデルに注入されます。

3DFuseは、生成されたシーンの意味的な特定を高速化するために意味コードのサンプリングから始めます。この意味コードは実際には生成された画像と与えられたテキストのプロンプトです。このステップが完了すると、3DFuseの整合性注入モジュールはこの意味コードを取り入れ、与えられた視点のために粗い3Dジオメトリを投影して視点固有の深度マップを取得します。これには既存のモデルを使用します。深度マップと意味コードは、拡散モデルに3D情報を注入するために使用されます。

3DFuseの概要。出典: https://ku-cvlab.github.io/3DFuse/

ここでの問題は、予測された3Dジオメトリがエラーを起こしやすく、生成された3Dモデルの品質に影響を与える可能性があることです。そのため、パイプラインのさらなる進行前にこれを処理する必要があります。この問題を解決するために、3DFuseは問題のある深度情報を修正する方法を暗黙的に知っている疎な深度インジェクタを導入しています。

3D一貫性のある画像を生成する拡散モデルのスコアを蒸留することにより、3DFuseは視点一貫性のあるテキストから3D生成を安定的に最適化します。このフレームワークは、生成品質と幾何学的一貫性の点で、以前の研究に比べて大幅な改善を実現しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「AIディープフェイクの作り方(初心者向け)」

「AIディープフェイクを作るには、いくつかの技術的なスキルが必要でした...それが、Refaceという便利なツールが登場するまで...

機械学習

「AIがクリーンエネルギーの未来を支える方法」

人工知能は、最先端の技術と共に太陽と風の力を利用して世界を改善しています。 I AM AI ビデオシリーズの最新エピソードでは...

人工知能

変革の風 生成AIがサイバーセキュリティを革新している方法

「カスタマイズされたモデルへの移行、アナリストの強化、セキュリティベンダーとのパートナーシップを通じて、NTT DATAは新...

AIニュース

ChatGPTのようなChatBot Zhinaoは、何を言うべきか、何を言うべきでないかを知っています

生成型人工知能(AI)はテック界隈で中心的な役割を果たしていますが、綿密に制御されたインターネット環境での運用はほとん...

機械学習

このAI論文は、高度な時空間予測のためのニューラルオペレータの自己回帰エラーに対するディープラーニングソリューションを探求しています

この研究は、自己回帰ニューラルオペレーターのドメイン内の重要な課題である予測の範囲拡張の能力の制約について探求してい...

AI研究

東京理科大学の研究者は、材料科学におけるこれまで知られていなかった準結晶相を検出する深層学習モデルを開発しました

物質における新しい結晶構造を発見する探求は、電子から製薬まで幅広い産業において重要な意味を持ち、科学的な探求の中核と...