「Rodinに会ってください:さまざまな入力ソースから3Dデジタルアバターを生成する革新的な人工知能(AI)フレームワーク」

Rodin Innovative AI framework for generating 3D digital avatars from various input sources

生成モデルは、コンピュータサイエンスの多くの困難なタスクに対する事実上の解決策となっています。それらは視覚データの分析と合成のための最も有望な方法の一つを表しています。Stable Diffusionは、複雑な入力プロンプトから美しいリアルな画像を生成するための最もよく知られた生成モデルです。このアーキテクチャはDiffusion Models(DMs)に基づいており、画像と動画に対して驚異的な生成力を示しています。拡散と生成モデリングの急速な進歩が、2Dコンテンツの創造において革命を起こしています。その鍵となる言葉は非常にシンプルです。「それを説明できるなら、それを視覚化できる」ということです。または、さらに良いと言えば、「それを説明できるなら、モデルがそれを描くことができる」ということです。本当に信じられないほど、生成モデルが何ができるかです。

2DコンテンツはDMsにとってストレステストとなることが示されていますが、3Dコンテンツは追加の次元によると限定されないさまざまな課題をもたらします。アバターなどの3Dコンテンツを2Dコンテンツと同じ品質で生成することは、高品質のアバターに必要な豊富な詳細を生成するためのメモリと処理コストが制約となるため、困難な課題です。

技術が映画、ゲーム、メタバース、そして3D産業でデジタルアバターの使用を推進する中、誰でもデジタルアバターを作成できるようにすることは有益です。それがこの研究の進展を促している動機です。

著者たちは、デジタルアバターの作成の問題に対処するために、Roll-out diffusion network(Rodin)を提案しています。モデルの概要は、以下の図に示されています。

モデルへの入力は画像、ランダムノイズ、または望ましいアバターのテキストの説明であることができます。次に、与えられた入力から潜在ベクトルzが導かれ、拡散に使用されます。拡散プロセスは、いくつかのノイズ除去ステップから成り立っています。最初に、ランダムノイズが初期状態または画像に追加され、より鮮明な画像が得られるようにノイズが除去されます。

ここでの違いは、望ましいコンテンツの3D性質にあります。拡散プロセスは通常通り実行されますが、2D画像を対象とする代わりに、拡散モデルはアバターの粗いジオメトリを生成し、詳細合成のための拡散アップサンプラーを生成します。

計算およびメモリの効率性は、この研究の目標の一つです。このため、著者たちはニューラル輝度場の三軸(三軸)表現を利用しました。この表現は、ボクセルグリッドと比較して、記憶フットプリントをかなり小さくすることができるため、表現力を犠牲にすることなく効率性を高めることができます。

次に、別の拡散モデルが訓練され、生成された三面体プレーン表現を望ましい解像度にアップサンプリングします。最後に、4つの完全接続層から構成される軽量なMLPデコーダを利用して、RGBの体積画像を生成します。

以下にいくつかの結果を報告します。

先述の最先端の手法と比較して、Rodinは最も鮮明なデジタルアバターを提供します。モデルでは、他の手法とは異なり、共有されたサンプルにはアーティファクトが見られません。

これは、さまざまな入力ソースから簡単に3Dデジタルアバターを生成するための新しいフレームワークであるRodinの概要でした。興味がある場合は、以下のリンクで詳細情報を見つけることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

このAI論文では、「PolyID:高性能バイオベースポリマーの発見における機械学習の先駆者」として、ポリ-ンにおける機械学習を紹介しています

人工知能は生活のあらゆる側面で使用されています。AIは生活のあらゆる方面で使用され、化学やポリマーなどさまざまな分野で...

機械学習

AIベースのアプリケーションテストのトップトレンドを知る必要があります

「AIアプリケーションのテストにおける最新のトレンドを把握しましょうこれらの必須のテスト方法で、AIアプリケーションの精...

データサイエンス

ChatGPTのコードインタプリター:知っておくべきすべてのこと

OpenAIは、興奮をもって発表を行っており、最新の発表はChatGPT Plusのユーザーを喜ばせることでしょう。数ヶ月の期待を経て...

機械学習

機械学習エンジニアのためのLLMOps入門ガイド

イントロダクション OpenAIのChatGPTのリリースは、大規模言語モデル(LLM)への関心を高め、人工知能について誰もが話題にし...

データサイエンス

『ELS+ Stream Tool』

ELS+は、企業がデータから有益な洞察を抽出し、意思決定を改善し、パフォーマンスを向上させるためのAIパワードアナリティク...