「TADAをご紹介します 口述された説明を表現豊かな3Dアバターに変換するための強力なAI手法」

TADA Powerful AI method to convert spoken explanations into expressive 3D avatars.

大規模言語モデルと拡散モデルの開発により、テキストから画像へのモデルを異なる可能性のあるニューラル3Dシーン表現と統合する道が開かれました。その最良の例は、DeepSDF、NeRF、DMTETです。これらにより、テキストの説明のみから正確な3Dモデルを作成することが可能になりました。これらの進歩は人工知能コミュニティに大きな進歩をもたらしましたが、形状とテクスチャに関しては、生成されたオブジェクトやキャラクターは頻繁に現実的な3Dアバターを作り出すのに十分な品質を持っていません。また、これらのキャラクターは従来のコンピュータグラフィックスワークフローには適合していない場合もあります。

最近の研究では、研究チームがTADA(Text to Animatable Digital Avatars)を紹介しました。これは、口頭の説明を表現力豊かな3Dアバターに変換するためのシンプルで非常に強力な手法です。これらのアバターは従来のグラフィックス手法を使用してアニメーション化することができ、視覚的にも魅力的です。テキストからキャラクターを生成する既存の技術では、ジオメトリとテクスチャの品質に問題があります。これらの技術は、ジオメトリとテクスチャの不一致、特に顔の部分でリアルなアニメーション化に問題を抱えています。TADAは、2D拡散モデルとパラメトリックボディモデルの間に強力なシナジーを形成することによって、これらの問題に対処しています。

TADAの発明には、洗練されたアバター表現の作成が鍵となります。チームは、SMPL-Xボディモデルに変位レイヤーとテクスチャマップを追加して改善しました。その結果、SMPL-Xはより高解像度の形式で生成され、より細かいテクスチャと特徴を捉えることができます。詳細で包括的なアバターの特徴を実現するために、階層的なレンダリング方法とスコア蒸留サンプリング(SDS)が導入されました。

アバターのジオメトリとテクスチャを整合させるために、チームはSDSの最適化プロセス中に作成されたキャラクターのレンダリングされた法線とRGB画像の潜在的な埋め込みを使用しました。特に顔の領域で問題となっていた整列の問題を、整列戦略の実装により解決しました。また、最適化プロセス中にいくつかの表情を使用することで、キャラクターの表情と意味を一貫させる努力がなされました。この方法により、最終的なアバターは元のSMPL-Xモデルの意味的な統一性を保ち、リアルで有機的に整列したアニメーションが可能となります。

TADAは、スコア蒸留サンプリング(SDS)という技術を使用して実施されました。主な貢献は次のとおりです。-

  1. 階層的最適化によるハイブリッドメッシュ表現:特に顔において高品質の詳細を実現します。
  1. ジオメトリとテクスチャの一貫した整列:生成されたキャラクターを、事前定義されたSMPL-Xボディポーズと顔の表情を使用して変形する最適化プロセスにより、ジオメトリとテクスチャの整列を実現します。
  1. 意味的な一貫性とアニメーション:生成されたキャラクターがSMPL-Xと意味的に一貫性を保ち、簡単で正確なアニメーションが可能となります。

チームは、TADAの代替手法と比較してどれだけ優れているかを評価するために、定性的および定量的な評価を行いました。TADAの能力はアバターの製作にとどまらず、アニメーションとレンダリングの両方に適したデジタルキャラクターの大規模な構築を可能にします。また、ユーザーに大きなパワーとカスタマイズの機能を提供するテキストガイド付きの編集も可能です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ロボットが「グリップ」のアップグレードを取得:AO-Graspがロボットに物を落とさない技術を教えます!

近年、ロボットは製造業から医療まで、様々な産業でますます使用されています。しかし、彼らのタスクを遂行する効果は、環境...

AI研究

マイクロソフトの研究者が提案するTaskWeaver:LLMを活用した自律エージェントの構築のためのコード優先の機械学習フレームワーク

大規模言語モデル(LLMs)は、印象的な自然言語生成および解釈能力を示しています。これらのモデルの例には、GPT、Claude、Pa...

データサイエンス

「テーマパークのシミュレーション:Rを使って待ち時間を理解する」

長い列はいつも嫌なものです、特に宇宙を舞い上がるか、グレート・バリア・リーフを航行するために待っている時には夏休みが...

データサイエンス

「データ分析のためのトップ10のAIツール」

ビジネスデータは日々複雑化しており、それを理解するためには高度な手法が必要です。従来のデータ分析手法は、手作業に依存...

AIニュース

「マイクロソフトのBing ChatがChromeとSafariに拡大」

マイクロソフトのBing Chatは、AIパワードチャットボットであり、マイクロソフト専用の制約から脱出し、非マイクロソフトのブ...

人工知能

「AI時代における組織の価値を引き出す」

「AIはAIに脅かされるのではなく、より能力を高め、自主性を増し、強い関係を築くことによって、個人の自己決定力を向上させ...