「TADAをご紹介します 口述された説明を表現豊かな3Dアバターに変換するための強力なAI手法」

TADA Powerful AI method to convert spoken explanations into expressive 3D avatars.

大規模言語モデルと拡散モデルの開発により、テキストから画像へのモデルを異なる可能性のあるニューラル3Dシーン表現と統合する道が開かれました。その最良の例は、DeepSDF、NeRF、DMTETです。これらにより、テキストの説明のみから正確な3Dモデルを作成することが可能になりました。これらの進歩は人工知能コミュニティに大きな進歩をもたらしましたが、形状とテクスチャに関しては、生成されたオブジェクトやキャラクターは頻繁に現実的な3Dアバターを作り出すのに十分な品質を持っていません。また、これらのキャラクターは従来のコンピュータグラフィックスワークフローには適合していない場合もあります。

最近の研究では、研究チームがTADA(Text to Animatable Digital Avatars)を紹介しました。これは、口頭の説明を表現力豊かな3Dアバターに変換するためのシンプルで非常に強力な手法です。これらのアバターは従来のグラフィックス手法を使用してアニメーション化することができ、視覚的にも魅力的です。テキストからキャラクターを生成する既存の技術では、ジオメトリとテクスチャの品質に問題があります。これらの技術は、ジオメトリとテクスチャの不一致、特に顔の部分でリアルなアニメーション化に問題を抱えています。TADAは、2D拡散モデルとパラメトリックボディモデルの間に強力なシナジーを形成することによって、これらの問題に対処しています。

TADAの発明には、洗練されたアバター表現の作成が鍵となります。チームは、SMPL-Xボディモデルに変位レイヤーとテクスチャマップを追加して改善しました。その結果、SMPL-Xはより高解像度の形式で生成され、より細かいテクスチャと特徴を捉えることができます。詳細で包括的なアバターの特徴を実現するために、階層的なレンダリング方法とスコア蒸留サンプリング(SDS)が導入されました。

アバターのジオメトリとテクスチャを整合させるために、チームはSDSの最適化プロセス中に作成されたキャラクターのレンダリングされた法線とRGB画像の潜在的な埋め込みを使用しました。特に顔の領域で問題となっていた整列の問題を、整列戦略の実装により解決しました。また、最適化プロセス中にいくつかの表情を使用することで、キャラクターの表情と意味を一貫させる努力がなされました。この方法により、最終的なアバターは元のSMPL-Xモデルの意味的な統一性を保ち、リアルで有機的に整列したアニメーションが可能となります。

TADAは、スコア蒸留サンプリング(SDS)という技術を使用して実施されました。主な貢献は次のとおりです。-

  1. 階層的最適化によるハイブリッドメッシュ表現:特に顔において高品質の詳細を実現します。
  1. ジオメトリとテクスチャの一貫した整列:生成されたキャラクターを、事前定義されたSMPL-Xボディポーズと顔の表情を使用して変形する最適化プロセスにより、ジオメトリとテクスチャの整列を実現します。
  1. 意味的な一貫性とアニメーション:生成されたキャラクターがSMPL-Xと意味的に一貫性を保ち、簡単で正確なアニメーションが可能となります。

チームは、TADAの代替手法と比較してどれだけ優れているかを評価するために、定性的および定量的な評価を行いました。TADAの能力はアバターの製作にとどまらず、アニメーションとレンダリングの両方に適したデジタルキャラクターの大規模な構築を可能にします。また、ユーザーに大きなパワーとカスタマイズの機能を提供するテキストガイド付きの編集も可能です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

最初のネイティブLLMは電気通信業界に最適化されました

キネティカのSQL-GPT for Telecomは、ネットワークのパフォーマンスと顧客体験を最適化するためのより高速な分析と対応を可能...

機械学習

NVIDIA H100 GPUがMLPerfベンチマークのデビューで生成型AIの標準を設定

主要のユーザーと業界標準のベンチマークによれば、NVIDIAのH100 Tensor Core GPUは特に生成型AIを駆動する大規模言語モデル...

人工知能

「2023年に試してみることができるChatGPTのトップ22の代替品(無料および有料)」

ChatGPTは、さまざまなタスクにおいて最も有名で一般的に使用されているAIツールです。さまざまなコースや教材があり、その潜...

AI研究

スタンフォード研究者がGLOWとIVESを使用して、分子ドッキングとリガンド結合位姿の予測を変革しています

ディープラーニングは、スコアリング関数の改善により、分子ドッキングの向上の可能性を持っています。現在のサンプリングプ...

機械学習

「インドにおけるAI規制のためのPMモディのビジョン:B20サミット2023」

2023年、B20サミットインドがデリーで終了するにつれ、ナレンドラ・モディ首相の言葉の響きは続きました。ビジネスリーダーた...

AI研究

「UCSCとTU Munichの研究者が、余震を予測するための新しいディープラーニングベースのモデルであるRECASTを提案する」

人工知能はほぼすべての可能な分野に進出しています。この領域では広範な研究が行われています。私たちはまだまだ発見すべき...