「バイトダンスAI研究は、連続および離散パラメータのミックスを使用して、高品質のスタイル化された3Dアバターを作成するための革新的な自己教師あり学習フレームワークを提案しています」

The ByteDance AI research proposes an innovative self-supervised learning framework that uses a mix of continuous and discrete parameters to create high-quality stylized 3D avatars.

デジタルワールドへの重要な入り口は、社交、ショッピング、ゲームなどの活動において現代の生活でより一般的になっており、魅力的でアニメーションのある3Dアバターです。良いアバターは魅力的で、ユーザーの外見に合わせてカスタマイズされるべきです。Zepeto1やReadyPlayer2など、よく知られたアバターシステムは、楽しく使いやすいため、カートゥーン化されたスタイルが採用されています。しかし、通常、アバターを選択し、変更するには、多くのグラフィック要素から手作業で苦労して修正する必要があり、初心者のユーザーにとっては時間がかかり、難しい作業です。この研究では、フロントから撮影された一枚のセルフィーからスタイル化された3Dアバターの自動生成を調査しています。

具体的には、セルフィー画像が与えられた場合、彼らのアルゴリズムはアバターベクトルを予測し、グラフィックエンジンによって3Dアバターを生成し、事前定義された3Dアセットからアバター画像をレンダリングします。アバターベクトルは、事前定義されたアセットに固有のパラメータで構成されており、連続的なもの(例:頭の長さ)または離散的なもの(例:髪の種類)のいずれかである場合があります。単純な解決策は、一連のセルフィー画像に注釈を付け、監督学習を介してアバターベクトルを予測するモデルをトレーニングすることです。しかし、広範なアセット(通常数百)を扱うためには、大規模な注釈が必要です。セルフサプライズアプローチでは、異なる識別と意味セグメンテーションの損失を利用して、グラフィックエンジンのレンダリングを自動的に一致させるためのイミテータを訓練することで、注釈のコストを削減します。

さらに具体的には、セルフィー写真が与えられた場合、彼らのシステムはアバターベクトルを予測し、グラフィックエンジンによって3Dアバターを生成し、指定された3Dアセットからアバター画像をレンダリングします。アバターベクトルを構成する特徴は、プリセットのアセットに固有であり、連続的なもの(例:頭の長さ)または離散的なもの(例:髪の種類)のいずれかである場合があります。単純な方法は、一連のセルフィーに注釈を付け、監督学習を使用してアバターベクトルを予測するモデルを構築することです。しかし、広範なアセット(通常数百)を管理するためには、大規模な注釈が必要です。

アバターベクトル変換、セルフサプライズアバターパラメータ化、およびポートレートスタイリゼーションは、彼らの革新的なアーキテクチャの3つのステップを構成しています。図1に示すように、識別情報(ヘアスタイル、肌の色、眼鏡など)はパイプライン全体で保持され、ドメインのギャップは3つの段階を通じて徐々に縮小されます。ポートレートスタイリゼーションステージでは、まず2Dの実写からスタイル化された外観へのドメインクロスオーバーに集中します。このステップでは、入力セルフィーをスタイル化されたアバターとして生成することで、画像空間を維持します。現在のスタイリゼーション技術の粗雑な使用は、表情などの要素を保持し、パイプラインの後続のフェーズを複雑にする可能性があります。

図1

その結果、彼らは表情の均一性を保証しながらユーザーの識別を維持するために、AgileGANの修正バージョンを開発しました。次に、セルフサプライズアバターパラメータ化ステップでは、ピクセルベースの画像からベクトルベースのアバターに移行します。彼らは、強力なパラメータの離散性の強制が収束動作を達成できないことを発見しました。彼らは、離散的なパラメータを連続的なワンホットベクトルとしてエンコードするという寛大な形式を採用し、異なる可能性を訓練できるように、差分可能性を実現するためにイミテータに教えました。アバターベクトル変換ステップでは、すべての離散的なパラメータがワンホットベクトルに変換されます。リラックスしたアバターベクトル空間から厳密なアバターベクトル空間へのドメインクロスが行われます。グラフィックエンジンは最終的なアバターを構築し、厳密なアバターベクトルを使用してそれらをレンダリングすることができます。彼らは、直接量子化よりも優れた結果を出すユニークな検索手法を使用しています。彼らは人間の好みの研究を利用して結果を評価し、F2Pや手作業の作成などのベースライン手法と比較して、彼らの手法が個人のユニークさをどれだけ効果的に保護しているかを確認しています。その結果は、ベースライン手法のスコアよりもかなり高く、手作業の作成とほぼ同等のスコアを達成しています。

彼らはパイプラインの設計決定をサポートするためのアブレーションスタディも提供しています。彼らの技術的貢献は、以下の通りです:

• 連続および離散パラメータの組み合わせを用いた高品質なスタイル化された3Dアバターを生成するための新しい自己教師あり学習フレームワーク

• ポートレートのスタイル化を用いたスタイルドメインの大きなギャップを埋めるための新しい方法によるスタイル化された3Dアバターの作成

• 離散アバターパラメータの最適化における収束問題に対処するためのカスケードリラクゼーションおよび検索パイプライン

彼らのサイトで論文のビデオデモンストレーションを見ることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Wandaとは:大規模言語モデルに対するシンプルで効果的なプルーニング手法の紹介

大きな言語モデル(LLM)の人気と使用率は絶えず高まっています。生成型人工知能の分野での巨大な成功を受けて、これらのモデ...

機械学習

Magic123とは、高品質で高解像度の3Dジオメトリとテクスチャを生成するために、二段階の粗-細最適化プロセスを使用する新しい画像から3Dへのパイプラインです

2次元の世界しか見ることができないにもかかわらず、人間は3次元の環境でナビゲーションしたり、思考したり、相互作用したり...

機械学習

人工知能(AI)エージェント進化のフロンティア

AIエージェントアーキテクチャの微妙な行動をナビゲートすることにより、従来のソフトウェアアプリケーションとは異なる自己...

人工知能

デジタルアーティストのスティーブン・タンが、今週の「NVIDIA Studio」でソフィッシュティケイテッドなスタイルを披露します

エディターの注:この記事は、週刊のIn the NVIDIA Studio シリーズの一部であり、注目のアーティストを紹介し、クリエイティ...

AI研究

NVIDIAのAI研究者は、オブジェクト周囲の狭いバンドにボリューメトリックレンダリングを制限することで、効率的にNeRFレンダリングを行うための人工知能アプローチを提案しています

ナビディアの研究者たちは、体積ベースと表面ベースのレンダリング間で効率的に移行するためのニューラル放射輝度場の定式化...

機械学習

このAI論文は、3Dワールドを大規模言語モデルに注入し、新しい3D-LLMのファミリーを導入することを提案しています

ここ数年、大型言語モデル(LLM)(GPT4など)の数が増加しており、コミュニケーションや常識的な推論など、さまざまなタスク...