「KAISTの研究者がFaceCLIPNeRFを紹介:変形可能なNeRFを使用した3D顔のテキスト駆動型操作パイプライン」

KAIST researchers present FaceCLIPNeRF a text-driven pipeline for 3D face manipulation using deformable NeRF.

3Dデジタル人間コンテンツ改善の重要な要素は、簡単に3D顔表現を操作できる能力です。Neural Radiance Field(NeRF)は、3Dシーンの再構築において重要な進展を遂げていますが、その操作技術の多くは剛体ジオメトリや色の操作に焦点を当てており、表情の微細な制御を必要とする作業において改善が必要です。最近の研究では、領域制御された顔編集手法が提案されましたが、この手法では、選択したトレーニングフレームから顔の異なる部分のユーザーアノテーションマスクを収集する手間のかかる手順が必要であり、さらに人間の属性制御が必要です。

顔特異的な暗黙の表現技術は、可変性の高い顔モデルのパラメータを事前に使用して観測された顔の表情を高い忠実度でエンコードします。しかし、その手動操作には、顔の表情の範囲を網羅した大規模なトレーニングセットが必要であり、約6000フレームをカバーします。これにより、データ収集と操作のプロセスが困難になります。その代わりに、KAISTとScatter Labの研究者は、いくつかの異なるタイプの顔変形インスタンスから成る約300のトレーニングフレームの動的なポートレートビデオ上でトレーニングする方法を開発しました。これにより、図1に示すように、テキストによる変更が可能になります。

図1

彼らの手法は、HyperNeRFを使用して観測された変形をカノニカル空間から学習し分離し、顔の変形を制御します。特に、共通の潜在コード条件付きの暗黙のシーンネットワークとフレームごとの変形潜在コードは、トレーニングフレーム全体で教えられます。彼らの基本的な発見は、様々な空間変数の潜在コードを使用してシーンの変形を表現し、操作タスクに利用することです。この発見は、HyperNeRFの定式化を単純に適用することの欠点から生じます。すなわち、望ましい顔の歪みをエンコードする単一の潜在コードを探すことです。

たとえば、単一の潜在コードでは、多くの場合に見られるローカルな変形の混合を必要とする表情を伝えることはできません。彼らの研究では、この問題を「連結ローカル属性の問題」として特定し、空間的に変動する潜在コードを提供することで対処しています。これを行うために、彼らはまず、すべての観測された変形をアンカーコードのコレクションにまとめ、それらを組み合わせて数多くの位置条件付きの潜在コードを生成するためにMLPに教えます。そして、生成された潜在コードの画像をCLIP埋め込み空間の目標テキストに近づけることにより、潜在コードの反映性を実現します。結論として、彼らの研究は以下の貢献をしています。

• 空間的に変動する潜在コードを使用してシーンを表現する操作ネットワークの設計

• NeRFで再構築された顔のテキストによる操作パイプラインの提案

• 彼らの知る限り、NeRFで再構築された顔に関するテキストを操作する最初の人物。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

2023年9月のトップAIメールアシスタント

人工知能のメールアシスタントは、メールの作成を迅速かつ簡単にすることができます。自動タスクの完了、メッセージの優先順...

AI研究

コロンビア大学とAppleの研究者が『フェレット』を紹介します画像の高度な理解と説明のための画期的な多モーダル言語モデルです

モデルの空間的知識を促進する方法は、ビジョン言語学習の主要な研究課題です。このジレンマは、参照と基線という2つの必要な...

機械学習

「メールの生産性を革新する:SaneBoxのAIがあなたの受信トレイの体験を変える方法」

生産性について誰かが書くたびに、暗い情景を描くことから始めるようです。「今日のデジタル時代では、誰も何もできない̷...

データサイエンス

ダックAIは、DuckTrackを紹介します:マルチモーダルコンピュータインタラクションデータコレクター

ユーザーの相互作用の正確で精密なトラッキングは、コンピューターエージェントの機能を進化させる上で重要な基盤となります...

AI研究

サリー大学の研究者が新しい人工知能(AI)モデルを開発しましたこのモデルは、通信ネットワークが最大76%ものネットワークを節約できる可能性があります

オープン・ラジオ・アクセス・ネットワーク(O-RAN)は、分離されたラジオ・アクセス・ネットワーク(RAN)に知能を注入し、...

機械学習

「シャッターストックがNVIDIAピカソとともに生成AIを3Dシーンの背景に導入」

こんな感じです:Shutterstockの最新のツールを使って、クリエイターはジェネレーティブAIの助けを借りて、迅速にカスタマイ...