ハイパーヒューマンに会ってください:潜在的な構造拡散を用いたハイパーリアルな人間生成のための新しいAIフレームワーク

ハイパーヒューマンと出逢おう:潜在的な構造拡散を活用した新たなAIフレームワークによるハイパーリアルな人間生成

ユーザーが指定した条件(テキストやポーズなど)に基づいて超リアルな人間のイメージを生成することは、画像アニメーションやバーチャルな試着など、さまざまなアプリケーションにおいて意義深いものです。コントローラブルな人間の画像生成のタスクを探求するために、さまざまな取り組みが行われてきました。初期の手法は、再構成の方法として変分オートエンコーダ(VAE)に依存するか、生成敵対的ネットワーク(GAN)を介してリアリズムを向上させました。いくつかの手法によって高品質の画像の生成が行われているにもかかわらず、不安定なトレーニングや限られたモデルの容量などの課題があり、小規模なデータセットでのみ動作し、多様性が低いという制約がありました。

拡散モデル(DM)の最近の登場は、現実的な合成において新しいパラダイムを導入し、生成AIにおける主要なアーキテクチャとなりました。しかし、Stable DiffusionやDALL·E 2などのモデルのような模範的なテキストからイメージへのモデルは、腕や足、自然なポーズなどの一貫した解剖学を持つ人間のイメージを作成するのに苦労しています。主な課題は、人間形態の非剛性変形であり、テキストプロンプトだけでは難しく描写するのが難しい構造情報が必要になることです。

ControlNetやT2I-Adapterなどの最近の研究では、学習可能なブランチを導入して事前に学習したDM(Stable Diffusionなど)を適応制御することで、画像生成に対する構造的な制御を可能にしようとしています。ただし、これらの手法はメインブランチと補助ブランチ間の特徴の不一致から悩まされ、制御信号(ポーズマップなど)と生成された画像の一貫性が欠けています。HumanSDは、チャネルごとの連結によって拡散U-Netにボディスケルトンを直接入力することで、この問題に対処します。ただし、この手法は多様性に乏しい芸術的なスタイルの画像の生成にとどまります。また、人間のコンテンツはポーズ制御のみで合成され、深度マップや法線マップなどの他の重要な構造情報は無視されます。

本記事で報告されている研究では、高いリアリズムと多様なレイアウトを持つ野生の人間のイメージを生成するための統一されたフレームワーク「HyperHuman」を提案しています。その概要は以下の図に示されています。

鍵となる洞察は、粗いレベルのボディスケルトンから細かい空間幾何学まで、人間のイメージの本質的な構造的性質を認識することです。明示的な外観と潜在的な構造との間のこのような相関をキャプチャすることは、一貫性のある自然な人間のイメージを生成するために不可欠です。本論文では、HumanVerseと呼ばれる340万枚の野生の人間のイメージと包括的な注釈が含まれた大規模な人間中心のデータセットを作成しました。このデータセットを基に、超リアルなコントロール可能な人間の画像生成のために2つのモジュールが設計されています:潜在的な構造拡散モデルと構造ガイドされたリファイナー。前者は事前に学習された拡散バックボーンにRGB、深度、法線の側面のノイズ除去を同時に行い、ノイズ除去されたテクスチャと構造の間の空間的な整列を保証します。

このような細心の設計により、画像の外観、空間的な関係、およびジオメトリのモデリングが統一されたネットワーク内で共同して行われます。各ブランチはお互いを補完し、構造的な意識とテクスチャの豊かさを組み込んでいます。強化されたノイズスケジュールにより、低周波情報の漏洩がなくなり、ローカル領域の均一な深度と法線値が保たれます。各ブランチに同じタイムステップを使用することで学習を高め、特徴の融合を容易にします。空間的に整列された構造マップにより、構造ガイドされたリファイナーは詳細な高解像度画像の生成に向けた予測された条件を構成します。また、2段階の生成パイプラインにおけるエラー蓄積の影響を軽減するために、ロバストなコンディショニングスキームが設計されています。

次に、最先端の手法との比較結果が以下に報告されています。

各行の最初の4×4グリッドには、HyperHumanによって計算された入力のスケルトン、共同で除去された法線、深度、および粗いRGB(512×512)が含まれています。

これは、高いリアリズムと多様なレイアウトを持つ野生の人間の画像を生成するための革新的なAIフレームワークであるHyperHumanの概要でした。興味があり、さらに詳しく知りたい場合は、以下に引用されているリンクを参照してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

コンピュータサイエンス

「アリババは、量子コンピューティングよりもこれを優先します」

中国のテック巨人であるアリババは最近、量子コンピューティング部門を廃止するという戦略的な重点の大幅な転換を発表しまし...

機械学習

このAI論文では、アマゾンの最新の機械学習に関する情報が大規模言語モデルのバグコードについて明らかにされています

プログラミングは複雑であり、エラーのないコードを書くことは時には難しいです。コードの大規模言語モデル(Code-LLMs)はコ...

データサイエンス

「Transformerの簡略化:あなたが理解する言葉を使った最先端のNLP — part 3 — アテンション」

「トランスフォーマーは、AIの分野で、おそらく世界中で重大な影響を与えていますこのアーキテクチャはいくつかのコンポーネ...

人工知能

「責任あるAIの推進のための新しいパートナーシップ」

「本日、Google、Microsoft、OpenAI、Anthropicが共同でフロンティアモデルフォーラムを設立することを発表しました」

データサイエンス

「PandasAIの包括的ガイド」

イントロダクション 生成AIと大規模言語モデル(LLM)は、人工知能(AI)と機械学習(ML)に新たな時代をもたらしました。こ...

機械学習

このAIニュースレターはあなたが必要とするものです#76

今週、私たちはトランスフォーマーや大規模な言語モデル(LLM)の領域を超えた重要なAIの進展に焦点を当てました最近の新しい...