「DISCOに会おう:人間のダンス生成のための革新的なAI技術」

DISCOに会おう:AI技術での人間のダンス生成

生成AIは、コンピュータビジョンのコミュニティで大きな関心を集めています。テキストに基づく画像およびビデオ合成の最近の進歩(Text-to-Image(T2I)およびText-to-Video(T2V)など)、拡散モデルの登場により、顕著な忠実度と生成品質が示されました。これらの進歩は、画像およびビデオの合成、編集、アニメーションの潜在能力を示しています。ただし、合成された画像/ビデオは、特に人間中心の人間ダンス合成などの人間ダンス合成の歴史が長いにもかかわらず、合成されたコンテンツと現実世界のダンスシナリオの間には大きなギャップがあります。

Generative Adversarial Networks(GAN)の時代から、研究者は、ソースビデオからターゲット個人にダンス動作を転送するためのビデオからビデオへのスタイル変換を拡張するために、しばしばターゲット人物への人間特有の微調整を必要とします。

最近の一連の研究では、事前にトレーニングされた拡散ベースのT2I/T2Vモデルを使用して、テキストプロンプトに基づいてダンス画像/ビデオを生成することが提案されています。このような粗い制御条件は、ユーザーが予想される主題(人間の外観)やダンスの動き(人間のポーズ)を正確に指定することをほとんど不可能にします。

ControlNetの導入により、ジオメトリヒューマンキーポイントとのポーズ制御を組み合わせることで、この問題が部分的に緩和されますが、テキストプロンプトに依存するため、制御ネットがリファレンスイメージの人間の外観などの豊かな意味の一貫性を確保できるかどうかは明確ではありません。さらに、限られたダンスビデオデータセットでトレーニングされたほとんどすべての既存の手法は、限られた主体属性または極度に単純化されたシーンと背景のいずれかに苦しんでいます。これは、人間の主体、ポーズ、および背景の未知の組成に対するゼロショットの一般化能力が低くなる原因となります。

ユーザー固有のショートビデオコンテンツ生成などの現実のアプリケーションをサポートするためには、人間のダンス生成は実世界のダンスシナリオに準拠する必要があります。したがって、生成モデルは、以下の特性を持つ人間のダンス画像/ビデオを合成することが期待されています:忠実度、一般化能力、および合成性。

生成された画像/ビデオは、参照画像と一貫性のある人間の主体と背景の外観を保持しながら、提供されたポーズを正確に追従することによって、忠実度を示すべきです。モデルはまた、ユーザー固有の微調整を必要とせずに、未知の人間の主体、背景、およびポーズを扱うことによって、一般化能力を示すべきです。最後に、生成された画像/ビデオは、異なる画像/ビデオから取得された人間の主体、背景、およびポーズの任意の組み合わせを可能にする合成性を示すべきです。

この点において、DISCOと呼ばれる画期的なアプローチが提案されています。DISCOのアプローチの概要は、以下の図に示されています。

https://arxiv.org/abs/2307.00040

DISCOは、改善された忠実度と合成性のための分離制御を持つ画期的なモデルアーキテクチャと、より優れた一般化能力のための人間属性事前トレーニングという2つの主要な設計を組み合わせています。DISCOの画期的なモデルアーキテクチャは、生成されたダンス画像/ビデオが望ましい人間の主体、背景、およびポーズを忠実に捉える一方で、これらの要素の柔軟な組み合わせを可能にします。さらに、分離制御は、モデルが忠実な表現を維持し、多様な組成を受け入れる能力を向上させます。さらに、DISCOは、人間属性の事前トレーニング戦略を使用して、モデルの一般化能力を強化します。この事前トレーニング技術により、モデルは未知の人間属性を処理する能力を備えるため、トレーニングデータの制限を超えた高品質のダンスコンテンツを生成することができます。全体として、DISCOは、洗練されたモデルアーキテクチャと革新的な事前トレーニング戦略を組み合わせた包括的なソリューションを提供し、現実のダンスシナリオでの人間のダンス生成の課題に効果的に対処します。

以下に結果を示し、人間のダンス生成の最新技術とDISCOとの比較を行います。

https://arxiv.org/abs/2307.00040

これはDISCOの要約です。DISCOは、人間のダンスを生成するための新しいAI技術です。興味があり、この研究についてもっと詳しく知りたい場合は、以下のリンクをクリックしてさらなる情報を見つけることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

中国の研究者がiTransformerを提案:時間系列予測のためのTransformerアーキテクチャの見直し

トランスフォーマーは、自然言語処理とコンピュータビジョンで大成功を収めた後、スケーリングのルールに従う基本モデルとな...

データサイエンス

「ゼロからLLMを構築する方法」

「これは、大規模言語モデル(LLM)を実践的に使用するシリーズの6番目の記事です以前の記事では、プロンプトエンジニアリン...

人工知能

あなたが作るものはあなたそのものです:コードをより人間的にする方法

GitHubのクリスティーナ・エンチェヴタさんが、AIアプリケーションが私たちの価値観を反映していることや、建設的なフィード...

人工知能

Taplio LinkedInの成長に最適なAIツール

Taplioは、LinkedIn上で個人ブランドを成長させるのをサポートするために設計されたAIツールです

機械学習

オペレーションの頭脳:人工知能とデジタルツインで手術の未来を地図化するアトラスメディテック

アスリートが試合のためにトレーニングし、俳優が公演のためにリハーサルするように、外科医も手術の前に準備をします。 今、...

AI研究

「IBMの「脳のような」AIチップが、環境にやさしく効率的な未来を約束します」

興味深い進展として、テクノロジー巨人IBMが人工知能(AI)の世界を革新するかもしれない「脳のような」チップのプロトタイプ...