マイクロソフトの研究者が提案するNUWA-XL:極長ビデオ生成のための新しい拡散オーバー拡散アーキテクチャ

Microsoft researcher proposes NUWA-XL new diffusion over-diffusion architecture for ultra-long video generation.

生成モデルの分野では、最近、視覚合成への関心が高まっています。以前の研究では、高品質の画像生成が可能でした。しかし、ビデオの長さは写真よりも実用的なアプリケーションにおいてはより難しい問題を提起します。映画の平均上映時間は90分以上です。アニメの平均長は30分です。TikTokや他の類似のアプリに適したビデオの理想的なサイズは、21秒から34秒の間です。

Microsoftの研究チームは、長いビデオを作成するための革新的なアーキテクチャを開発しました。既存の多くの研究は、通常、セグメントごとに順次長い映画を生成しますが、これにより短編映画でのトレーニングと大きなビデオでの推論の間にギャップが生じます。順次生成はより効率的であるかもしれません。この新しい方法では、ビデオは粗粒度で同時に生成されます。範囲全体のキーフレームを生成するためにグローバル拡散モデルを適用した後、隣接フレーム間の素材を反復的に埋めるためにローカル拡散モデルを使用します。トレーニングと推論のギャップは、この直感的かつ成功した方法を使用して直接長い映画でトレーニングすることで狭めることができます。

最も重要な貢献は次のとおりです:

  • 研究チームが提案した「Diffusion over Diffusion」アーキテクチャNUWA-XLは、革新的な「粗粒度から細粒度」プロセスとして長いビデオの作成を実現しています。
  • NUWA-XLは、長い映画(3376フレーム)に直接トレーニングされた最初のモデルであり、そのようなビデオの生成におけるトレーニングと推論のギャップを埋めています。
  • NUWA-XLによって並列推論が可能になり、長いビデオを生成するために必要な時間を大幅に短縮することができます。1024フレームを生成する際、NUWA-XLは推論を94.26%高速化します。
  • モデルの効果を確認し、拡張ビデオの作成の基準を提供するために、FlintstonesHDの研究チームが新しいデータセットを作成しました。

手法

時間的KLVAE(T-KLVAE)

KLVAEは、ピクセル上で拡散モデルのトレーニングとサンプリングの計算負荷を避けるために、入力画像を低次元の潜在表現に変換する。研究者は、元の空間モジュールに外部の時間的畳み込みとアテンションレイヤーを追加して、事前にトレーニングされた画像KLVAEからビデオへの表面的な知識を転送することで、Temporal KLVAE(T-KLVAE)を提案しています。

時間的マスク拡散(MTD)

提案されたDiffusion over Diffusionアーキテクチャの基礎となる拡散モデルとして、研究者はMasked Temporal Diffusion(MTD)を提案しています。映画の「粗い」ストーリーラインは、グローバル拡散に使用するためにLのプロンプトのみから形成されますが、開始フレームと最後のフレームもローカル拡散のための入力として使用されます。提案されたMTDは、グローバルとローカルの拡散に対応し、開始フレームと最後のフレームの有無に関係なく、入力条件を取ることができます。以下では、異なる入力条件の融合を示すためにUpBlockを使用して、MTDパイプライン全体を説明します。

NUWA-XLが拡張ビデオの品質を向上させ、推論速度を高速化するものの、いくつかの制約があります:まず、研究者はNUWA-XLの有効性を公開されているFlintstonesのようなカートゥーンにのみ確認しています。オープンドメインの長いビデオ(映画やテレビエピソードなど)は現時点では知られていません。オープンドメインの長いビデオデータセットの初期の成功を受けて、彼らは最終的にNUWA-XLをオープンドメインに拡張することを望んでいます。次に、トレーニングと推論のギャップは、長い映画で直接トレーニングすることによって狭めることができますが、データには困難が伴います。最後に、NUWA-XLは推論を高速化することができますが、この改善にはパワフルなグラフィックスプロセッシングユニット(GPU)が必要です。

研究者は、長いビデオの作成を非常に異例な「粗粒度から細粒度」の手順として捉え、NUWA-XLという「Diffusion over Diffusion」アーキテクチャを提案しています。NUWA-XLは、長い映画(3376フレーム)に直接トレーニングされた最初のモデルであり、長いビデオ制作におけるトレーニングと推論のギャップを埋めています。NUWA-XLによって並列推論がサポートされ、1024フレームを生成する際にビデオの作成を94.26%高速化します。モデルの効果をさらに検証し、拡張ビデオの作成のためのベンチマークを提供するために、彼らは新しいデータセットFlintstonesHDを構築しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

マイクロソフトAIは、高度なマルチモーダルな推論と行動のためにChatGPTとビジョンエキスパートを組み合わせたシステムパラダイム「MM-REACT」を提案しています

大規模言語モデル(LLM)は急速に進化し、経済や社会の変革に貢献しています。インターネット上には多くの人工知能(AI)ツー...

データサイエンス

「OpenAI(Python)APIを解説する」

「これは、実践において大規模な言語モデル(LLM)を使用するシリーズの2番目の記事ですここでは、OpenAI APIの初心者向けの...

機械学習

「機械学習、ブロックチェーン技術はフェイクニュースの拡散に対抗するのに役立つかもしれません」

新たな研究によると、提案された機械学習のフレームワークとブロックチェーン技術の拡大利用は、フェイクニュースの拡散に対...

データサイエンス

「OpenAI APIを使用して、大規模な言語モデルを用いた表データ予測の改善」

最近では、大規模な言語モデルやそのアプリケーションやツールがニュースやソーシャルメディアで話題になっていますGitHubの...

データサイエンス

エクスラマV2:LLMを実行するための最速のライブラリ

ExLlamaV2は、GPTQからさらに高いパフォーマンスを引き出すために設計されたライブラリです新しいカーネルのおかげで、(超高...

機械学習

LMSYS ORG プレゼント チャットボット・アリーナ:匿名でランダムなバトルを行うクラウドソーシング型 LLM ベンチマーク・プラットフォーム

多くのオープンソースプロジェクトは、特定のタスクを実行するためにトレーニングできる包括的な言語モデルを開発しています...