テキストからビデオ生成 ステップバイステップガイド

Text to Video Generation Step-by-Step Guide

 

イントロダクション

 

拡散ベースの画像生成モデルは、コンピュータビジョンの分野において革命的な進歩を遂げています。Imagen、DallE、MidJourneyなどのモデルが先駆けとなり、これらの進展はテキスト条件付けの画像生成において驚異的な能力を示しています。これらのモデルの内部構造についての紹介は、この記事を読むことで得ることができます。

しかし、Text-2-Videoモデルの開発はさらなる困難な課題を提起しています。目標は、生成された各フレームにわたる一貫性と一貫性を実現し、ビデオの開始から終了までの生成コンテキストを維持することです。

しかし、最近の拡散ベースのモデルの進展は、Text-2-Videoのタスクにおいても有望な展望を提供しています。ほとんどのText-2-Videoモデルは、事前に学習されたText-2-Imageモデルに対してファインチューニングの技術を使用し、動的な画像の動きモジュールを統合し、WebVidやHowTo100Mなど多様なText-2-Videoデータセットを活用しています。

この記事では、HuggingFaceが提供するファインチューニングモデルを使用してビデオを生成するためのアプローチを紹介します。

 

実装

 

前提条件

 

私たちはHuggingFaceが提供するDiffusersライブラリと、PyTorchコードを並列スレッドで実行することができるユーティリティライブラリであるAccelerateを使用します。これにより、生成プロセスが高速化されます。

まず、依存関係をインストールし、コードに必要なモジュールをインポートする必要があります。

pip install diffusers transformers accelerate torch

 

次に、各ライブラリから関連するモジュールをインポートします。

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

 

パイプラインの作成

 

Diffusion Pipeline内に提供されるText-2-VideoモデルをModelScopeが提供するモデルでロードします。このモデルは、純粋なノイズからビデオを生成するUNet3Dアーキテクチャに基づくもので、17億のパラメータを持っています。これは3つのパートからなるプロセスで動作します。まず、モデルは簡単な英語のプロンプトからテキスト特徴を抽出します。次に、テキスト特徴はビデオの潜在空間にエンコードされ、ノイズが除去されます。最後に、ビデオの潜在空間は視覚空間に戻され、短いビデオが生成されます。

pipe = DiffusionPipeline.from_pretrained(
"damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")


pipe.scheduler = DPMSolverMultistepScheduler.from_config(
pipe.scheduler.config)


pipe.enable_model_cpu_offload()

 

さらに、GPUの使用率を低減するために16ビット浮動小数点精度を使用します。さらに、実行時にGPUから不要な部分を削除するCPUオフロードが有効にされています。

 

ビデオの生成

 

prompt = "Spidermanがサーフィンしている"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

 

次に、ビデオ生成パイプラインにプロンプトを渡すことで、生成されたフレームのシーケンスを得ます。25の推論ステップを使用することで、モデルは25回のノイズ除去を行います。推論ステップの数を増やすと、ビデオの品質が向上しますが、より高い計算リソースと時間が必要です。

別々のイメージフレームは、diffuserのユーティリティ関数を使用して結合され、ビデオがディスクに保存されます。

別々のイメージフレームは、diffuserのユーティリティ関数を使用して結合され、ビデオがディスクに保存されます。

FinalVideo from Muhammad Arham on Vimeo.

 

結論

 

簡単ですね!Spidermanがサーフィンするビデオが得られました。短いながらもあまり高品質ではないビデオですが、これはまもなくImage-2-Textモデルと同様の結果を得ることができる有望なプロセスを象徴しています。それにもかかわらず、創造性をテストし、モデルと遊ぶことは十分に良いです。このColabノートブックを使用して試すことができます。Muhammad Arhamは、コンピュータビジョンと自然言語処理の分野で働くディープラーニングエンジニアです。彼はVyro.AIでグローバルトップチャートに到達したいくつかの生成AIアプリケーションの展開と最適化に取り組んできました。彼は知的システムのための機械学習モデルの構築と最適化に興味を持ち、持続的な改善を信じています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

X / Twitterでお金を稼ぐ方法

X(別名Twitter)は、クリエイターに広告収益の一部を支払い始めましたここでは、その一部を手に入れる方法を紹介します

AIニュース

OpenAIの需要急増により、ChatGPT Plusの申し込みを一時停止します

人工知能のパイオニアであるOpenAIは、需要の急増に苦しんでおり、そのためプレミアムChatGPT Plusサービスの新規申し込みを...

データサイエンス

PatchTST 時系列予測における画期的な技術革新

トランスフォーマーベースのモデルは、自然言語処理の分野(BERTやGPTモデルなど)やコンピュータビジョンなど、多くの分野で...

人工知能

ダイナミックAIプロジェクト見積もり' (Dainamikku AI purojekuto mitsumori)

現在、ほとんどの人が見積もりを使用しています顧客は、プロジェクトの結果を使用するタイミングを計画し制御するためにそれ...

AIニュース

サイバー犯罪者がWormGPTを使用してメールセキュリティを侵害

サイバー犯罪の絶え間ない変化は、新たな危険なツールの登場をもたらしました。OpenAIのChatGPTや悪名高いサイバー犯罪ツール...

データサイエンス

カスタムGPTの構築:教訓とヒント

去る2023年11月6日の火曜日、サム・アルトマン(OpenAIのCEO)は、自然言語を使用して個人専用のChatGPTを作成できるようにす...