新しいZeroscope v2モデルに会ってください:モダンなグラフィックカード上で動作する無料のテキストからビデオへのモデル

Meet the new Zeroscope v2 model a free text-to-video model that runs on modern graphics cards.

前例のない一連の出来事の中で、次世代のオープンソースAIモデルであるZeroscopeが市場に登場しました。このモデルは、比較的安価なコストで利用可能な最新のグラフィックカード上で最先端のテキストからビデオへの変換サービスを実行する能力を持っています。中国のModelscopeが所有するZeroscopeは、AIの使用事例の新たな領域を切り開くことを目指して、メディアとビデオの創造を革新しようとしています。

Zeroscopeの機能的なコンポーネントを理解することは、テキストからビデオの生成の分野を革新している方法を理解する上で重要です。このオープンソースモデルが注目される理由は、Zeroscope V2とZeroscope V2XLという2つの主要なコンポーネントにあります。Zeroscope_v2 567wは、ビデオコンセプトを探究するための576×320ピクセルの解像度での迅速なコンテンツ作成を目的として設計されています。その後、高解像度の1024×576にアップスケールされた品質の高いビデオをzeroscope_v2_XLを使用して作成することができます。つまり、ユーザーはZeroScope V2を使用して迅速にビデオを作成し、V2XLでアップスケールすることができます。

さらに、Zeroscopeの要件は、多段階モデルの17億のパラメータにより、驚くほど管理しやすくなっています。Zeroscopeは、低解像度では7.9ギガバイトのVRAMを必要とし、高解像度では15.3ギガバイトのVRAMを必要とします。小型モデルは多くの標準的なグラフィックカードで実行可能になっており、より広範で一般的なユーザーベースにアクセスできるようになっています。

Zeroscopeは、ほぼ10,000のクリップと約30,000のフレームでオフセットノイズを使用して戦略的にトレーニングされています。この非伝統的な一連のアクションは、Zeroscopeに新たな機会と可能性を開放します。オブジェクトのランダムなシフト、フレームタイミングのわずかな変更、およびわずかな歪みなどの変化を導入することで、モデルはデータ分布の理解を向上させ、テキストの説明に微妙なバリエーションを効果的に解釈し、よりリアルなビデオを多様なスケールで生成することができます。これらの機能を備えたZerscopeは、商用のテキストからビデオモデルプロバイダーであるRunwayに匹敵する存在に急速になりつつあります。

テキストからビデオへの変換は進行中の作業であり、生成されるビデオクリップは短く、いくつかの視覚的な欠点があります。ただし、画像AIモデルの実績を見ると、フォトリアルな品質を実現するまでに同じような課題に直面していました。主な課題は、ビデオ生成にはトレーニングと生成の両方の段階で大幅に多くのリソースが必要であることです。

Zeroscopeの強力なテキストからビデオへのモデルとしての登場は、多くの新しいデジタルの進歩と使用例の可能性を開拓する道を切り開きます。例えば、以下のような個別のゲーム、VR、およびメタバースの要素を持つパーソナライズされたゲーム、パーソナライズされた映画、合成クリエイターなどです。Zeroscopeの変換能力により、プレイヤーは自分の言葉でカットシーンやゲームプレイにリアルタイムに影響を与え、想像を絶するほどの相互作用と個人化を可能にします。さらに、ゲーム開発者は迅速にゲームシーンのプロトタイプを作成し、可視化することで開発を加速することができます。

  1. パーソナライズされたゲーム、VR、およびメタバース:Zeroscopeの変換能力により、ビデオゲームにおけるストーリーテリングが再定義されます。プレイヤーは自分の言葉を通じてリアルタイムにカットシーンやゲームプレイに影響を与えることができ、考えられないほどの相互作用と個人化が可能になります。また、ゲーム開発者は迅速にゲームシーンのプロトタイプを作成し、可視化することで開発を加速することができます。
  2. パーソナライズされた映画:Zeroscopeの技術は、ユーザーの説明に基づいて個別化されたコンテンツを生成することにより、メディア業界を破壊します。ユーザーはストーリーラインやシーンの説明を入力し、それに応じて個別のビデオを作成することができます。この機能により、アクティブな視聴者参加が可能になり、パーソナライズされたビデオ広告やユーザーに合わせた映画のシーンなどのカスタムコンテンツの作成の可能性が広がります。
  3. 合成クリエイター:Zeroscopeは、AIを活用してアイデアを書き、制作、編集する新世代のクリエイターの道を切り開きます。ビデオ制作における技術的なスキルセットの壁を取り除き、自動化された高品質のビデオコンテンツの新たな基準を確立する可能性があります。人間とAIのクリエイターの間の境界が曖昧になり、創造性の領域が拡大します。

Zeroscopeは、軽量で簡単に微調整でき、特別なリソースのセットアップが不要な画期的なモデルです。これにより、一般の多くのユーザーが利用できるツールだけでなく、大規模な研究所のリソースを持たない新興の研究者たちもこれらのアルゴリズムとの作業を行い、より良い方法でこの分野全体を進化させるために取り組むことができるようになりました。激しい競争がZeroscopeのクリエイターたちに革新を促し、強力な市場ポジションを獲得することを期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「DeepMind AIが数百万の動画のために自動生成された説明を作成することで、YouTube Shortsの露出を大幅に向上させる」

DeepMindは、YouTubeとの共同作業で、YouTube Shortsビデオの検索性を向上させるために設計された最先端のAIモデル「Flamingo...

AI研究

清華大学の研究者たちは、メタラーニングの枠組みの下で新しい機械学習アルゴリズムを紹介しました

深層学習の教師ありタスクにおける最近の成果は、大量のラベル付きトレーニングデータの利用可能性によるものです。しかし、...

人工知能

「クリスマスラッシュ」3Dシーンが今週の「NVIDIA Studio」でホリデーのチアをもたらします」

編集者の注記:この投稿は、我々の週刊「In the NVIDIA Studio」シリーズの一部であり、特集アーティストを称え、創造的なヒ...

機械学習

このAIの論文は、純粋なゼロショットの設定で、タスクの適応と未知のタスクや環境への一般化に優れたCLIN(Continuous Learning Language Agent)を紹介しています

人工知能の持続的な進化により、繊細な言語ベースのエージェントが複雑なタスクを訓練や明示的なデモなしで実行できるように...