スタビリティAIがアドバーサリアルディフュージョンディスティレーション(ADD)を導入します:最小限のステップでの高精度、リアルタイムイメージ合成の画期的な手法

スタビリティAIがADD(アドバーサリアルディフュージョンディスティレーション)を導入!最小手順で高精度なリアルタイムイメージ合成の画期的な手法!

生成モデリングにおいて、拡散モデル(DM)は、高品質な画像とビデオの合成を進めるための重要な役割を果たしています。拡張性と反復性は、DMの主な利点の2つであり、自由なフォームのテキストの手がかりからの画像の作成など、複雑なタスクを可能にします。残念ながら、反復的な推論プロセスには多くのサンプルステップが必要であり、現在のところDMのリアルタイム使用を妨げています。一方で、生成的対抗ネットワーク(GAN)の単一ステップの構成と固有の速度は、それらを特徴づけます。ただし、サンプルの品質に関しては、大規模データセットへの拡張の取り組みにもかかわらず、GANはしばしばより多くのDMが必要です。

本研究のStability AIの研究者たちは、GANの固有の速度とDMの高いサンプル品質を結びつけることを目指しています。彼らの戦略は概念的にはシンプルです。研究チームはAdversarial Diffusion Distillation(ADD)と呼ばれる汎用的な技術を提案しており、この技術は事前学習済みの拡散モデルの推論ステップを1〜4つのサンプリングステップに削減することで、モデルの全体的なパフォーマンスを向上させる可能性があります。研究チームは2つのトレーニングゴールを組み合わせています:(i)スコア蒸留サンプリング(SDS)に相当する蒸留損失と対抗損失。

各正方向パスでは、対抗損失がモデルが直接実際の画像の多様体上にあるサンプルを生成することを促し、他の蒸留技術でよく見られるぼやけ具合などのアーティファクトを除去します。大規模なDMに見られる高い組成能を保持し、事前学習された(かつ固定された)DMを教師として使用することで、蒸留損失は高い知識を効率的に活用します。彼らの手法は推論中に分類器フリーガイダンスを使用せずにメモリ要件も最小限に抑えています。従来の一ステップGANベースの方法と比べての利点は、研究チームがモデルを繰り返し開発し、結果を向上させることができるということです。

図1は、単一の操作で生成された高精細な写真を示しています。Adversarial Diffusion Distillation(ADD)トレーニングは、各サンプルごとに単一のU-Net評価を作成するために使用されます。

以下は彼らの貢献の要約です:

• 研究チームはADDという技術を提案しました。この技術は、事前学習済みの拡散モデルを高品質でリアルタイムの画像ジェネレータに変換するために、わずか1〜4つのサンプリングステップを必要とします。研究チームは、対抗トレーニングとスコア蒸留を組み合わせた独自のアプローチのために、いくつかのデザイン上の決定を慎重に考慮しました。

• 5122 pxの解像度でフォースサンプリングステップを使用したADD-XLは、その教師モデルSDXL-Baseを上回ります。• ADDは、1つの推論ステップで高い現実感を維持しながら、複雑な画像構成を処理できます。• LCM、LCM-XL、および単一ステップGANなどの強力なベースラインを大幅に上回るADD。

結論として、この研究は、事前学習済みの拡散モデルをクイックで少数ステップの画像生成モデルに蒸留するための汎用的な技術、Adversarial Diffusion Distillation(ADD)を紹介しています。研究チームは、識別器を通じて実データを利用し、拡散の教師を通じた構造的な知識を利用しながら、対抗目的とスコア蒸留目的を組み合わせて、公共のStable DiffusionとSDXLモデルを蒸留することを組み合わせています。彼らの分析は、彼らの手法がすべての競合手法を打ち負かすことを示し、1〜2つのステップの超高速サンプリング領域で特に優れて機能することを示しています。また、研究チームはさまざまなプロセスを通じてサンプルを改善することができます。彼らのモデルは、IF、SDXL、およびOpenMUSEなどの人気のある多ステップジェネレータよりも4つのサンプルステップで優れたパフォーマンスを発揮します。彼らの方法論は、一つのステップで高品質の写真を開発することにより、基盤モデルを使用したリアルタイム生成の新たな可能性を開くものです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

このスペースを見る:AIを使用してリスクを推定し、資産を監視し、クレームを分析する新しい空間金融の分野

金融の意思決定をする際には、ドローン、衛星、またはAIパワードセンサーから取得した大局的な情報を見ることが重要です。 空...

AIニュース

「マイクロソフトが初のAIチップ、Maia 100チップとコバルトCPUを公開」

Igniteカンファレンスでの画期的な動きにより、マイクロソフトは大いに期待されていたMaia 100チップとCobalt CPUを発表しま...

AIニュース

「AIサイバーセキュリティのスタートアップ企業、ヨーロッパと今度はアメリカからも、参集!」

新しいGoogle for Startups成長アカデミーの開始:ヨーロッパとアメリカに拠点を置く企業のためのAIセキュリティプログラムの...

データサイエンス

「今日使用されているAIoTの応用」

「AIとIoTの統合が、多くの技術分野を再構築する様子を探求してくださいいくつかの有名な例を交えて、最先端のAIoTアプリケー...

データサイエンス

企業がOpenAIのChatGPTに類似した自社の大規模言語モデルを構築する方法

最近の数年間で、言語モデルは大きな注目を集め、自然言語処理、コンテンツ生成、仮想アシスタントなど、さまざまな分野を革...

AI研究

ストリートビューが救いの手を差し伸べる:ディープラーニングが安全な建物への道を開拓

Googleストリートビューなどで使用される画像は、フロリダ大学の人工知能助教授Chaofeng Wang氏の手によって新たな目的を持つ...