「InstaFlowをご紹介します:オープンソースのStableDiffusion(SD)から派生した革新的なワンステップ生成型AIモデル」

Introducing InstaFlow an innovative one-step generative AI model derived from the open-source StableDiffusion (SD).

拡散モデルは、テキストから画像を生成する革命をもたらし、驚くべき品質と創造性を提供しています。しかし、彼らの多段階のサンプリング手順は、望ましい結果を得るために多くの推論ステップを要求することが多く、その鈍さで認識されています。本論文では、著者らはオープンソースのStable Diffusion(SD)モデルから派生した革新的なワンステップ生成モデルを紹介しています。

彼らは、SDを蒸留しようとする単純な試みが、重大な問題であるノイズと画像の非最適な結合によって完全に失敗したことを発見しました。この課題を克服するために、研究者たちは確率的フローを組み込んだ生成モデルの最近の進展であるRectified Flowに頼りました。Rectified Flowは、確率フローの軌跡を徐々に直線化するというユニークな手法である「リフロー」を組み込んでいます。

これにより、ノイズ分布と画像分布間の輸送コストが低減されます。この結合の改善により、蒸留プロセスが大幅に容易になり、初期の問題が解決されます。上記の画像はInstaflowの動作を示しています。

MS COCO 2017-5kデータセットにおけるFID(フレシェ・インセプション・ディスタンス)スコア23.3により、ワンステップ拡散ベースのテキストから画像への生成モデルの利用が証明されました。これは、従来のプログレッシブ蒸留と呼ばれる最新の技術(37.2 → 23.3のFID)と比べて、大幅な改善を示しています。さらに、17億のパラメータを備えた拡張ネットワークを使用することで、FIDをさらに向上させ、22.4のスコアを達成しました。このワンステップモデルは「InstaFlow」と呼ばれています。

MS COCO 2014-30kデータセットでは、InstaFlowは0.09秒でFID 13.1という優れたパフォーマンスを示し、≤ 0.1秒のカテゴリで最も優れたパフォーマーとなっています。これは、最近のStyleGAN-Tモデル(0.1秒でFID 13.9)を上回ります。特筆すべきは、InstaFlowのトレーニングにはわずか199 A100 GPU日という比較的低い計算コストがかかります。

これらの結果に基づき、研究者たちは以下の貢献を提案しています:

  • ワンステップSDの改善: 2-Rectified Flowモデルのトレーニングは完全に収束せず、75.2 A100 GPU日の投資が行われました。これは元のSDのトレーニングコスト(6250 A100 GPU日)の一部にすぎません。データセット、モデルサイズ、およびトレーニング時間をスケーリングすることで、ワンステップSDのパフォーマンスが大幅に改善すると研究者たちは考えています。
  • ワンステップControlNet: パイプラインを適用してControlNetモデルをトレーニングすることで、ミリ秒単位で制御可能なコンテンツを生成することが可能です。
  • ワンステップモデルのパーソナライズ: 拡散モデルとLORAのトレーニング目標でSDを微調整することにより、ユーザーは事前トレーニングされたSDをカスタマイズして特定のコンテンツとスタイルを生成することができます。
  • ワンステップ生成のためのニューラルネットワーク構造: テキスト条件付きのリフローと蒸留を使用してワンステップSDモデルを作成する能力の向上に伴い、いくつかの興味深い方向が浮かび上がります:

(1) GANで使用される成功したアーキテクチャなど、U-Netを品質と効率の面で超える可能性のある代替のワンステップ構造の探索。

(2) プルーニング、量子化などのテクニックを活用して、効率的なニューラルネットワークを構築するためのアプローチを最小限の品質劣化でワンステップ生成をより計算上負担の少ないものにする。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

Relume AIによって生成されたワイヤーフレームとサイトマップ

もしウェブサイトをデザインする必要がある場合、Relumeを試さないのは愚かです

機械学習

(Samsung no AI to chippu gijutsu no mirai e no senken no myōyaku)

サムスンエレクトロニクスは、韓国ソウルにあるサムスンの研究開発キャンパスで開催されたサムスンAIフォーラム2023で主役と...

AIニュース

スナップチャットの不具合がパニックを引き起こす:私のAIが謎のストーリーと画像を投稿します

人気のあるソーシャルメディアプラットフォームであるSnapchatは、最近、AIを搭載したチャットボット「My AI」に関する技術的...

機械学習

「オーディオ機械学習入門」

「現在、音声音声認識システムを開発しているため、それに関する基礎知識を再確認する必要がありましたこの記事はその結果で...

機械学習

あなたの製品の開発者学習のためのLLM(大規模言語モデル)

「LLM(Large Language Models)とLLMアプリを活用して、効果的かつ効率的な開発者教育を進め、製品の活用を促進する方法を探...

AI研究

OpenAIのChatGPTアプリがBingの統合機能を備えたブラウジング機能を導入しました

OpenAIは、AIに関する最先端の研究機関であり、彼らのAIチャットボットのプレミアムバージョンであるChatGPT Plusのサブスク...