HuggingFace Researchが紹介するLEDITS:DDPM Inversionと強化された意味的なガイダンスを活用したリアルイメージ編集の次なる進化

HuggingFace Researchが紹介するLEDITS:リアルイメージ編集の次なる進化

テキストガイド拡散モデルを利用した写真生成の現実感と多様性の向上により、関心が大幅に高まっています。大規模モデルの導入により、写真の作成時には前例のないほどのクリエイティブな柔軟性がユーザーに与えられるようになりました。その結果、画像操作にこれらの強力なモデルを使用する方法を調査するための継続的な研究プロジェクトが開発されました。テキストベースの画像操作に関する最近の進歩が示されました。他の研究者は最近、拡散モデルに対する意味的なガイダンス(SEGA)のアイデアを発表しました。

SEGAは、高度な画像の構成と編集のスキルを持ち、現在の生成プロセス全体で外部の監視や計算を必要としませんでした。SEGAに関連するアイデアベクトルは、信頼性があり、独立しており、組み合わせが柔軟であり、単調にスケーリングすることが示されました。さらなる研究では、Prompt-to-Promptなどのセマンティック理解に基づく画像の生成方法について検討しました。この方法では、モデルのクロスアテンション層のセマンティックデータを使用してピクセルとテキストプロンプトトークンをリンクさせます。SEGAはトークンベースの条件付けを必要とせず、多くの意味的な変更の組み合わせを可能にする一方、クロスアテンションマップ上の操作により、生成される画像への多様な変更が可能になります。

実際の写真のテキストガイド編集には、提供された画像を反転させるために現代の技術が必要です。これには、拡散プロセスに入力された場合に入力画像となる一連のノイズベクトルを見つける必要があります。ほとんどの拡散ベースの編集研究では、単一のノイズマップから生成された画像への確定的マッピングであるDenoising Diffusion Implicit Model(DDIM)技術が使用されています。他の研究者によって、Denoising Diffusion Probabilistic Model(DDPM)スキームの反転アプローチも提案されました。

DDPMスキームの拡散生成プロセスで使用されるノイズマップが、従来のDDPMサンプリングで使用されるものとは異なる動作をするため、より大きな分散を持ち、タイムステップ間でより相関があります。ノイズマップの計算には、新しい方法が提案されています。DDIMベースの反転技術とは対照的に、Edit Friendly DDPM Inversionは、テキストベースの編集ジョブで最先端の結果を提供し、各入力画像とテキストに対してさまざまな出力を生成することが実証されています。このレビューでは、HuggingFaceの研究者がSEGAとDDPM反転手法またはLEDITSの組み合わせと統合を気軽に調査することを目的としています。

セマンティックに指示された拡散生成メカニズムは、LEDITSで変更されます。このアップデートにより、SEGAの手法が実際の写真に拡張されます。両手法の同時編集機能を利用する統合編集戦略が提案され、最先端の技術を使用して競争力のある質的な結果が示されています。HuggingFaceデモとコードも提供されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Mini-DALLE3と出会おう:大規模な言語モデルによるテキストから画像へのインタラクティブアプローチ」

人工知能コンテンツ生成の急速な進化、特にテキストから画像へのモデル(T2I)の進展により、高品質で多様性に富み創造的なAIに...

機械学習

「FANToMとは:相互作用における機械心理理論のストレステストのためのベンチマーク」

会話型AIでは、心の理論(ToM)を問いに答えることで評価することが重要な基準となっています。しかし、受動的な物語はToMの...

機械学習

フィールドからフォークへ:スタートアップが食品業界にAIのスモーガスボードを提供

それは魔法のように機能しました。データセンターで実行されているコンピュータービジョンアルゴリズムが、インドの遠い小麦...

データサイエンス

AIの力 なぜウェブ開発者はまだ絶対的な存在なのか

AIは今日の流行語です多くのソフトウェア会社が開発中にそれを使用していますが、みんな同じことを言っていますAIは開発者を...

機械学習

「イノベーションと持続可能性のバランス:病理学における環境責任に対する現実的なアプローチ」

この研究は、病理学における重大な懸念である深層学習の炭素排出量(CO2eq)に焦点を当てています。この環境への影響は、医療応...

機械学習

シュナイダーエレクトリックは、SageMakerでのリトリーバルアグメントドLLMsを活用して、ERPシステムのリアルタイムの更新を確実にしています

この投稿は、Schneider ElectricのNorth America Artificial Intelligenceのソリューションエンジニアリングおよびアーキテク...