「P+にお会いしましょう:テキストから画像生成における拡張テキスト反転のための豊かな埋め込み空間」

「P+にお会いしましょう:テキストから画像生成における拡張テキスト反転のための豊かな埋め込み空間」 can be condensed to 「P+にお会いしましょう:テキストから画像生成における拡張テキスト反転のための埋め込み空間」

テキストから画像の合成は、テキストのプロンプト記述から現実的な画像を生成するプロセスを指します。この技術は、人工知能(AI)の分野での生成モデルの一部であり、近年ますます注目を集めています。

テキストから画像生成は、ニューラルネットワークが人間の言語を視覚的な表現に解釈し、様々な合成組み合わせを可能にすることを目指しています。さらに、教示されない限り、生成ネットワークは同じテキストの説明に対して複数の異なる画像を出力します。これは、新しいアイデアを収集したり、インターネット上で見つけることができない正確なビジョンを表現するのに非常に役立ちます。

この技術は、仮想現実や拡張現実、デジタルマーケティング、エンターテイメントなど、さまざまな分野での応用が可能です。

最も採用されているテキストから画像生成ネットワークの中には、拡散モデルがあります。

テキストから画像の拡散モデルは、テキストの入力に応じてノイズ分布を反復的に洗練させることによって画像を生成します。与えられたテキストの説明を潜在ベクトルにエンコードし、ノイズ分布を拡散プロセスを使用して反復的に洗練します。このプロセスにより、入力テキストに一致する高解像度で多様な画像が生成されます。これは、入力テキストの視覚的特徴をキャプチャし組み込むU-netアーキテクチャを介して実現されます。

これらのモデルの条件付け空間は、言語モデルのトークン埋め込み空間によって定義されるP空間と呼ばれます。基本的に、Pはテキストの条件付け空間を表し、テキストエンコーダを通過した入力インスタンス「p」が合成中のU-netのすべてのアテンション層に注入されます。

次に、denoising diffusionモデルのテキスト条件付けメカニズムの概要を以下に示します。

このプロセスにより、U-netアーキテクチャには1つのインスタンス「p」しか供給されないため、エンコードされたテキスト上の解体と制御が制限されます。

そのため、著者らはP+という新しいテキスト条件付け空間を紹介しています。

この空間には、異なるレイヤーごとに注入される複数のテキスト条件が含まれます。これにより、P+はより高い表現力と解体能力を保証し、合成された画像のより良い制御を提供します。著者によれば、U-netの異なるレイヤーは合成された画像の属性に対して異なる程度の制御を持っています。特に、粗いレイヤーは主に画像の構造に影響を与え、細かいレイヤーは主に外観に影響を与えます。

P+空間を紹介した後、著者らはExtended Textual Inversion(XTI)という関連プロセスを紹介しています。これは、クラシックなTextual Inversion(TI)の再検討版であり、少数の入力画像で表される特定の概念を専用のトークンとして表現するモデルの学習プロセスです。XTIでは、入力画像をレイヤーごとに異なるトークン埋め込みのセットに反転させることが目標です。

これら2つの違いを明確にするために、2つのレイヤーからなるU-netに「緑のトカゲ」の写真を入力すると想像してみてください。TIの目標は、出力で「緑のトカゲ」を得ることです。一方、XTIでは、この場合は「緑」と「トカゲ」という異なるインスタンスが出力される必要があります。

著者らの研究では、P+における拡張された反転プロセスがTIよりも表現力と正確さがあり、さらに高速であることが証明されています。

さらに、P+における解体能力の向上により、オブジェクトスタイルのミキシングなど、テキストから画像の生成を介したミキシングが可能になります。

以下に、先述の研究からの例を示します。

これが、拡張テキスト反転のための豊かなテキスト条件付け空間であるP+の概要です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

赤い猫&アテナAIは夜間視認能力を備えた知能化軍用ドローンを製造する

軍事技術のリーディングカンパニーであるRed Cat Holdings, Inc.は、Athena AIとのパートナーシップにおいて、Teal 2の人工知...

AI研究

UC BerkeleyとDeepmindの研究者は、SuccessVQAという成功検出の再構成を提案しましたこれは、Flamingoなどの事前学習済みVLMに適したものです

最高のパフォーマンス精度を達成するためには、トレーニング中にエージェントが正しいまたは望ましいトラック上にあるかどう...

人工知能

ネットワークの強化:異常検出のためのML、AI、およびDLの力を解放する

「機械学習、人工知能、そして深層学習技術が、異常を精度良く検出することでネットワークセキュリティを向上させる方法を発...

データサイエンス

「モデルの解釈性のためのPFIに深く入り込む」

「モデルの評価方法を知っていることは、データサイエンティストとしての仕事において不可欠ですステークホルダーに完全に理...

機械学習

バーゼル大学病院が、「TotalSegmentator」を発表:体のCT画像の主要な解剖構造を自動的にセグメント化するための深層学習セグメンテーションモデル

過去数年間、実施されるCTスキャンの数と利用可能なデータ処理能力は増加してきました。ディープラーニングの進展により、画...

AI研究

マイクロソフトの研究者たちは、FP8混合精度トレーニングフレームワークを公開しました:大規模な言語モデルのトレーニング効率を超高速化します

大型言語モデルは、言語生成と理解の能力において以前に類を見ない優れた能力を示しており、論理学、数学、物理学、他の領域...