アリババAI研究所が提案する「Composer」は、数十億の(テキスト、画像)ペアで訓練された、巨大な(50億パラメータ)コントロール可能な拡散モデルです

「Composer」 is a massive (50 billion parameters) controllable diffusion model trained on billions of (text, image) pairs, proposed by Alibaba AI Research Institute.

現在、テキストベースの生成画像モデルは、多様な写真のような画像を生成することができるようになりました。最近の多くの取り組みでは、セグメンテーションマップ、シーングラフ、ドローイング、深度マップ、修復マスクなどの条件を追加したり、事前学習モデルを少量の特定のデータに微調整することで、テキストからイメージを生成するモデルをカスタマイズすることができるようになりました。しかし、これらのモデルを実世界のアプリケーションに適用する際には、デザイナーはまだより多くの制御を必要としています。例えば、実世界のデザインプロジェクトでは、意味、形、スタイル、色の同時要求を満たす画像を信頼性を持って生成するために、生成モデルが支援を必要とすることが一般的です。

中国のアリババの研究者たちは、Composerを紹介しています。これは、数十億の(テキスト、画像)のペアでトレーニングされた大規模な(50億のパラメータ)制御可能な拡散モデルです。彼らは、単に条件付けするのではなく、合成性こそが画像形成を制御する秘訣であると主張しています。後者は多くの可能な組み合わせを導入し、制御空間を大幅に拡大することができます。同様の考え方は、言語とシーンの理解の分野でも調査されています。これらの分野では、合成性は合成的な一般化と呼ばれ、限られた数の利用可能なコンポーネントから一意の組み合わせを認識または作成する能力を指します。前述の概念に基づいて、彼らはこの研究で合成的な生成モデルの実装であるComposerを提供しています。彼らは、新しい画像を作成するために視覚要素をスムーズに再構成することができる生成モデルを合成的な生成モデルと呼んでいます。彼らは、Composerを実装するために、UNetバックボーンを持つマルチ条件の拡散モデルを使用しています。各Composerトレーニングイテレーションには2つのフェーズがあります。デコンポジションフェーズでは、コンピュータビジョンアルゴリズムや事前学習モデルを使用して、画像のバッチを個々の表現に分解します。合成フェーズでは、Composerが表現のサブセットから画像を再構成するために最適化されます。

図1:合成的な画像合成のアイデア。画像を基本部品に分解し、創造性と制御を持って再構成する前に、様々な形式でコンポーネントが提供され、生成プロセス全体で条件として機能し、推論ステップ中に広範な修正を可能にします。高解像度で表示するのが最適です。

Composerは、再構成の目的で訓練されただけであっても、複数のソースからの表現の未知の組み合わせから一意の画像をデコードすることができます。Composerは、概念的なシンプルさと使いやすさにもかかわらず、従来の画像生成や操作のタスク、例えばテキストから画像の生成、マルチモーダルな条件付き画像の生成、スタイルの転送、ポーズの転送、画像の翻訳、仮想試着、補完と画像の変動、スケッチの修正による画像の再構成、依存性のある画像の翻訳、画像の翻訳などにおいて、励ましを与えるパフォーマンスを実現しています。

さらに、Composerは上記のすべての操作に対してユーザー指定の領域に編集可能な領域を制限することができます。これは従来の修復操作よりも柔軟であり、マスキングの直交表現を導入することで、この領域外のピクセルの変更を防ぎます。Composerはマルチタスクトレーニングを行ったにもかかわらず、COCOデータセット上でテキストから画像の合成においてゼロショットのFID値9.2を達成し、キャプションを基準とした優れた結果を示しています。彼らの分解-組成のパラダイムは、条件が個別に使用されるのではなく合成可能である場合、生成モデルの制御空間を大幅に拡大することを示しています。そのため、様々な分解技術を使用してより高い制御性を実現できるようにするさまざまな従来の生成タスクを、彼らのComposerアーキテクチャを使用して再設計することができ、これまでに認識されていなかった生成能力が明らかにされ、さまざまな画像生成および変更タスクへのComposerの利用方法について多くのアプローチが示され、後続の研究に役立つ参考資料が提供されています。この研究を公開する前に、彼らはComposerが悪用の危険を軽減し、フィルタリングされたバージョンを提供できるかを注意深く検討する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

マイクロソフトの研究者がConfidential Consortium Framework (CCF)を紹介:セキュアな状態を持つCIAアプリケーションを開発するための汎用AIフレームワーク

「CIA Trinity(CIAトリニティ)」は、よく知られた情報セキュリティフレームワークであり、データの機密性、整合性の保護、...

機械学習

「Amazon SageMaker Studioを使用してBMWグループのAI/MLの開発を加速」

この記事は、BMWグループのマルク・ノイマン、アモール・シュタインベルク、マリヌス・クロメンフックと共同で執筆されました...

機械学習

Google AIは、MediaPipe Diffusionプラグインを導入しましたこれにより、デバイス上で制御可能なテキストから画像生成が可能になります

最近、拡散モデルはテキストから画像を生成する際に非常に成功を収め、画像の品質、推論のパフォーマンス、および創造的な可...

機械学習

「インドにおけるAI規制のためのPMモディのビジョン:B20サミット2023」

2023年、B20サミットインドがデリーで終了するにつれ、ナレンドラ・モディ首相の言葉の響きは続きました。ビジネスリーダーた...

データサイエンス

DatategyとMath&AI Instituteの研究者、大規模言語モデルのマルチモダリティの未来に関する展望を提供

フランスのDatategy SASとトルコのMath&AI研究所の研究者は、最近注目されているマルチモーダルアーキテクチャに対する1つの...

人工知能

「ジェネラティブAIを使用した7つのプロジェクト」

ジェネラティブAIを利用した個人プロジェクトで強力なポートフォリオを作り方を学びましょうこれにより、あなたは他の人と差...