「Prompt Diffusionを紹介する:拡散ベースの生成モデルにおけるコンテキスト内学習を可能にするAIフレームワーク」

Introducing Prompt Diffusion an AI framework enabling context-aware learning in diffusion-based generative models.

最新の大規模言語モデル(LLM)であるBERT、GPT-2、BART、T5、GPT-3、およびGPT-4は、機械学習の最近の進歩、特に自然言語処理(NLP)の領域での進歩により開発されました。これらのモデルは、テキスト生成、機械翻訳、感情分析、質問応答などのさまざまなタスクに効果的に使用されています。コンテキストから学習する能力、つまりコンテキスト学習は、これらのLLMの新興動作の1つです。モデルパラメータを最適化せずに、GPT-3のようなコンテキスト学習能力を持つLLMは、入力-出力のサンプルと新鮮なクエリ入力に基づいてジョブを完了することができます。

多くの言語タスクの事前トレーニングをコンテキスト学習と適切なプロンプト構造と組み合わせることで、LLMは未経験の活動にも成功裏に一般化することができます。コンテキスト学習はNLPで広く研究されていますが、コンピュータビジョンの応用はほとんど存在しません。コンテキスト学習の実用性と将来性を優れたビジョンアプリケーションの標準的な手法として示すためには、2つの重要な困難があります: 1) ビジョンプロンプトを効果的に作成することは、言語活動のプロンプトを作成するよりも困難です。なぜなら、ドメイン固有の入出力ペアを例として、画像検索を基準とする必要があるからです。 2) コンピュータビジョンでは、テキストから画像生成、クラス条件付き生成、セグメンテーション、検出、分類などの特化されたタスクのために大規模なモデルがしばしばトレーニングされます。

これらの大規模ビジョンモデルは、新しいタスクに適応するために柔軟性を持たせる必要があり、コンテキスト学習のために構築されていません。最近のいくつかの試みでは、NLPの回答を使用してこれらの問題に取り組んでいます。具体的には、サンプル写真、クエリ画像、出力画像を1つの巨大な具現化体に統合することによって基本的な視覚的手がかりを作成し、Transformerベースの画像補完モデルをトレーニングして、マスクされた出力画像を予測します。しかし、巨大な写真へのステッチングは、特に高解像度の場合には計算負荷を大幅に増加させます。この作業では、テキストガイドの拡散ベースの生成モデルのコンテキスト学習の潜在能力に取り組むことで、これらの2つの問題に対処します。

幅広いビジョン言語アクティビティを扱うことができるビジョン言語プロンプトの下でコンテキスト学習を実行するために、MicrosoftとUT Austinの研究者はPrompt Diffusionという新しいモデルアーキテクチャを提案しています。Prompt Diffusionは、6つの個別のビジョン言語タスクを同時に実行します。具体的には、彼らはビジョン言語プロンプトを使用して一般的なビジョン言語タスクを説明します。そして、Stable DiffusionとControlNetの設計を参考にして、ビジョン言語プロンプトを入力として使用するPrompt Diffusionを構築します。Prompt Diffusionをテキストガイドの拡散モデルのコンテキスト学習の能力を可能にする第一歩として提案しています。その後、この知識を使用して、クエリ画像に接続を再マッピングし、言語の指示を含めることで、出力画像を作成することができます。さらに重要なことに、多くのタスクを学習することにより、Prompt Diffusionはコンテキスト学習の能力を持つモデルになります。Prompt Diffusionは、まだ観察されていないいくつかの新しい機能に対しても成功裏に一般化することができます。これは、トレーニング中に6つのタスクで優れたパフォーマンスを発揮することに加えてです。

実証的には、Prompt Diffusionはコンテキスト学習に関する既知および未知のタスクで優れたパフォーマンスを発揮します。Prompt Diffusionの有効性は、拡散ベースのコンテキストビジュアル学習に対するより多くの研究を促進することが期待されています。以下は、彼らの主な貢献の概要です:

• 複数のビジョン言語アクティビティを効果的に統合することを可能にするビジョン言語プロンプトの最新の設計。

• プロンプト拡散モデルを使用した学習済みおよび新しい未知のタスクにおける高品質なコンテキスト生成。これは、コンテキスト学習が可能な最初の拡散ベースの適応型ビジョン言語基盤モデルです。

• Pytorchのコード実装はGitHubで見つけることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

クラウドセキュリティの未来:トレンドと予測

この記事では、AIによる脅威検出、ゼロトラストアーキテクチャ、進化するサイバー脅威を含む、クラウドセキュリティのトレン...

機械学習

OpenAIのモデレーションAPIを使用してコンテンツのモデレーションを強化する

プロンプトエンジニアリングの台頭や、言語モデルの大規模な成果により、私たちの問いに対する応答を生成する際の大変な成果...

データサイエンス

「ジェネレーティブAI 2024年とその先:未来の一瞥」

「ジェネレーティブAIファブリックの台頭から倫理が新しいNFRとなるまで、ジェネレーティブAI技術が2024年にもたらすものを探...

データサイエンス

「StackOverflowが生成型AIに対応する方法」

OverflowAIは、強力な生成AIループによってプロセスを効率化することで、コンテンツ作成を革命化します

機械学習

Explainable AI(説明可能なAI)とInterpretable AI(解釈可能なAI)の理解

最近の機械学習(ML)の技術革新の結果、MLモデルは人間の労働を不要にするために、さまざまな分野で使用されています。これ...

機械学習

『NVIDIAのCEO、ジェンソン・ファング氏がテルアビブで開催されるAIサミットの主演を務めます』

NVIDIAの創設者兼CEOであるJensen Huang氏は、10月15日から16日までテルアビブで開催されるNVIDIA AIサミットで、生成型AIと...