「Prompt Diffusionを紹介する:拡散ベースの生成モデルにおけるコンテキスト内学習を可能にするAIフレームワーク」

Introducing Prompt Diffusion an AI framework enabling context-aware learning in diffusion-based generative models.

最新の大規模言語モデル(LLM)であるBERT、GPT-2、BART、T5、GPT-3、およびGPT-4は、機械学習の最近の進歩、特に自然言語処理(NLP)の領域での進歩により開発されました。これらのモデルは、テキスト生成、機械翻訳、感情分析、質問応答などのさまざまなタスクに効果的に使用されています。コンテキストから学習する能力、つまりコンテキスト学習は、これらのLLMの新興動作の1つです。モデルパラメータを最適化せずに、GPT-3のようなコンテキスト学習能力を持つLLMは、入力-出力のサンプルと新鮮なクエリ入力に基づいてジョブを完了することができます。

多くの言語タスクの事前トレーニングをコンテキスト学習と適切なプロンプト構造と組み合わせることで、LLMは未経験の活動にも成功裏に一般化することができます。コンテキスト学習はNLPで広く研究されていますが、コンピュータビジョンの応用はほとんど存在しません。コンテキスト学習の実用性と将来性を優れたビジョンアプリケーションの標準的な手法として示すためには、2つの重要な困難があります: 1) ビジョンプロンプトを効果的に作成することは、言語活動のプロンプトを作成するよりも困難です。なぜなら、ドメイン固有の入出力ペアを例として、画像検索を基準とする必要があるからです。 2) コンピュータビジョンでは、テキストから画像生成、クラス条件付き生成、セグメンテーション、検出、分類などの特化されたタスクのために大規模なモデルがしばしばトレーニングされます。

これらの大規模ビジョンモデルは、新しいタスクに適応するために柔軟性を持たせる必要があり、コンテキスト学習のために構築されていません。最近のいくつかの試みでは、NLPの回答を使用してこれらの問題に取り組んでいます。具体的には、サンプル写真、クエリ画像、出力画像を1つの巨大な具現化体に統合することによって基本的な視覚的手がかりを作成し、Transformerベースの画像補完モデルをトレーニングして、マスクされた出力画像を予測します。しかし、巨大な写真へのステッチングは、特に高解像度の場合には計算負荷を大幅に増加させます。この作業では、テキストガイドの拡散ベースの生成モデルのコンテキスト学習の潜在能力に取り組むことで、これらの2つの問題に対処します。

幅広いビジョン言語アクティビティを扱うことができるビジョン言語プロンプトの下でコンテキスト学習を実行するために、MicrosoftとUT Austinの研究者はPrompt Diffusionという新しいモデルアーキテクチャを提案しています。Prompt Diffusionは、6つの個別のビジョン言語タスクを同時に実行します。具体的には、彼らはビジョン言語プロンプトを使用して一般的なビジョン言語タスクを説明します。そして、Stable DiffusionとControlNetの設計を参考にして、ビジョン言語プロンプトを入力として使用するPrompt Diffusionを構築します。Prompt Diffusionをテキストガイドの拡散モデルのコンテキスト学習の能力を可能にする第一歩として提案しています。その後、この知識を使用して、クエリ画像に接続を再マッピングし、言語の指示を含めることで、出力画像を作成することができます。さらに重要なことに、多くのタスクを学習することにより、Prompt Diffusionはコンテキスト学習の能力を持つモデルになります。Prompt Diffusionは、まだ観察されていないいくつかの新しい機能に対しても成功裏に一般化することができます。これは、トレーニング中に6つのタスクで優れたパフォーマンスを発揮することに加えてです。

実証的には、Prompt Diffusionはコンテキスト学習に関する既知および未知のタスクで優れたパフォーマンスを発揮します。Prompt Diffusionの有効性は、拡散ベースのコンテキストビジュアル学習に対するより多くの研究を促進することが期待されています。以下は、彼らの主な貢献の概要です:

• 複数のビジョン言語アクティビティを効果的に統合することを可能にするビジョン言語プロンプトの最新の設計。

• プロンプト拡散モデルを使用した学習済みおよび新しい未知のタスクにおける高品質なコンテキスト生成。これは、コンテキスト学習が可能な最初の拡散ベースの適応型ビジョン言語基盤モデルです。

• Pytorchのコード実装はGitHubで見つけることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

新しいLAMPスタック:生成AI開発の革新を照らす

LAMPスタックは、さまざまなドメインでの生成型AIの開発と展開において必須となってきています

機械学習

「トランスフォーマーアーキテクチャとBERT、GPT、T5の台頭:初心者向けガイド」

「人工知能(AI)の広大で絶えず進化する領域において、印象を残すだけでなく、その全体の軌道を再定義する革新が存在します...

データサイエンス

大規模な言語モデルについて企業が知っておくべきこと

大規模な言語モデルは、ビジネスコミュニケーション、コンテンツ作成、データ分析を変革しますビジネスにおける主な機能と利...

データサイエンス

生成AIモデル:マーチャンダイジング分析のユーザーエクスペリエンス向上

私たちのデータプラットフォームで利用可能なデータについて、ビジネスユーザーが何でも尋ねることができるように、生成型AI...

機械学習

医療画像AIがより簡単になりました:NVIDIAがMONAIをホステッドクラウドサービスとして提供

本日、NVIDIAは医療画像AIのためのクラウドサービスを立ち上げました。これにより、完全に管理され、クラウドベースのAPIを通...

AIニュース

「AIチャットボットが$1未満で数分でソフトウェアを作成する」

AIチャットボットが仮想のソフトウェア会社ChatDevを運営し、ソフトウェアをわずか7分で一から開発し、コストを1ドル以下に抑...