「Prompt Diffusionを紹介する:拡散ベースの生成モデルにおけるコンテキスト内学習を可能にするAIフレームワーク」

Introducing Prompt Diffusion an AI framework enabling context-aware learning in diffusion-based generative models.

最新の大規模言語モデル(LLM)であるBERT、GPT-2、BART、T5、GPT-3、およびGPT-4は、機械学習の最近の進歩、特に自然言語処理(NLP)の領域での進歩により開発されました。これらのモデルは、テキスト生成、機械翻訳、感情分析、質問応答などのさまざまなタスクに効果的に使用されています。コンテキストから学習する能力、つまりコンテキスト学習は、これらのLLMの新興動作の1つです。モデルパラメータを最適化せずに、GPT-3のようなコンテキスト学習能力を持つLLMは、入力-出力のサンプルと新鮮なクエリ入力に基づいてジョブを完了することができます。

多くの言語タスクの事前トレーニングをコンテキスト学習と適切なプロンプト構造と組み合わせることで、LLMは未経験の活動にも成功裏に一般化することができます。コンテキスト学習はNLPで広く研究されていますが、コンピュータビジョンの応用はほとんど存在しません。コンテキスト学習の実用性と将来性を優れたビジョンアプリケーションの標準的な手法として示すためには、2つの重要な困難があります: 1) ビジョンプロンプトを効果的に作成することは、言語活動のプロンプトを作成するよりも困難です。なぜなら、ドメイン固有の入出力ペアを例として、画像検索を基準とする必要があるからです。 2) コンピュータビジョンでは、テキストから画像生成、クラス条件付き生成、セグメンテーション、検出、分類などの特化されたタスクのために大規模なモデルがしばしばトレーニングされます。

これらの大規模ビジョンモデルは、新しいタスクに適応するために柔軟性を持たせる必要があり、コンテキスト学習のために構築されていません。最近のいくつかの試みでは、NLPの回答を使用してこれらの問題に取り組んでいます。具体的には、サンプル写真、クエリ画像、出力画像を1つの巨大な具現化体に統合することによって基本的な視覚的手がかりを作成し、Transformerベースの画像補完モデルをトレーニングして、マスクされた出力画像を予測します。しかし、巨大な写真へのステッチングは、特に高解像度の場合には計算負荷を大幅に増加させます。この作業では、テキストガイドの拡散ベースの生成モデルのコンテキスト学習の潜在能力に取り組むことで、これらの2つの問題に対処します。

幅広いビジョン言語アクティビティを扱うことができるビジョン言語プロンプトの下でコンテキスト学習を実行するために、MicrosoftとUT Austinの研究者はPrompt Diffusionという新しいモデルアーキテクチャを提案しています。Prompt Diffusionは、6つの個別のビジョン言語タスクを同時に実行します。具体的には、彼らはビジョン言語プロンプトを使用して一般的なビジョン言語タスクを説明します。そして、Stable DiffusionとControlNetの設計を参考にして、ビジョン言語プロンプトを入力として使用するPrompt Diffusionを構築します。Prompt Diffusionをテキストガイドの拡散モデルのコンテキスト学習の能力を可能にする第一歩として提案しています。その後、この知識を使用して、クエリ画像に接続を再マッピングし、言語の指示を含めることで、出力画像を作成することができます。さらに重要なことに、多くのタスクを学習することにより、Prompt Diffusionはコンテキスト学習の能力を持つモデルになります。Prompt Diffusionは、まだ観察されていないいくつかの新しい機能に対しても成功裏に一般化することができます。これは、トレーニング中に6つのタスクで優れたパフォーマンスを発揮することに加えてです。

実証的には、Prompt Diffusionはコンテキスト学習に関する既知および未知のタスクで優れたパフォーマンスを発揮します。Prompt Diffusionの有効性は、拡散ベースのコンテキストビジュアル学習に対するより多くの研究を促進することが期待されています。以下は、彼らの主な貢献の概要です:

• 複数のビジョン言語アクティビティを効果的に統合することを可能にするビジョン言語プロンプトの最新の設計。

• プロンプト拡散モデルを使用した学習済みおよび新しい未知のタスクにおける高品質なコンテキスト生成。これは、コンテキスト学習が可能な最初の拡散ベースの適応型ビジョン言語基盤モデルです。

• Pytorchのコード実装はGitHubで見つけることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「ベクターデータベースは、生成型AIソリューションの未来をどのように形作るのか?」

紹介 生成AIの急速に進化する風景において、ベクトルデータベースの重要な役割がますます明らかになってきました。本記事では...

AIニュース

ChatGPTを使用してAIエージェントを作成する

新しい「カスタムインストラクション」機能を使うことで、ChatGPTをAIエージェントに変えることができます

AIニュース

「ビルドの学び方 — Towards AI コミュニティ ニュースレター第2号」

「最近の数日間、OpenAIのドラマを追っていないと見逃しているよ信じられないことが起こったんだ多くの従業員がOpenAIの理事...

人工知能

「ソフトウェアテストの革命化」

AIが自動ソフトウェアテストに与える深遠な影響を掘り下げ、その能力、利点、およびSQAの将来における持つ可能性について探求...

AIニュース

「Amazon Qをご紹介します:ビジネスの卓越性のためのチャットボットをご紹介します!」

今日の速いビジネスの世界では、効果的なコミュニケーションが成功の鍵となります。AmazonはAmazon Qを導入し、データとのや...

AI研究

UCSDとMicrosoftの研究者がColDecoを導入:計算されたカラムのためのノーコード検査ツール

UCSDとMicrosoftの研究チームが開発した「COLDECO:AIによって生成されたコードのエンドユーザ用スプレッドシート検査ツール...