新しいAI研究が、転移学習のためのマルチタスクプロンプトチューニング(MPT)を紹介します

新しいAI研究はMPT(マルチタスクプロンプトチューニング)を紹介する

事前学習済み言語モデル(PLMs)は、フィネチューニングにより多くの下位NLPタスクで大幅に改善されています。現在のPLMsは数億のパラメータを含むことができますが、タスクごとのフルフィネチューニング(FT)の従来のパラダイムは、多数のタスクに拡張することが困難です。包括的なフィネチューニングに必要なより少ないパラメータを学習する必要性から、「パラメータ効率」のモデルチューニングに関する研究が急増しています。

PLMsを使用したパラメータ効率の高い転移学習において、最近はプロンプトチューニング(PT)が潜在的なオプションとして登場しています。PTは、トレーニング前に入力に調整可能な連続プロンプトベクトルを追加することで機能します。PLMの設定は固定され、PTは各タスクに対して限られた数のプロンプトベクトルのみを学習します。しかし、その驚異的な性能にもかかわらず、瞬間的なチューニングと完全なフィネチューニングの間にはまだ大きな差があります。また、この方法は初期化に非常に敏感であり、通常のフィネチューニング手続きよりも長いトレーニング時間を必要とします。

最近の研究では、他のジョブからプロンプトベクトルを再利用することでこれらの問題を解決する方法が提案されています。これらの戦略は、さまざまなソースタスクでソフトプロンプトをトレーニングすることから始まります。次に、これらの事前学習されたプロンプトを、(おそらく学習された)類似性尺度を使用してターゲットタスクのプロンプトのファインチューニングの出発点として使用します。

オハイオ州立大学、MIT-IBMワトソンAI研究所、マサチューセッツ工科大学の研究者は、マルチタスクプロンプトチューニング(MPT)を導入することで、この研究の一環をさらに発展させています。MPTは、マルチタスクデータを利用して、効率的にターゲットアクティビティに伝達できる単一のプロンプトを学習します。

共有プロンプト空間を学習するアイデアは簡単ですが、実際には非常に難しいことがあります。これは、さまざまなソースタスク間の類似性を習得しながら、その干渉を同時に減らす必要があるためです。研究者は、単にすべてのタスクでプロンプト行列を共有するのではなく、各ソースタスクのソフトプロンプトを共有行列と低ランクタスク固有行列の積として分解する方が成功すると見つけました。分解は、一貫したプロンプトチューニングを通じて獲得したソフトプロンプトからの情報を蒸留することによって教えられます。彼らは共通プロンプト行列に対して低ランクの乗算修正を実行し、ジョブ間を切り替えます。

様々なタスクの23のNLPデータセットに対する包括的なテストでは、提案された手法が最新のプロンプト転送手法を上回ることが示されています。T5-Baseを使用したMPTは、最も競争力のあるマルチタスクプロンプト転送ベースラインに比べて、SuperGLUEベンチマークで16.3%の改善を達成しています。一部の性能指標では、MPTはフルフィネチューニングを上回りますが、ジョブごとにわずか0.035%の設定可能なパラメータのみを使用しています。また、ターゲットタスクごとに4-32のラベルがある場合、MPTは少量のデータでも非常に成功することがわかっています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ニューラルネットワークの簡単な歴史

生物学的なニューロンからLLMsへ:AIが賢くなるまでの道のり

データサイエンス

「2023年の人工知能(AI)と機械学習に関連するサブレディットコミュニティ15選」

人工知能(AI)と機械学習の世界では、最新のトレンド、ブレイクスルー、議論について最新情報を得ることが重要です。インタ...

AI研究

このAI研究は「カンディンスキー1」という新しい手法を発表しました:COCO-30Kで優れたFIDスコアを持つ潜在拡散テキストから画像生成

“` 近年、コンピュータビジョンと生成モデリングは驚異的な進歩を遂げ、テキストから画像を生成する技術の発展につなが...

AI研究

UCLAとGoogleの研究者が、AVISという画像質問応答の自律情報検索のための画期的なAIフレームワークを提案しています

GPT3、LaMDA、PALM、BLOOM、LLaMAは、膨大な情報を保存し適用する能力を示した大規模言語モデル(LLM)の一部の例です。イン...

AIニュース

『AI規制に関するEUの予備的な合意:ChatGPTへの影響』

ヨーロッパ連合は最近、広く認識されているChatGPTを含む先進的なAIモデルの規制に関する予備的な合意を仲介しました。これは...