スタンフォード大学とDeepMindの研究者が、大規模な言語モデル(LLMs)をプロキシ報酬関数として使用するアイデアを提案しました

スタンフォード大学とDeepMindの研究者がLLMsをプロキシ報酬関数として使用するアイデアを提案

コンピューティングとデータの発展に伴い、自律エージェントは力を増しています。エージェントが学習するポリシーに対して人間が何らかの意見を持ち、それが自分の目標と一致しているかを確認する必要性は、これを踏まえるとますます明白になっています。

現在、ユーザーは1)目的のアクションに対する報酬関数を作成するか、2)詳細なラベル付きデータを提供するかのいずれかを行っています。どちらの戦略も困難を伴い、実際には実装されることはないでしょう。報酬のハッキングに脆弱なエージェントは、競合するゴールの間にバランスを取る報酬関数の設計が難しい状況にあります。しかし、報酬関数は注釈付きの例から学習することができます。ただし、個々のユーザーの嗜好や目標の微妙さを捉えるためには膨大な量のラベル付きデータが必要であり、高コストがかかります。さらに、報酬関数は再設計するか、異なる目標を持つ新しいユーザーポピュレーションのためにデータセットを再収集する必要があります。

スタンフォード大学とDeepMindによる最新の研究では、ユーザーが好みを共有するのがより自然な方法で報酬関数を作成し、わずかなインスタンスのみを使用してそれらの好みを定義するための費用対効果の高いアプローチを設計することを目指しています。彼らの研究では、インターネットからの大量のテキストデータでトレーニングされ、極めて少数のトレーニング例でも文脈で学習することが得意な大規模言語モデル(LLM)を使用しています。研究者によれば、LLMは人間の行動に関する重要な常識的な事前知識を大規模なデータセットから取り込むため、文脈的な学習に優れています。

研究者たちは、ユーザーが提供するデータを使用してRLエージェントのトレーニングにプロンプト付きLLMを利用する方法を調査しています。提案された方法では、会話形式のインターフェースを使用してユーザーが目標を定義します。目標を定義する際には、「汎用性」といった数個のインスタンスや、共通の知識であれば1つの文を使用することがあります。プロンプトとLLMを使用して報酬関数を定義し、RLエージェントをトレーニングします。RLエピソードの軌跡とユーザーのプロンプトをLLMに入力し、軌跡がユーザーの目的を満たしているかどうかのスコア(例えば、「Yes」または「0」)をRLエージェントの整数報酬として出力します。LLMをプロキシ報酬関数として使用する利点の1つは、ユーザーが望ましい動作の数十の例を提供する必要がなく、言語を通じて直感的に好みを指定できることです。

ユーザーは、提案されたエージェントが異なる目標でトレーニングされたエージェントよりも目標に合致していると報告しています。共通の目標に関する事前知識を利用することで、LLMはゼロショットのプロンプトに対して生成される目標に合致した報酬信号の割合を、通常の順序の行列ゲームの場合には平均48%、シャッフルされた順序の場合には36%増加させます。最終的なゲーム、ディールまたはノーディールの交渉課題、およびマトリックスゲームでは、チームはいくつかのプロンプトのみを使用してプレーヤーをガイドします。パイロットスタディでは10人の実際の人物が使用されました。

LLMは、ワンショットの状況でも共通の目標を認識し、それらの目標と一致する強化信号を送信することができます。したがって、目的に合致したRLエージェントをトレーニングするためには、1つの正しい結果のみを検出するLLMを使用することができます。その結果、ラベルを使用してトレーニングされるエージェントよりも正確なものになる可能性が高くなります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「自然界がコンピュータビジョンの未来を支える」

オープンソースのソフトウェアシステムは、自然界の写実的なシーンの無限の数を素早く生成することにより、コンピュータビジ...

機械学習

「プロジェクトRumiにご参加ください:大規模言語モデルのための多言語パラ言語的プロンプティング」

新興技術のデジタル時代において、LLM(Large Language Models)は、人間の社会と文化の多くの側面を革新し、コンピュータと...

AI研究

「マイクロソフトリサーチがAIコンパイラを1つではなく、2つでもなく、4つも新たに紹介」

コンパイラは、生成的AIの時代に復活していますAIの文脈では、コンパイラはニューラルネットワークのアーキテクチャを特定の...

人工知能

「ジェネラティブAIを使用した7つのプロジェクト」

ジェネラティブAIを利用した個人プロジェクトで強力なポートフォリオを作り方を学びましょうこれにより、あなたは他の人と差...

機械学習

「Google AIの新しいパラダイムは、多段階の機械学習MLアルゴリズムの組成コストを削減して、強化されたユーティリティを実現する方法は何ですか」

今日のデータ駆動型の環境では、機械学習やデータ分析アルゴリズムの有用性を最大化しながらプライバシーを確保することが重...

人工知能

AIを学校に持ち込む:MITのアナント・アガルワルとの対話

NVIDIAのAI Podcastの最新エピソードで、edXの創設者であり2Uの最高プラットフォーム責任者であるAnant Agarwal氏は、オンラ...