スタンフォード大学とDeepMindの研究者が、大規模な言語モデル(LLMs)をプロキシ報酬関数として使用するアイデアを提案しました

スタンフォード大学とDeepMindの研究者がLLMsをプロキシ報酬関数として使用するアイデアを提案

コンピューティングとデータの発展に伴い、自律エージェントは力を増しています。エージェントが学習するポリシーに対して人間が何らかの意見を持ち、それが自分の目標と一致しているかを確認する必要性は、これを踏まえるとますます明白になっています。

現在、ユーザーは1)目的のアクションに対する報酬関数を作成するか、2)詳細なラベル付きデータを提供するかのいずれかを行っています。どちらの戦略も困難を伴い、実際には実装されることはないでしょう。報酬のハッキングに脆弱なエージェントは、競合するゴールの間にバランスを取る報酬関数の設計が難しい状況にあります。しかし、報酬関数は注釈付きの例から学習することができます。ただし、個々のユーザーの嗜好や目標の微妙さを捉えるためには膨大な量のラベル付きデータが必要であり、高コストがかかります。さらに、報酬関数は再設計するか、異なる目標を持つ新しいユーザーポピュレーションのためにデータセットを再収集する必要があります。

スタンフォード大学とDeepMindによる最新の研究では、ユーザーが好みを共有するのがより自然な方法で報酬関数を作成し、わずかなインスタンスのみを使用してそれらの好みを定義するための費用対効果の高いアプローチを設計することを目指しています。彼らの研究では、インターネットからの大量のテキストデータでトレーニングされ、極めて少数のトレーニング例でも文脈で学習することが得意な大規模言語モデル(LLM)を使用しています。研究者によれば、LLMは人間の行動に関する重要な常識的な事前知識を大規模なデータセットから取り込むため、文脈的な学習に優れています。

研究者たちは、ユーザーが提供するデータを使用してRLエージェントのトレーニングにプロンプト付きLLMを利用する方法を調査しています。提案された方法では、会話形式のインターフェースを使用してユーザーが目標を定義します。目標を定義する際には、「汎用性」といった数個のインスタンスや、共通の知識であれば1つの文を使用することがあります。プロンプトとLLMを使用して報酬関数を定義し、RLエージェントをトレーニングします。RLエピソードの軌跡とユーザーのプロンプトをLLMに入力し、軌跡がユーザーの目的を満たしているかどうかのスコア(例えば、「Yes」または「0」)をRLエージェントの整数報酬として出力します。LLMをプロキシ報酬関数として使用する利点の1つは、ユーザーが望ましい動作の数十の例を提供する必要がなく、言語を通じて直感的に好みを指定できることです。

ユーザーは、提案されたエージェントが異なる目標でトレーニングされたエージェントよりも目標に合致していると報告しています。共通の目標に関する事前知識を利用することで、LLMはゼロショットのプロンプトに対して生成される目標に合致した報酬信号の割合を、通常の順序の行列ゲームの場合には平均48%、シャッフルされた順序の場合には36%増加させます。最終的なゲーム、ディールまたはノーディールの交渉課題、およびマトリックスゲームでは、チームはいくつかのプロンプトのみを使用してプレーヤーをガイドします。パイロットスタディでは10人の実際の人物が使用されました。

LLMは、ワンショットの状況でも共通の目標を認識し、それらの目標と一致する強化信号を送信することができます。したがって、目的に合致したRLエージェントをトレーニングするためには、1つの正しい結果のみを検出するLLMを使用することができます。その結果、ラベルを使用してトレーニングされるエージェントよりも正確なものになる可能性が高くなります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

Appleの研究者がマトリョーシカ拡散モデル(MDM)を紹介する:高解像度の画像とビデオの合成のためのエンドツーエンドの人工知能フレームワーク

近年、大規模言語モデルは驚くべき能力を示しています。特に、ディフュージョンモデルは3Dモデリングやテキスト生成から画像...

AIニュース

「Googleによる無料の生成AIコース」

「ジェネレーティブAIが注目されている中、このコースを受けることでその波に乗り出すためのスタートを切ることができます詳...

コンピュータサイエンス

数値計算のための二分法の使用方法

コンピュータ科学と数学のサブフィールドである数値計算は、コンピュータを用いた数値計算手法とアルゴリズムを用いて数学の...

データサイエンス

進歩のために曲を作るためのデータ利用

シニアのアナニヤ・グルムルシは、音楽の才能を数学とコンピューターサイエンスの学習に加え、データを社会変革のために利用...

AI研究

「NYUとMeta AIの研究者は、ユーザーと展開されたモデルの間の自然な対話から学習し、追加の注釈なしで社会的な対話エージェントの改善を研究しています」

ヒューマンインプットは、社会的な対話モデルを改善するための重要な戦術です。ヒューマンフィードバックを用いた強化学習で...

コンピュータサイエンス

「アメリカ軍がジェネレーティブAIを試す」

アメリカ国防総省は、軍事利用のためのデータ統合とデジタルプラットフォームの開発を目指して、5つの大規模言語モデルのテス...