スタンフォード大学とDeepMindの研究者が、大規模な言語モデル(LLMs)をプロキシ報酬関数として使用するアイデアを提案しました

スタンフォード大学とDeepMindの研究者がLLMsをプロキシ報酬関数として使用するアイデアを提案

コンピューティングとデータの発展に伴い、自律エージェントは力を増しています。エージェントが学習するポリシーに対して人間が何らかの意見を持ち、それが自分の目標と一致しているかを確認する必要性は、これを踏まえるとますます明白になっています。

現在、ユーザーは1)目的のアクションに対する報酬関数を作成するか、2)詳細なラベル付きデータを提供するかのいずれかを行っています。どちらの戦略も困難を伴い、実際には実装されることはないでしょう。報酬のハッキングに脆弱なエージェントは、競合するゴールの間にバランスを取る報酬関数の設計が難しい状況にあります。しかし、報酬関数は注釈付きの例から学習することができます。ただし、個々のユーザーの嗜好や目標の微妙さを捉えるためには膨大な量のラベル付きデータが必要であり、高コストがかかります。さらに、報酬関数は再設計するか、異なる目標を持つ新しいユーザーポピュレーションのためにデータセットを再収集する必要があります。

スタンフォード大学とDeepMindによる最新の研究では、ユーザーが好みを共有するのがより自然な方法で報酬関数を作成し、わずかなインスタンスのみを使用してそれらの好みを定義するための費用対効果の高いアプローチを設計することを目指しています。彼らの研究では、インターネットからの大量のテキストデータでトレーニングされ、極めて少数のトレーニング例でも文脈で学習することが得意な大規模言語モデル(LLM)を使用しています。研究者によれば、LLMは人間の行動に関する重要な常識的な事前知識を大規模なデータセットから取り込むため、文脈的な学習に優れています。

研究者たちは、ユーザーが提供するデータを使用してRLエージェントのトレーニングにプロンプト付きLLMを利用する方法を調査しています。提案された方法では、会話形式のインターフェースを使用してユーザーが目標を定義します。目標を定義する際には、「汎用性」といった数個のインスタンスや、共通の知識であれば1つの文を使用することがあります。プロンプトとLLMを使用して報酬関数を定義し、RLエージェントをトレーニングします。RLエピソードの軌跡とユーザーのプロンプトをLLMに入力し、軌跡がユーザーの目的を満たしているかどうかのスコア(例えば、「Yes」または「0」)をRLエージェントの整数報酬として出力します。LLMをプロキシ報酬関数として使用する利点の1つは、ユーザーが望ましい動作の数十の例を提供する必要がなく、言語を通じて直感的に好みを指定できることです。

ユーザーは、提案されたエージェントが異なる目標でトレーニングされたエージェントよりも目標に合致していると報告しています。共通の目標に関する事前知識を利用することで、LLMはゼロショットのプロンプトに対して生成される目標に合致した報酬信号の割合を、通常の順序の行列ゲームの場合には平均48%、シャッフルされた順序の場合には36%増加させます。最終的なゲーム、ディールまたはノーディールの交渉課題、およびマトリックスゲームでは、チームはいくつかのプロンプトのみを使用してプレーヤーをガイドします。パイロットスタディでは10人の実際の人物が使用されました。

LLMは、ワンショットの状況でも共通の目標を認識し、それらの目標と一致する強化信号を送信することができます。したがって、目的に合致したRLエージェントをトレーニングするためには、1つの正しい結果のみを検出するLLMを使用することができます。その結果、ラベルを使用してトレーニングされるエージェントよりも正確なものになる可能性が高くなります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

Meta AIがAnyMALを紹介:テキスト、画像、ビデオ、音声、動作センサーデータを結びつけるマルチモーダル言語モデルの未来

人工知能において、根本的な課題の一つは、機械が画像、動画、音声、運動信号といった様々な感覚入力と共に、人間の言語を理...

機械学習

キャッシュの遷移に対する自動フィードバックによる優先学習

Googleのソフトウェアエンジニア、Ramki GummadiとYouTubeのソフトウェアエンジニア、Kevin Chenによって投稿されました。 キ...

データサイエンス

LLMs (Language Models)による電子メール効率化の次なるフロンティア

紹介 人工知能(AI)は、特に大規模な言語モデル(LLM)の台頭のおかげで、過去数年間で大きく成長しました。豊富な人間の言...

機械学習

「Amazon CodeWhispererで持続可能性を最適化しましょう」

この投稿では、Amazon CodeWhispererが、リソース効率を高めることを通じたコードの最適化にどのように役立つかについて探っ...

AIニュース

「フレームワークによりロボットは連続した順序で対話的なタスクを実行できる」

新しいフレームワークにより、四足歩行ロボットは再学習することなく、ますます複雑なタスクを実行することができます

データサイエンス

「OpenAIの研究者たちは、敵対的なトレーニングを行わずに高品質なデータサンプリングのための先進的なコンシステンシーモデルを開拓しました」

一貫性モデルは、敵対的なトレーニングに頼らずに、単一のステップで高品質のデータを生成するために設計された生成モデルの...