スタンフォード大学とDeepMindの研究者が、大規模な言語モデル(LLMs)をプロキシ報酬関数として使用するアイデアを提案しました

スタンフォード大学とDeepMindの研究者がLLMsをプロキシ報酬関数として使用するアイデアを提案

コンピューティングとデータの発展に伴い、自律エージェントは力を増しています。エージェントが学習するポリシーに対して人間が何らかの意見を持ち、それが自分の目標と一致しているかを確認する必要性は、これを踏まえるとますます明白になっています。

現在、ユーザーは1)目的のアクションに対する報酬関数を作成するか、2)詳細なラベル付きデータを提供するかのいずれかを行っています。どちらの戦略も困難を伴い、実際には実装されることはないでしょう。報酬のハッキングに脆弱なエージェントは、競合するゴールの間にバランスを取る報酬関数の設計が難しい状況にあります。しかし、報酬関数は注釈付きの例から学習することができます。ただし、個々のユーザーの嗜好や目標の微妙さを捉えるためには膨大な量のラベル付きデータが必要であり、高コストがかかります。さらに、報酬関数は再設計するか、異なる目標を持つ新しいユーザーポピュレーションのためにデータセットを再収集する必要があります。

スタンフォード大学とDeepMindによる最新の研究では、ユーザーが好みを共有するのがより自然な方法で報酬関数を作成し、わずかなインスタンスのみを使用してそれらの好みを定義するための費用対効果の高いアプローチを設計することを目指しています。彼らの研究では、インターネットからの大量のテキストデータでトレーニングされ、極めて少数のトレーニング例でも文脈で学習することが得意な大規模言語モデル(LLM)を使用しています。研究者によれば、LLMは人間の行動に関する重要な常識的な事前知識を大規模なデータセットから取り込むため、文脈的な学習に優れています。

研究者たちは、ユーザーが提供するデータを使用してRLエージェントのトレーニングにプロンプト付きLLMを利用する方法を調査しています。提案された方法では、会話形式のインターフェースを使用してユーザーが目標を定義します。目標を定義する際には、「汎用性」といった数個のインスタンスや、共通の知識であれば1つの文を使用することがあります。プロンプトとLLMを使用して報酬関数を定義し、RLエージェントをトレーニングします。RLエピソードの軌跡とユーザーのプロンプトをLLMに入力し、軌跡がユーザーの目的を満たしているかどうかのスコア(例えば、「Yes」または「0」)をRLエージェントの整数報酬として出力します。LLMをプロキシ報酬関数として使用する利点の1つは、ユーザーが望ましい動作の数十の例を提供する必要がなく、言語を通じて直感的に好みを指定できることです。

ユーザーは、提案されたエージェントが異なる目標でトレーニングされたエージェントよりも目標に合致していると報告しています。共通の目標に関する事前知識を利用することで、LLMはゼロショットのプロンプトに対して生成される目標に合致した報酬信号の割合を、通常の順序の行列ゲームの場合には平均48%、シャッフルされた順序の場合には36%増加させます。最終的なゲーム、ディールまたはノーディールの交渉課題、およびマトリックスゲームでは、チームはいくつかのプロンプトのみを使用してプレーヤーをガイドします。パイロットスタディでは10人の実際の人物が使用されました。

LLMは、ワンショットの状況でも共通の目標を認識し、それらの目標と一致する強化信号を送信することができます。したがって、目的に合致したRLエージェントをトレーニングするためには、1つの正しい結果のみを検出するLLMを使用することができます。その結果、ラベルを使用してトレーニングされるエージェントよりも正確なものになる可能性が高くなります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

映画チャットをご紹介しますビデオの基礎モデルと大規模な言語モデルを統合した革新的なビデオ理解システムです

大規模言語モデル(LLM)は最近、自然言語処理(NLP)の分野で大きな進歩を遂げています。LLMにマルチモーダリティを追加し、...

機械学習

「ChatGPTのような大規模言語モデルによる自己説明は感情分析にどれほど効果的か?パフォーマンス、コスト、解釈可能性に迫る深い探求」

言語モデル(GPT-3)は、データで学習したパターンに基づいてテキストを生成するため、中立であり感情を持ちません。トレーニ...

AI研究

アップルの研究者がパラレルスペキュラティブサンプリング(PaSS)を紹介:言語モデルの効率とスケーラビリティにおける飛躍

EPFLの研究者は、Appleとの共同研究で、Parallel Speculative Sampling(PaSS)と呼ばれる仕様採取の新たなアプローチを導入...

AI研究

自動化された欺瞞検出:東京大学の研究者が機械学習を通じて表情と脈拍を利用して欺瞞を暴く

デジタル時代において、自動化された欺瞞検知システムは、様々な分野で重要な存在となっています。正確な検知の需要は、商業...

AI研究

プリンストンの研究者たちは、革新的な軽量フレームワーク「InterCode」を導入しましたこれにより、人間のような言語からコード生成のための言語モデルの相互作用が効率化されました

ChatGPTは、OpenAIによって開発された最新のチャットボットであり、リリース以来話題になっています。このGPTトランスフォー...

AIニュース

「Google CloudがGenerative AIの保護を顧客に約束」

Google Cloudは、顧客の利益に対する取り組みを再確認し、共有のイノベーション、サポート、運命が特徴となる旅へと先進的に...