メルティングポット：マルチエージェント強化学習の評価スイート

'Melting Pot Evaluation Suite for Multi-Agent Reinforcement Learning'

現実世界で展開されるテクノロジーは、必ず予期せぬ課題に直面します。これらの課題は、テクノロジーが開発された環境と展開される環境が異なるために生じます。技術が成功裏に移植された場合、それを一般化したと言います。自律走行車のようなマルチエージェントシステムでは、一般化の困難性の可能性が2つあります：（1）気候や照明の変化などの物理環境の変動、および（2）他の相互作用する個体の行動の変動などの社会環境の変動の2つです。社会環境の変動を処理することは、物理環境の変動を処理することと同じくらい重要ですが、これについてはほとんど研究されていません。

社会環境の一例として、自動運転車が他の車との道路上でどのように相互作用するかを考えてみましょう。各車はできるだけ早く自分の乗客を目的地に運びたいというインセンティブを持っています。しかし、この競争は不適切な調整（道路の混雑）につながり、誰にとっても悪影響を及ぼします。車が協力的に動作すると、より多くの乗客がより迅速に目的地に到着する可能性があります。この衝突は社会的ジレンマと呼ばれます。

ただし、すべての相互作用が社会的ジレンマではありません。たとえば、オープンソースソフトウェアでは相乗効果のある相互作用があり、スポーツでは零和ゲームの相互作用があり、調整問題はサプライチェーンの核心です。これらの状況をナビゲートするには、非常に異なるアプローチが必要です。

マルチエージェント強化学習は、人工的なエージェントが互いにおよび未知の個人（ユーザーなど）とどのように相互作用するかを探索するためのツールを提供します。このクラスのアルゴリズムは、社会的な一般化能力をテストする際に他のアルゴリズムよりも優れた性能を発揮することが期待されています。しかし、これを評価するための体系的なベンチマークは、今まで存在しませんでした。

青：訓練されたエージェントの焦点集団、赤：事前トレーニングされたボットの背景集団

ここでは、マルチエージェント強化学習のためのスケーラブルな評価スイートであるMelting Potを紹介します。Melting Potは、既知の個人と未知の個人の両方を含む新しい社会的状況への一般化を評価し、協力、競争、欺瞞、報い、信頼、頑固さなどのさまざまな社会的相互作用をテストするために設計されています。Melting Potは、エージェントを訓練するための21のMARL「基板」（マルチエージェントゲーム）と、これらの訓練されたエージェントを評価するための85以上のユニークなテストシナリオを研究者に提供します。これらのテストシナリオでのエージェントのパフォーマンスは、エージェントが以下のような社会的状況でうまく機能するかどうかを定量化します：

個々の相互依存する社会的状況で優れたパフォーマンスを発揮する
訓練中に見たことのない未知の個人と効果的に相互作用する
普遍化テストに合格する：「皆がそう行動したらどうなるだろうか？」という問いに肯定的に答える

その結果得られるスコアは、異なるマルチエージェント強化学習アルゴリズムを新しい社会的状況への一般化能力に基づいてランク付けするために使用できます。

Melting Potがマルチエージェント強化学習の標準ベンチマークとなることを願っています。私たちはそれを維持し、今後数年間でさらに多くの社会的相互作用と一般化シナリオをカバーするために拡張する予定です。

GitHubのページから詳細を学ぶ。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Technical blog

Was this article helpful?

93 out of 132 found this helpful

メルティングポット：マルチエージェント強化学習の評価スイート

Was this article helpful?

プロテオームスケールでの高精度なタンパク質構造予測を可能にする

私たちの人種的正義の取り組みについての最新情報

機械学習

TensorFlowを使用して責任あるAIを構築する方法は？

ChatGPTを使用したメール自動化の方法

「マルチタスクアーキテクチャ：包括的なガイド」

「AIを活用したポッドキャストの始め方と成長方法」

Midjourney v5.2の新しいズームアウト機能の使い方（最良の例）

ドメイン適応：事前に学習済みのNLPモデルの微調整