メルティングポット:マルチエージェント強化学習の評価スイート

'Melting Pot Evaluation Suite for Multi-Agent Reinforcement Learning'

現実世界で展開されるテクノロジーは、必ず予期せぬ課題に直面します。これらの課題は、テクノロジーが開発された環境と展開される環境が異なるために生じます。技術が成功裏に移植された場合、それを一般化したと言います。自律走行車のようなマルチエージェントシステムでは、一般化の困難性の可能性が2つあります:(1)気候や照明の変化などの物理環境の変動、および(2)他の相互作用する個体の行動の変動などの社会環境の変動の2つです。社会環境の変動を処理することは、物理環境の変動を処理することと同じくらい重要ですが、これについてはほとんど研究されていません。

社会環境の一例として、自動運転車が他の車との道路上でどのように相互作用するかを考えてみましょう。各車はできるだけ早く自分の乗客を目的地に運びたいというインセンティブを持っています。しかし、この競争は不適切な調整(道路の混雑)につながり、誰にとっても悪影響を及ぼします。車が協力的に動作すると、より多くの乗客がより迅速に目的地に到着する可能性があります。この衝突は社会的ジレンマと呼ばれます。

ただし、すべての相互作用が社会的ジレンマではありません。たとえば、オープンソースソフトウェアでは相乗効果のある相互作用があり、スポーツでは零和ゲームの相互作用があり、調整問題はサプライチェーンの核心です。これらの状況をナビゲートするには、非常に異なるアプローチが必要です。

マルチエージェント強化学習は、人工的なエージェントが互いにおよび未知の個人(ユーザーなど)とどのように相互作用するかを探索するためのツールを提供します。このクラスのアルゴリズムは、社会的な一般化能力をテストする際に他のアルゴリズムよりも優れた性能を発揮することが期待されています。しかし、これを評価するための体系的なベンチマークは、今まで存在しませんでした。

青:訓練されたエージェントの焦点集団、赤:事前トレーニングされたボットの背景集団

ここでは、マルチエージェント強化学習のためのスケーラブルな評価スイートであるMelting Potを紹介します。Melting Potは、既知の個人と未知の個人の両方を含む新しい社会的状況への一般化を評価し、協力、競争、欺瞞、報い、信頼、頑固さなどのさまざまな社会的相互作用をテストするために設計されています。Melting Potは、エージェントを訓練するための21のMARL「基板」(マルチエージェントゲーム)と、これらの訓練されたエージェントを評価するための85以上のユニークなテストシナリオを研究者に提供します。これらのテストシナリオでのエージェントのパフォーマンスは、エージェントが以下のような社会的状況でうまく機能するかどうかを定量化します:

  • 個々の相互依存する社会的状況で優れたパフォーマンスを発揮する
  • 訓練中に見たことのない未知の個人と効果的に相互作用する
  • 普遍化テストに合格する:「皆がそう行動したらどうなるだろうか?」という問いに肯定的に答える

その結果得られるスコアは、異なるマルチエージェント強化学習アルゴリズムを新しい社会的状況への一般化能力に基づいてランク付けするために使用できます。

Melting Potがマルチエージェント強化学習の標準ベンチマークとなることを願っています。私たちはそれを維持し、今後数年間でさらに多くの社会的相互作用と一般化シナリオをカバーするために拡張する予定です。

GitHubのページから詳細を学ぶ。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AI医療診断はどのように動作しますか?

医療分野では、人工知能(AI)が診断や治療計画においてますます頻繁に使用されるようになっています。近年、AIと機械学習は...

人工知能

「信じられないほどの新しい中間補間機能(領域の変化)」

「この機能により、グラフィックデザインの経験がないがグラフィックを作成したいという人にとって、Midjourneyは100倍も価値...

機械学習

大規模言語モデルの探索-パート2

この記事は主に自己学習のために書かれていますそのため、幅広く深く進んでいます興味のあるセクションをスキップしたり、自...

機械学習

量産自動運転におけるBEVパーセプション

BEVの認識技術は、ここ数年で非常に進歩しました自動運転車の周りの環境を直接認識することができますBEVの認識技術はエンド...

AI研究

この中国のAI研究は、マルチモーダルな大規模言語モデル(MLLMs)の幻覚を修正するために設計された革新的な人工知能フレームワークである「ウッドペッカー」を紹介します

中国の研究者たちは、マルチモーダルな大規模言語モデル(MLLM)における幻覚の問題に対処するために、Woodpeckerという新し...

機械学習

AutoML - 機械学習モデルを構築するための No Code ソリューション

はじめに AutoMLは自動機械学習としても知られています。2018年、GoogleはクラウドAutoMLを発表し、大きな関心を集め、機械学...