CMUの研究者が「WebArena」を導入:有用なエージェントのベンチマーキングを行うための4つ以上の現実的で再現可能なWeb環境となる4つ以上の現実的なWebアプリを備えたもの

CMU researchers introduce WebArena a realistic and reproducible web environment with four or more realistic web apps for benchmarking useful agents.

効率の向上とより広範なアクセシビリティの可能性を考慮すると、人間の自然言語の指示によって通常のタスクを実行できる自律エージェントは、人間のスキルをかなり補完することができます。これらの独立したエージェントの潜在能力を十分に活用するためには、実際的かつ再現可能な環境での彼らの振る舞いを理解することが重要です。

現在の設定は、複雑な問題を過度に簡素化しようとする傾向があります。そのため、多くの環境の特徴は、現実世界の相当するものの水を差したバージョンであり、作業の多様性に不足が生じています。他の場合では、環境は静的なリソースとして提示され、データ収集中にキャッシュされた状態のみを探索するエージェントの能力を制限します。

カーネギーメロン大学とInspired Cognitionによる新しい研究では、特定のタスクを実行するために自律エージェントを訓練するために使用できる再現可能な条件を持つシミュレートされたWeb環境であるWebArenaを紹介しています。この環境は、電子商取引、オンラインディスカッションフォーラム、共同ソフトウェア開発、エンタープライズコンテンツ管理の各分野に対応した4つのライブセルフホストWebアプリで構成されています。WebArenaには、マップ、計算機、メモ帳など、最も人間らしいタスク実行を容易にするためのいくつかの便利なツールも含まれています。最後に、WebArenaは、統合開発環境の使用ガイドや英語版Wikipediaなどのより専門的なサイトなど、豊富な補足資料によってサポートされています。これらのウェブサイトのコンテンツは、オフラインの対応物から直接抽出されているため、正確で最新のものです。gym APIを使用したDockerコンテナがホスティングサービスを提供し、WebArenaは使いやすく再現可能です。

WebArenaに加えて、彼らは812の将来志向のウェブベースのタスクの完全なベンチマークもオープンソース化しています。各アクティビティは、人間が一般的に採用する抽象的な言語使用パターンに基づいてモデル化され、自然言語の目標として説明されます。彼らはこれらの機能がどれだけうまく機能するかを分析することに焦点を当てています。プレーンなアクションのシーケンスを比較するよりも正確であり、十分に複雑なタスクでは同じ目標に対して複数の正当なルートが存在することを考慮できる評価です。

チームは、自然言語のコマンドに対してウェブベースの操作を実行できる多くのエージェントのパフォーマンスを比較するために、この基準を利用しています。これらのエージェントを作成するためには、現在の観測と履歴に基づいて次のステップを予測するエージェントから、ステップバイステップの推論などのより複雑な方法を使用するエージェントまで、さまざまな方法が使用されます。GPT-3.5やGPT-4などの強力な大規模言語モデル(LLM)は、フューショットのインコンテキスト学習アプローチでこれらのエージェントを作成します。その結果、実験では最も優れたGPT-4エージェントでも全体のタスク成功率は10.59%にとどまりました。現在のLLMの欠点として、積極的な探索と失敗の回復などの重要な機能が欠けていることが、複雑なタスクの効果的な完了の原因であると仮説を立てています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

単一モダリティとの友情は終わりました - 今やマルチモダリティが私の親友です:CoDiは、合成可能な拡散による任意から任意への生成を実現できるAIモデルです

ジェネレーティブAIは、今ではほぼ毎日聞く用語です。私はジェネレーティブAIに関する論文をどれだけ読んでまとめたか覚えて...

AI研究

メタAIの研究者がスタイルテーラリングを紹介する:高い視覚的品質を持つ特定のドメインにおいて潜在的な拡散モデル(LDMs)を調整するためのテキストからステッカーのレシピ

GenAI、Metaの研究者チームは、ステッカー画像生成のための潜在拡散モデル(LDM)の微調整方法であるStyle Tailoringを紹介し...

AIニュース

パーソナライズされたA.I.エージェントがここにあります世界は彼らに対して準備ができていますか?

「自律型AIアシスタントの時代は、大きな影響をもたらす可能性があります」

データサイエンス

Transcript AIコンテンツの生成を検出する

「生成AIの進歩に伴う多くの興味深い倫理的問題の1つは、モデルの成果物の検出ですこれは、メディアを消費する私たちにとって...

AI研究

「ユーレカ!NVIDIAの研究によるロボット学習の新たな進展」

ロボットに複雑なスキルを教えることができるNVIDIA Researchによって開発された新しいAIエージェントは、ロボットの手にペン...

機械学習

このAI論文は、「テキストに基づくローカライズされた3Dオブジェクトの編集のための事前学習済みNeRFと編集可能なNeRFを組み合わせたBlending-NeRF」を提案しています

3Dイメージ合成および関連する技術は、絵画、製品デザイン、アニメーションなど、様々な産業に大きな影響を与えています。Neu...