UC San Diegoの研究者がTD-MPC2を発表:多様な領域でのモデルベースの強化学習の革命化

「UCサンディエゴの研究者がTD-MPC2を発表:多様な領域でのモデルベースの強化学習が革命を起こす」

大きな言語モデル(LLM)は、人工知能と機械学習の進歩のおかげで絶えず改善されています。 LLMは、自然言語処理、自然言語理解、自然言語生成、コンピュータビジョンなどのAIのサブフィールドで大きな進展を遂げています。これらのモデルは、大規模なインターネットスケールのデータセットでトレーニングされ、さまざまな言語とビジュアルのタスクを処理できるジェネラリストモデルを開発します。大規模なデータセットとデータとモデルのサイズに効果的にスケーリングできる綿密に考えられたアーキテクチャの存在が成長の要因とされています。

最近では、LLMはロボティクスにも成功裏に応用されています。ただし、広範な未整理のデータセットから多くの制御タスクを低レベルアクションで学習するジェネラリストエンボディドエージェントはまだ実現していません。ジェネラリストエンボディドエージェントに対する現在のアプローチは2つの主要な障害に直面しています。

  1. 近接専門家軌道の仮定:利用可能なデータ量の制約により、多くの既存の行動クローニングの手法では近接専門家軌道に頼っています。これは、エージェントが異なるタスクに対して柔軟性が低くなることを意味し、専門家のような高品質なデモから学習する必要があります。
  1. 拡張コントロール方法のスケーラビリティの欠如:数多くのスケーラブルな連続制御方法は、大規模で整理されていないデータセットを効果的に処理できません。既存の強化学習(RL)アルゴリズムの多くは、タスク固有のハイパーパラメータに依存し、単一のタスク学習に最適化されています。

これらの課題への解決策として、研究チームは最近、モデルベースのRLアルゴリズムのTD-MPC(Trajectory Distribution Model Predictive Control)ファミリーの拡張であるTD-MPC2を紹介しました。さまざまなタスクドメイン、エンボディメント、アクションスペースにわたる大規模な未整理のデータセットを使用してTD-MPC2をトレーニングし、ジェネラリストワールドモデルの構築に役立つシステムを作成しました。その主要な特徴の1つは、ハイパーパラメータの調整が必要ないことです。

TD-MPC2の主な要素は次のとおりです。

  1. 潜在空間でのローカル軌道最適化:デコーダーの必要がないため、TD-MPC2はトレーニング済みの暗黙のワールドモデルの潜在空間でローカル軌道最適化を行います。
  1. アルゴリズムの頑健性:重要な設計決定を再び確認することで、アルゴリズムはより強固になります。
  1. 多様なエンボディメントとアクションスペースのアーキテクチャ:事前のドメインエキスパートの要件を必要とせず、アーキテクチャは複数のエンボディメントとアクションスペースをサポートするように慎重に作成されています。

研究チームは、評価の結果、TD-MPC2が現在使用されているさまざまな連続制御タスクに対してモデルベースとモデルフリーのアプローチよりも優れたパフォーマンスを実現していることを示しました。特にピックアンドプレースや移動タスクなどの難しいサブセットでは特に優れた結果を示します。エージェントの増加した能力は、モデルとデータのサイズが増えるにつれてスケーラビリティを示しています。

研究チームは、TD-MPC2のいくつかの注目すべき特徴を以下にまとめています。

  1. パフォーマンスの向上:さまざまなRLタスクで使用すると、TD-MPC2はベースラインのアルゴリズムよりも改善を提供します。
  1. 単一のハイパーパラメータとの一貫性:TD-MPC2の主な利点の1つは、単一のハイパーパラメータで信頼性のある印象的な結果を生み出す能力です。これにより、チューニング手順が簡素化され、さまざまなジョブに適用されやすくなります。
  1. スケーラビリティ:モデルとデータのサイズが増えるにつれてエージェントの能力が増す。このスケーラビリティは、より複雑なジョブの管理およびさまざまな状況への適応に重要です。

研究チームは、317百万のパラメータを持つ単一のエージェントをトレーニングして80のタスクを達成し、TD-MPC2のスケーラビリティと効果を示しました。これらのタスクでは、複数のエンボディメント(エージェントの物理的な形態)および複数のタスクドメインにわたるアクションスペースが必要です。これは、TD-MPC2の柔軟性と強力さを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

再帰型ニューラルネットワークの基礎からの説明と視覚化

再帰型ニューラルネットワーク(RNN)は、順次操作が可能なニューラルネットワークです数年前ほど人気はありませんが、重要な発...

機械学習

メタの戦略的な優れた点:Llama 2は彼らの新しいソーシャルグラフかもしれません

テック業界の注目を集めている動きとして、Metaは最近、無料でオープンソースの大規模言語モデル(LLM)の第2版であるLlama 2...

機械学習

「SUSTech VIP研究室が、高性能なインタラクティブトラッキングとセグメンテーションを実現するトラックアニシングモデル(TAM)を提案する」

ビデオアイテムトラッキング(VOT)は、制約のない状況で未知のアイテムを追跡する重要性により、コンピュータビジョン研究の...

機械学習

「T2I-Adapter-SDXL:小型で効率的な制御モデルに出会ってください」

T2I-アダプタは、完全な再学習を必要とせずにテキストから画像へのモデルを強化するプラグアンドプレイツールであり、Control...

機械学習

ウェイモのMotionLMを紹介します:最新型のマルチエージェントモーション予測アプローチで、大規模言語モデル(LLM)が自動車の運転をサポートできるようにする可能性のあるものです

オートリグレッション言語モデルは、あらかじめ定義された文法や構文解析の概念を必要とせずに、文章内の次のサブワードを予...