デューク大学の研究者たちは、ポリシーステッチングを提案していますこれは、ロボットとタスクの新しい組み合わせにおけるロボットの転送学習を容易にする、画期的なAIフレームワークです

「デューク大学の研究チームが提案するポリシーステッチング:ロボットの転送学習を容易にする画期的なAIフレームワーク」

ロボット工学では、環境の変化やロボット構造の変更に敏感なスキルをロボットに教えるために、強化学習(RL)を使用する際に研究者は課題に直面しています。現在の方法は、ロボットとタスクの新しい組み合わせに対して一般化するための支援が必要であり、アーキテクチャの複雑さと強力な正則化のために複雑な現実のタスクを処理することができません。この問題に対処するために、デューク大学と空軍研究所の研究者らはポリシーステッチング(PS)を導入しました。この手法は、別々に訓練されたロボットとタスクモジュールを組み合わせて迅速な適応のための新しいポリシーを作成することを可能にします。3D操作タスクを含むシミュレーションおよび実世界の実験は、PSの非常に優れたゼロショットおよびフューショットの転移学習能力を示しています。

異なる環境条件や新しいタスクに対してロボットポリシーを転送する際には、課題が残っています。これまでの研究は、価値関数、報酬、経験サンプル、ポリシー、パラメータ、および特徴などのRLフレームワーク内の特定のコンポーネント移動に主に集中してきました。メタ学習は、新しいタスクへの迅速な適応を可能にする解決策として登場し、改良されたパラメータの初期化と新しいデータの迅速な統合を提供するためのメモリを拡張したニューラルネットワークを提供します。ゼロショットの転移学習、マルチタスク学習、ライフロングラーニングに適用されるコンポジショナルRLは有望な結果を示しています。このフレームワーク内の訓練済みモジュールは、大規模なモジュラーシステム内での使用に制限されており、新しいモジュールとシームレスに統合することはできません。

ロボットシステムは、過去の知識に基づいて新しいスキルを継続的に習得する人間とは対照的に、学習経験を新しいタスクやボディ構成に転送する際に課題があります。モデルベースのロボット学習は、さまざまなタスクに対してロボットの運動学と動力学の予測モデルを構築することを目指しています。一方、モデルフリーRLはエンドツーエンドでポリシーを訓練しますが、転移学習の性能はしばしば制限されます。現在のマルチタスクRLのアプローチでは、タスクの数に比例してポリシーネットワークの容量が指数関数的に拡大するため、困難に直面します。

PSは、モジュラーポリシーデザインと転送可能な表現を活用して、異なるタスクとロボット構成間での知識転送を容易にします。このフレームワークは、モデルフリーRLアルゴリズムの幅広い適用に適応します。本研究では、教師あり学習からモデルフリーRLへの相対表現の概念を拡張し、中間表現を共通の潜在座標系に整列させることで、変換不変性の促進に焦点を当てています。

PSはゼロショットおよびフューショットの転移学習能力において、既存の方法を上回り、シミュレーションおよび実世界のシナリオで優れた成果を収めています。ゼロショットの転送では、PSは100%の成功率でタッチし、40%の総合成功率を達成し、実用的な実世界の設定で効果的に一般化する能力を示しています。潜在表現の整列により、ステッチポリシー内の高次元の潜在状態間のペアワイズ距離が大幅に縮小されることが示されており、PSの転送可能な表現の学習における成功を裏付けています。実験は、物理的なロボットセットアップ内でのPSの実世界での適用可能性に関する実践的な洞察を提供し、非効果的なPSでのモーバイル表現を提供しています。

結論として、PSはモジュラーポリシーデザインと潜在空間の整列の利点を示しつつ、ロボット学習ポリシーを新しいロボットタスクの組み合わせにシームレスに転送する効果を証明しています。この手法は、特に高次元の状態表現や微調整の必要性に関する現在の制約を克服することを目指しています。研究では、アンカー選択における自己教師付きテクニックを探求し、アンカー状態に頼らないネットワークモジュールの整列方法の代替手段を調査するなど、将来の研究方向を示しています。この研究は、PSの多様な形態を持つロボットプラットフォームへの展開の可能性を強調しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「UCLAの研究者たちは、広帯域の回折光学ニューラルネットワークに基づいて設計されたマルチスペクトルQPIシステムを紹介する」

量子位相イメージング(QPI)は、多くの科学および顕微鏡の分野での最先端のイメージング手法です。透明または半透明の材料を...

機械学習

「FANToMとは:相互作用における機械心理理論のストレステストのためのベンチマーク」

会話型AIでは、心の理論(ToM)を問いに答えることで評価することが重要な基準となっています。しかし、受動的な物語はToMの...

AI研究

MITによる新しい機械学習の研究は、大規模言語モデル(LLM)が空間と時間の概念を理解し表現する方法を示しています

大規模言語モデル(LLMs)は最近、驚くべきスキルを発揮しています。GPTのトランスフォーマーアーキテクチャに基づいて構築さ...

機械学習

Explainable AI(説明可能なAI)とInterpretable AI(解釈可能なAI)の理解

最近の機械学習(ML)の技術革新の結果、MLモデルは人間の労働を不要にするために、さまざまな分野で使用されています。これ...

AIニュース

「Meer Pyrus Base RoboCupサッカーの二次元(2D)シミュレーションのための新しいオープンソースPythonベースのプラットフォーム」

ロボット工学は、完全に電子工学とコンピュータサイエンスエンジニアリングの分野に専念している分野で、現在は人工知能と接...

機械学習

T5 テキストからテキストへのトランスフォーマー(パート2)

BERT [5] の提案により、自然言語処理(NLP)のための転移学習手法の普及がもたらされましたインターネット上での未ラベル化...