『BOSSと出会ってください:新しい環境で新しい課題を解決するためにエージェントをトレーニングする強化学習(RL)フレームワーク、LLMガイダンス』

「新しい環境で新たな課題を解決するため、エージェントをトレーニングする強化学習(RL)フレームワーク『LLMガイダンス』をBOSSと出会ってください」

BOSS(Bootstrapping your own SkillS)をご紹介します。これは、大規模な言語モデルを活用して多様なスキルライブラリを自律的に構築し、複雑なタスクを最小限のガイダンスで解決する画期的な手法です。従来の非教示スキル習得技術や単純なブートストラップ手法と比較して、BOSSは未知の環境での見慣れないタスクの実行において優れた性能を発揮します。このイノベーションは自律的なスキル習得と応用における重要な進歩を示しています。

強化学習は、マルコフ決定過程において期待値の最大化を目指すためのポリシーの最適化を目指します。従来の研究では複雑なタスクのために事前学習された再利用可能なスキルが強化学習でパラメータ化されました。非教示強化学習は、好奇心、制御可能性、多様性を重視し、人間の介入なしにスキルを学習しました。言語はスキルのパラメータ化とオープンループの計画に使用されました。BOSSは大規模な言語モデルと共にスキルレパートリーを拡張し、探索をガイドし、スキルチェーンの完遂を報酬として与えることにより、長期的なタスクの実行においてより高い成功率を実現します。

従来のロボット学習は、監督が非常に重要ですが、人間は独自に複雑なタスクを学習することに優れています。研究者はBOSSをフレームワークとして導入し、最小限の人間介入で多様な長期的なスキルを自律的に習得するために使用しました。スキルのブートストラップによってガイドされ、大規模な言語モデル(LLM)の支援を受けて、BOSSは複雑なタスクを処理するためのスキルを進行的に構築し組み合わせます。非教示的な環境の相互作用により、新しい環境での困難なタスクの解決におけるポリシーの堅牢性が向上します。

BOSSは2つのフェーズからなるフレームワークを導入しています。第1フェーズでは、非教示強化学習の目標を使用して基礎的なスキルセットを習得します。第2フェーズでは、スキルチェーンのガイドとスキルの完了に基づく報酬によってスキルのブートストラップが行われます。このアプローチにより、エージェントは基本的なスキルから複雑な行動を構築することができます。家庭環境での実験では、LLMによるガイド付きブートストラッピングが、単純なブートストラッピングや従来の非教示的な方法よりも、新しい設定での見慣れない長期的なタスクの実行において優れた性能を発揮することが示されています。

実験の結果は、LLMによるガイド付きのBOSSは、新しい設定での拡張された家庭のタスクの解決において優れた性能を発揮し、従来のLLMベースの計画と非教示的な探索方法を上回ります。結果は、ALFRED評価におけるタスクの長さの異なるオラクル正規化されたリターンとオラクル正規化された成功率の四分位平均と標準偏差を示しています。LLMによるガイド付きのBOSSによるブートストラップトレーニングされたエージェントは、単純なブートストラッピングや以前の非教示的な方法を上回ります。BOSSは、基本的なスキルから多様な複雑な行動を自律的に習得することができ、エキスパートでないロボットのスキル習得の可能性を示しています。

LLMによってガイドされたBOSSフレームワークは、エキスパートのガイダンスなしで複雑なタスクを自律的に解決することに優れています。新しい環境で見慣れない機能を実行する際には、LLMによるガイド付きのブートストラッピングトレーニングされたエージェントが、単純なブートストラッピングや以前の非教示的な方法を上回ります。現実的な家庭での実験により、BOSSは基本的なスキルから多様な複雑な行動を習得する能力を示し、自律型ロボットスキル習得の可能性を強調しています。BOSSはまた、強化学習と自然言語理解を結びつける新たな可能性を示しており、ガイド付き学習のために事前学習された言語モデルを利用しています。

今後の研究の方向性には以下のものが含まれます:

  • 自律スキル学習のためのリセットフリー強化学習の調査。
  • BOSSのスキルチェーンアプローチによる長期的なタスクの分解の提案。
  • 低レベルなスキル習得のための非教示強化学習の拡張。

強化学習と自然言語理解の統合をBOSSフレームワークでさらに強化することも有望なアプローチです。BOSSをさまざまなドメインに適用し、さまざまな環境やタスクコンテキストでのパフォーマンスを評価することにより、さらなる探求の可能性を提供します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「AIとMLが高い需要になる10の理由」 1. ビッグデータの増加による需要の増加:ビッグデータの処理と分析にはAIとMLが必要です 2. 自動化の需要の増加:AIとMLは、自動化されたプロセスとタスクの実行に不可欠です 3. 予測能力の向上:AIとMLは、予測分析において非常に効果的です 4. パーソナライズされたエクスペリエンスの需要:AIとMLは、ユーザーの行動と嗜好を理解し、パーソナライズされたエクスペリエンスを提供するのに役立ちます 5. 自動運転技術の需要の増加:自動運転技術の発展にはAIとMLが不可欠です 6. セキュリティの需要の増加:AIとMLは、セキュリティ分野で新たな挑戦に対処するために使用されます 7. ヘルスケアの需要の増加:AIとMLは、病気の早期検出や治療計画の最適化など、医療分野で重要な役割を果たします 8. クラウドコンピューティングの需要の増加:AIとMLは、クラウドコンピューティングのパフォーマンスと効率を向上させるのに役立ちます 9. ロボティクスの需要の増加:AIとMLは、ロボットの自律性と学習能力を高めるのに使用されます 10. インターネットオブシングス(IoT)の需要の増加:AIとMLは、IoTデバイスのデータ分析と制御に重要な役割を果たします

「2024年におけるAIとMLの需要急増を促している10の主要な要因を発見し、さまざまな産業で探求しましょう技術の未来を探索し...

機械学習

ウェイト、バイアス、ロスのアンボクシング:ディープラーニングに集中する

ディープラーニングは、大量のデータを自動的に利用して、コンピュータが人間と同様に学ぶために層状のニューラルネットワー...

AIニュース

「Nvidiaの画期的なAIイメージパーソナライゼーション:灌流法」

AIアート作成の絶えず進化する世界において、NvidiaはPerfusionと呼ばれる革命的なテキストから画像への個人化手法を発表しま...

機械学習

FlashAttentionアルゴリズムの深い探求-パート3

私たちのFlash Attentionシリーズの第3部へようこそ!このセグメントでは、FlashAttention V1アルゴリズムの内部機能について...

AIニュース

FitBot — フィットネスチャットボットエージェント

健康意識が最前線にあり、バランスの取れたライフスタイルの追求が普遍的な願望となっている時代において、栄養は間違いなく...

人工知能

「デジタル時代のユーザーセントリックデザイン:ウェブデザインとUI/UX体験に影響を与えるトレンド」

ユーザー体験に重点を置くウェブデザインの最新トレンドを紹介しましょうダークモードの普及から3D要素の統合まで、魅力的な...