ロボットの犬がMJスタイルでムーンウォークをする:このAI研究は、コードで表現された報酬を、LLMと最適化ベースのモーションコントローラーの間の柔軟なインターフェースとして使用することを提案しています

This AI research proposes using rewards expressed in code as a flexible interface between LLM and an optimization-based motion controller, allowing a robotic dog to perform the moonwalk in MJ style.

人工知能産業は近年世界を席巻しています。新しい研究やモデルがほぼ毎日リリースされ、AIは進化し、より良くなっています。医療分野、教育、マーケティング、ビジネス分野を考慮しても、人工知能と機械学習のプラクティスが産業の運営方法を変え始めています。大規模言語モデル(LLMs)の導入は、ほぼすべての組織に採用されています。GPT-3.5やGPT-4などの有名なLLMは、新しい文脈に対して驚異的な適応性を示し、最小限のハンドクラフトされたサンプルで論理的推論やコード生成などのタスクを可能にしています。

研究者たちは、LLMをロボット制御の改善に活用することも考えています。低レベルのロボット操作はハードウェアに依存しており、LLMトレーニングデータに頻繁に未表示のため、ロボティクスにLLMを適用することは困難です。以前のアプローチでは、LLMを意味論的プランナーとして見なすか、人間が作成した制御プリミティブに依存してロボットと通信する必要がありました。すべての課題に対処するため、Google DeepMindの研究者たちは、報酬関数の適応性と最適化のポテンシャルを活用して、様々なロボット活動を実行する新しいパラダイムを導入しました。

報酬関数は、LLMが定義した中間インターフェースとして機能し、後でロボット制御戦略を指示するために最適化されることができます。これらの関数は、高レベルの言語コマンドまたは訂正を低レベルのロボットの動作に効率的に接続できるため、LLMによって仕様が可能です。チームは、報酬関数を言語と低レベルのロボットアクションのインタフェースとして使用することにより、人間の言語指示がしばしば特定の低レベルのアクションではなく行動結果を記述することが観察されたことから、より高い抽象度で操作することができると述べています。指示を報酬に接続することにより、望ましい結果に関連する深い意味が報酬に捉えられるため、言語とロボットの行動のギャップを埋めるのが容易になります。

このパラダイムには、インタラクティブな行動開発を可能にするMuJoCo MPC(モデル予測制御)リアルタイム最適化器が使用されています。ユーザーが即座に結果を観察し、システムに入力を提供できるため、反復改善プロセスが改善されました。評価プロセスについては、研究者のチームが、シミュレートされた四足ロボットと器用なマニピュレータロボットの両方に対して17のタスクセットを設計しました。この方法は、設計されたタスクの90%を信頼性の高いパフォーマンスで達成できました。一方、Code-as-policiesをインターフェースとして使用するベースライン戦略は、タスクの50%しか完了できませんでした。実際のロボットアームに対する実験も行われ、インタラクティブシステムは、非把持性プッシングなどの複雑な操作スキルを示しました。

結論として、このアプローチは、LLMを報酬パラメータを定義し、ロボット制御のために最適化するために活用することができる有望な手段です。LLM生成の報酬とリアルタイム最適化技術の組み合わせは、反応性とフィードバック駆動の行動作成プロセスを示し、ユーザーがより効率的かつ効果的に複雑なロボット行動を達成することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

GPTと人間の心理学

GPTと人間の心理学との類推を行うことで、私たちは生成型AIの出力を促進する方法を理解することができます

AI研究

このAI研究レビューでは、衛星画像とディープラーニングの統合による資産ベースの貧困の測定について探求しています

ルンド大学とハルムスタッド大学の研究者は、衛星画像と深層機械学習による貧困推定の説明可能なAIに関するレビューを実施し...

データサイエンス

一度言えば十分です!単語の繰り返しはAIの向上に役立ちません

大規模言語モデル(LLM)はその能力を示し、世界中で話題になっています今や、すべての大手企業は洒落た名前を持つモデルを持...

機械学習

「インドにおけるAI規制のためのPMモディのビジョン:B20サミット2023」

2023年、B20サミットインドがデリーで終了するにつれ、ナレンドラ・モディ首相の言葉の響きは続きました。ビジネスリーダーた...

機械学習

ディープラーニングによる触媒性能の秘密の解明:異種触媒の高精度スクリーニングのための「グローバル+ローカル」畳み込みニューラルネットワークのディープダイブ

触媒の表面の形状が、触媒のさまざまな特性によって特定の化学反応に影響を与えるため、私たちは表面化学でこれらの効果を研...

AI研究

NVIDIAとテルアビブ大学の研究者が、効率的な訓練時間を持つコンパクトな100 KBのニューラルネットワーク「Perfusion」を紹介しました

テキストから画像への変換(T2I)モデルは、自然言語の入力を通じて創造プロセスを指示する力をユーザーに与えることで、技術...