イギリスのインペリアル・カレッジ・ロンドンとディープマインドの研究者たちは、AIフレームワークを設計しましたこのフレームワークは、言語をRLエージェントの中核的な推論ツールとして使用します

イギリスのインペリアル・カレッジ・ロンドンとディープマインドの研究者は、言語をRLエージェントの推論ツールとして使用するAIフレームワークを設計しました

近年、深層学習の分野で重要な進展があり、特に自然言語処理(NLP)、自然言語理解(NLU)、コンピュータビジョン(CV)などの人工知能の人気のあるサブフィールドで顕著な成果が出ています。大規模言語モデル(LLM)はNLPのフレームワークで作成され、人間の才能と同等の優れた言語処理能力やテキスト生成能力を示しています。一方、CVのVision Transformers(ViTs)は明示的なガイドなしに、写真や動画から意味のある表現を学習することができました。また、Vision-linguistic Models(VLMs)も開発されており、視覚的な入力と言語的な記述を結びつけることができます。

様々な入力モダリティを含む幅広い下流アプリケーションの基礎モデルは、大量のテキストデータとビジュアルデータで事前学習されており、常識的な推論、サブゴールの提案と順序付け、視覚的理解などの重要な属性が生まれています。Foundation Modelsの能力を活用してより効果的で包括的な強化学習(RL)エージェントを作成する可能性は、研究者の研究対象です。RLエージェントは、周囲との相互作用やフィードバックとしての報酬を通じて知識を獲得することが多いですが、試行錯誤による学習は時間がかかり、実用的ではありません。

この制約に対処するため、研究者のチームは、特にゼロから学習が必要なシナリオで、言語を強化学習ロボットエージェントの中核に据えるフレームワークを提案しました。彼らの研究の主な貢献は、Foundation Modelsに保持された知識を活用することにより、特に4つのRL設定でいくつかの基本的な問題に効果的に対処できることを示すことです。

  1. 報酬が少ない設定での効率的な探索:報酬が少ない設定を探索することはRLエージェントにとって困難であり、最適な振る舞いを学習することが頻繁に難しいです。提案されたアプローチは、Foundation Modelsに保持された知識を活用することで、これらのコンテキストでの探索と学習をより効果的に行うことができます。
  1. 過去に収集したデータの再利用による連続学習:このフレームワークにより、RLエージェントは新しいタスクに取り組む際に毎回ゼロから始めるのではなく、以前に収集したデータを基に学習を進めることができ、新しいタスクの連続学習を支援します。
  1. 新しいタスクのための学習済みの能力のスケジューリング:このフレームワークは、学習済みの能力のスケジューリングをサポートし、エージェントが現在の知識を効率的に活用して新しいタスクに対処できるようにします。
  1. エキスパートエージェントの観察からの学習:Foundation Modelsを使用してエキスパートエージェントの観察から学習することで、学習プロセスをより効率的かつ迅速に行うことができます。

研究チームは、主な貢献を以下のようにまとめています:

  1. このフレームワークは、言語モデルとビジョン言語モデルを基礎的な推論ツールとして使用することで、RLエージェントがテキスト情報に基づいてより効果的に推論と判断を行う能力を向上させます。この方法により、エージェントの困難なタスクと状況への理解力が向上します。
  1. 提案されたフレームワークは、過去には異なる特別に作成されたアルゴリズムが必要だった基本的なRLの問題を効率的に解決する効果を示します。
  1. この新しいフレームワークは、報酬が少ないロボット操作の設定で従来のベースライン技術を上回る性能を発揮します。
  2. このフレームワークは、以前に教えられたスキルを効率的に使用してタスクを完了することができます。学習済みの情報を新しい状況に転送する能力により、RLエージェントの一般化と適応性が向上します。
  1. このフレームワークは、人間の専門家の映像を模倣することによってRLエージェントが観察から正確に学習できることを示します。

まとめると、この研究は、言語モデルとビジョン言語モデルが強化学習エージェントの推論の中核として機能する能力を持っていることを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

芝浦工業大学の研究者たちは、深層学習を用いて顔方向検出を革新します:隠れた顔の特徴や広がる画角の課題に挑戦しています

コンピュータビジョンと人間との相互作用において、顔の向き推定という重要なタスクは、多様な応用を持つ重要な要素として浮...

機械学習

フィールドからフォークへ:スタートアップが食品業界にAIのスモーガスボードを提供

それは魔法のように機能しました。データセンターで実行されているコンピュータービジョンアルゴリズムが、インドの遠い小麦...

人工知能

「ChatGPTは、ソフトウェアエンジニアリングの質問の半分以上に対して誤った回答をします」

ChatGPTは、パデュー大学の研究者による調査によれば、517件のStack Overflowの質問のうち52%を誤って回答し、回答の77%が不...

機械学習

画像処理におけるノイズとは何ですか? - 簡易解説

「画像処理におけるノイズの種類、原因、モデル、および応用を探究してください」

コンピュータサイエンス

シリコンバレー、『シンギュラリティ』が現実になっているという考えに直面する

人工知能に対する熱狂が、技術が暴走する長年待ち望まれた瞬間を迎える可能性があるあるいは、それは誇大広告が制御を失って...