UCバークレーの研究者たちは、ビデオ予測報酬(VIPER)というアルゴリズムを紹介しましたこれは、強化学習のためのアクションフリーの報酬信号として事前学習されたビデオ予測モデルを活用しています

UCバークレーの研究者は、強化学習のためのアクションフリーの報酬信号として事前学習されたビデオ予測モデルを活用するアルゴリズム「VIPER」を紹介しました

手作業で報酬関数を設計することは時間がかかり、予期しない結果をもたらす可能性があります。これは、強化学習(RL)ベースの汎用意思決定エージェントの開発における主要な障害です。

従来のビデオベースの学習方法では、現在の観測値がエキスパートのものに最も似ているエージェントを報酬することができます。ただし、報酬は現在の観測値にのみ依存するため、時間を通じた意味のある活動を捉えることはできません。また、敵対的なトレーニング技術によるモードの崩壊により、一般化が妨げられます。

UCバークレーの研究者は、ビデオ予測モデルからインセンティブを抽出するための新しい方法、ビデオ予測インセンティブ強化学習(VIPER)を開発しました。VIPERは、生の映画から報酬関数を学習し、未学習のドメインにも一般化することができます。

まず、VIPERはエキスパートによって生成された映画を使用して予測モデルを訓練します。次に、ビデオ予測モデルを使用して強化学習のエージェントを訓練し、エージェントの軌跡の対数尤度を最適化します。エージェントの軌跡の分布は、ビデオモデルの分布と一致するように最小化する必要があります。ビデオモデルの尤度を直接報酬信号として使用することで、エージェントはビデオモデルと似た軌跡分布をたどるように訓練されることがあります。観測レベルの報酬とは異なり、ビデオモデルによって提供される報酬は行動の時間的一貫性を定量化します。また、尤度の評価はビデオモデルのロールアウトよりもはるかに高速であるため、より迅速なトレーニング時間枠と環境とのより大きな相互作用を可能にします。

15のDMCタスク、6のRLBenchタスク、7のAtariタスクを対象に、チームは徹底的な研究を行い、VIPERがタスクの報酬を使用せずにエキスパートレベルの制御を達成できることを示しています。調査結果によると、VIPERで訓練されたRLエージェントは、敵対的な模倣学習を上回ります。VIPERは設定に統合されているため、どのRLエージェントが使用されているかは関係ありません。ビデオモデルは、トレーニング中に遭遇しなかった腕/タスクの組み合わせにすでに一般化されています。

研究者たちは、大規模な事前学習済み条件付きビデオモデルを使用することで、より柔軟な報酬関数が可能になると考えています。生成モデリングの最近のブレークスルーのおかげで、彼らの研究は未ラベルの映画からのスケーラブルな報酬指定のためのコミュニティに基盤を提供していると信じています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「MITの学者たちは、生成型AIの社会的な影響を探るためのシードグラントを授与されました」

「MITの全学派を代表する27人のファイナリストは、技術の民主主義、教育、持続可能性、コミュニケーションなどへの影響を探求...

AIニュース

DeepMindのロボキャットに会ってください:複数のロボットを操作するために設計された新しいAIモデル

ロボットは急速にメインストリーム文化に入りつつありますが、彼らは通常、彼らのプログラミングのために彼らの能力が制限さ...

機械学習

「トランスフォーマーブロックは、効率を損なうことなく簡素化することはできるのか? このAIの研究論文は、設計の複雑さと性能のバランスを探求しますETHチューリッヒ大学の論文」

ETHチューリッヒの研究者が、ディープトランスフォーマーの設計における単純化を探求し、より堅牢で効率的なものにすることを...

データサイエンス

A12研究者は、人工衛星画像から生成された世界の地理空間データを探索するための新しいAIプラットフォーム「Satlas」を紹介しました

タイムリーかつ正確な地理空間データが多くのグローバルな課題に対処するために不可欠である世界において、包括的かつ最新の...

AI研究

「MITの研究者が、おそらくほぼ正確な(PAC)プライバシーによる機械学習モデルのプライバシー保護において、ブレークスルーを達成」

MITの研究者たちは、機械学習モデル内にエンコードされた機微なデータを保護するという課題について、大きな進歩を遂げました...

AIニュース

フェイブルスタジオは、TV番組の完全に新しいエピソードを書き、制作し、監督し、アニメーション化し、さらには声を担当できるAIプラットフォームであるSHOW-1をリリースしました

自分が実生活で演技をしたことがなくても、お気に入りの番組で自分自身を見ることができることを想像できますか?また、始ま...