モンテカルロ法

モンテカルロ法

ベビーロボットの強化学習ガイド

強化学習入門:パート4

All images by author

はじめに

今度はまたカジノへ行きますが、今回は太陽の光が差し込むモンテカルロに位置しています。このモンテカルロは、クラシック映画「マダガスカル3: ウォーターフォールを探せ!」で有名になりました(もともと有名だった可能性もありますが)。

前回のカジノ訪問では、マルチアームバンディットを見て、多くの可能な行動があるときに最適な行動を選ぶ問題を視覚化しました。

強化学習の観点では、バンディット問題は単一の状態を表し、その状態内で利用可能な行動を表しています。モンテカルロ法は、このアイデアを複数の相互関連する状態に拡張します。

また、以前の問題では常に環境の完全なモデルが与えられていました。このモデルは、次の状態に移る確率を示す遷移確率と、この遷移に対して受け取る報酬を定義します。

モンテカルロ法では、そうではありません。モデルは与えられず、代わりにエージェントは探索を通じて環境の特性を発見し、次々に状態を移動しながら情報を収集しなければなりません。言い換えれば、モンテカルロ法は経験から学習します。

本記事の例では、カスタムのベビーロボットジム環境を使用し、関連するすべてのコードはGithubで見つけることができます。

さらに、この記事の対話形式のバージョンは、実際に以下で説明されているすべてのコードスニペットを実行できるノートブック形式で利用できます。

このシリーズの以前の記事はこちらでご覧いただけます:ベビーロボットの強化学習ガイド。

また、この記事で使用される理論と用語の要点については、5分での状態価値と方策評価をご確認ください。

モンテカルロ予測

予測問題では、環境の特定の状態にいることの良さを見つけたいと考えています。この「良さ」は、状態によって表されます…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ギル・ジェロン、Orca SecurityのCEO&共同創設者-インタビューシリーズ

ギル・ゲロンは、オルカ・セキュリティのCEO兼共同設立者ですギルは20年以上にわたりサイバーセキュリティ製品をリードし、提...

人工知能

ジョナサン・ダムブロット、Cranium AIのCEO兼共同創設者- インタビューシリーズ

ジョナサン・ダムブロットは、Cranium AIのCEO兼共同創業者ですCranium AIは、サイバーセキュリティおよびデータサイエンスチ...

人工知能

「リオール・ハキム、Hour Oneの共同創設者兼CTO - インタビューシリーズ」

「Hour Oneの共同創設者兼最高技術責任者であるリオール・ハキムは、専門的なビデオコミュニケーションのためのバーチャルヒ...

人工知能

「aiOlaのCEO兼共同創設者、アミール・ハラマティによるインタビューシリーズ」

アミール・ハラマティは、aiOlaのCEO兼共同創業者であり、スピーチを作業可能にし、どこでも完全な正確さで業界固有のプロセ...

人工知能

「シフトのCEOであるクリス・ナーゲル – インタビューシリーズ」

クリスはSiftの最高経営責任者です彼は、Ping Identityを含むベンチャー支援および公開SaaS企業のシニアリーダーシップポジシ...

人工知能

「サティスファイラボのCEO兼共同創設者、ドニー・ホワイト- インタビューシリーズ」

2016年に設立されたSatisfi Labsは、会話型AI企業のリーディングカンパニーです早期の成功は、ニューヨーク・メッツ、メイシ...