モンテカルロ法

モンテカルロ法

ベビーロボットの強化学習ガイド

強化学習入門:パート4

All images by author

はじめに

今度はまたカジノへ行きますが、今回は太陽の光が差し込むモンテカルロに位置しています。このモンテカルロは、クラシック映画「マダガスカル3: ウォーターフォールを探せ!」で有名になりました(もともと有名だった可能性もありますが)。

前回のカジノ訪問では、マルチアームバンディットを見て、多くの可能な行動があるときに最適な行動を選ぶ問題を視覚化しました。

強化学習の観点では、バンディット問題は単一の状態を表し、その状態内で利用可能な行動を表しています。モンテカルロ法は、このアイデアを複数の相互関連する状態に拡張します。

また、以前の問題では常に環境の完全なモデルが与えられていました。このモデルは、次の状態に移る確率を示す遷移確率と、この遷移に対して受け取る報酬を定義します。

モンテカルロ法では、そうではありません。モデルは与えられず、代わりにエージェントは探索を通じて環境の特性を発見し、次々に状態を移動しながら情報を収集しなければなりません。言い換えれば、モンテカルロ法は経験から学習します。

本記事の例では、カスタムのベビーロボットジム環境を使用し、関連するすべてのコードはGithubで見つけることができます。

さらに、この記事の対話形式のバージョンは、実際に以下で説明されているすべてのコードスニペットを実行できるノートブック形式で利用できます。

このシリーズの以前の記事はこちらでご覧いただけます:ベビーロボットの強化学習ガイド。

また、この記事で使用される理論と用語の要点については、5分での状態価値と方策評価をご確認ください。

モンテカルロ予測

予測問題では、環境の特定の状態にいることの良さを見つけたいと考えています。この「良さ」は、状態によって表されます…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ディープAIの共同創業者兼CEO、ケビン・バラゴナ氏- インタビューシリーズ

ディープAIの創設者であるケビン・バラゴナは、10年以上の経験を持つプロのソフトウェアエンジニア兼製品開発者です彼の目標...

人工知能

ギル・ジェロン、Orca SecurityのCEO&共同創設者-インタビューシリーズ

ギル・ゲロンは、オルカ・セキュリティのCEO兼共同設立者ですギルは20年以上にわたりサイバーセキュリティ製品をリードし、提...

人工知能

ジョシュ・フィースト、CogitoのCEO兼共同創業者 - インタビューシリーズ

ジョシュ・フィーストは、CogitoのCEO兼共同創業者であり、感情と会話AIを組み合わせた革新的なプラットフォームを提供するエ...

人工知能

「ジンディのCEO兼共同創設者、セリーナ・リー― インタビューシリーズ」

「Celina Leeは、ZindiのCEO兼共同創設者であり、アフリカのデータサイエンティスト向けの最大の専門ネットワークです Celina...

データサイエンス

「3つの質問:ロボットの認識とマッピングの研磨」

MIT LIDSのLuca CarloneさんとJonathan Howさんは、将来のロボットが環境をどのように知覚し、相互作用するかについて議論し...

データサイエンス

アステラソフトウェアのCOO、ジェイ・ミシュラ - インタビューシリーズ

ジェイ・ミシュラは、急速に成長しているエンタープライズ向けデータソリューションの提供企業であるAstera Softwareの最高執...