モンテカルロ法

モンテカルロ法

ベビーロボットの強化学習ガイド

強化学習入門:パート4

All images by author

はじめに

今度はまたカジノへ行きますが、今回は太陽の光が差し込むモンテカルロに位置しています。このモンテカルロは、クラシック映画「マダガスカル3: ウォーターフォールを探せ!」で有名になりました(もともと有名だった可能性もありますが)。

前回のカジノ訪問では、マルチアームバンディットを見て、多くの可能な行動があるときに最適な行動を選ぶ問題を視覚化しました。

強化学習の観点では、バンディット問題は単一の状態を表し、その状態内で利用可能な行動を表しています。モンテカルロ法は、このアイデアを複数の相互関連する状態に拡張します。

また、以前の問題では常に環境の完全なモデルが与えられていました。このモデルは、次の状態に移る確率を示す遷移確率と、この遷移に対して受け取る報酬を定義します。

モンテカルロ法では、そうではありません。モデルは与えられず、代わりにエージェントは探索を通じて環境の特性を発見し、次々に状態を移動しながら情報を収集しなければなりません。言い換えれば、モンテカルロ法は経験から学習します。

本記事の例では、カスタムのベビーロボットジム環境を使用し、関連するすべてのコードはGithubで見つけることができます。

さらに、この記事の対話形式のバージョンは、実際に以下で説明されているすべてのコードスニペットを実行できるノートブック形式で利用できます。

このシリーズの以前の記事はこちらでご覧いただけます:ベビーロボットの強化学習ガイド。

また、この記事で使用される理論と用語の要点については、5分での状態価値と方策評価をご確認ください。

モンテカルロ予測

予測問題では、環境の特定の状態にいることの良さを見つけたいと考えています。この「良さ」は、状態によって表されます…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ジョシュ・フィースト、CogitoのCEO兼共同創業者 - インタビューシリーズ

ジョシュ・フィーストは、CogitoのCEO兼共同創業者であり、感情と会話AIを組み合わせた革新的なプラットフォームを提供するエ...

人工知能

「ジンディのCEO兼共同創設者、セリーナ・リー― インタビューシリーズ」

「Celina Leeは、ZindiのCEO兼共同創設者であり、アフリカのデータサイエンティスト向けの最大の専門ネットワークです Celina...

人工知能

「ナレ・ヴァンダニャン、Ntropyの共同創設者兼CEO- インタビューシリーズ」

Ntropyの共同創設者兼CEOであるナレ・ヴァンダニアンは、開発者が100ミリ秒未満で超人的な精度で金融取引を解析することを可...

データサイエンス

2023年にAmazonのデータサイエンティストになる方法は?

ほとんどのビジネスは現在、膨大な量のデータを生成し、編集し、管理しています。しかし、ほとんどのビジネスは、収集したデ...

人工知能

ベイリー・カクスマー、ウォータールー大学の博士課程候補 - インタビューシリーズ

カツマー・ベイリーは、ウォータールー大学のコンピュータ科学学部の博士課程の候補者であり、アルバータ大学の新入教員です...

人工知能

「LeanTaaSの創設者兼CEO、モハン・ギリダラダスによるインタビューシリーズ」

モーハン・ギリダラダスは、AIを活用したSaaSベースのキャパシティ管理、スタッフ配置、患者フローのソフトウェアを提供する...