強化学習：動的プログラミングとモンテカルロ法—パート2

マルコフ決定過程を解決するための2つのシンプルな反復的手法の紹介

前の記事（パート1）では、マルコフ決定過程（MDP）を強化学習（RL）の問題を解決するパラダイムとして定式化しました。ただし、議論された総合的なフレームワークは、MDPのシステマティックな解決方法について触れていませんでした。行列の逆行列などの線形技術の使用を除外し、MDPを解決するための反復的技術の可能性を簡単に提起しました。MDPのアイデアを再訪するには、以下のPart Iを参照してください：

強化学習：マルコフ決定過程—Part 1

強化学習のバックボーンであるマルコフ決定過程の紹介

pub.towardsai.net

RLに関するこの記事以降では、反復的な手法とMDPの解決策について議論します。具体的には、この記事では、MDPを解決するための2つの反復的手法、ダイナミックプログラミングとモンテカルロ法を紹介します。

1. ダイナミックプログラミング

まず、ダイナミックプログラミングについて説明します。ダイナミックプログラミングは、問題の構造の2つの特性を利用する反復的な解決手法です：

サブ問題が多くの回帰を行うことができる
各回帰での解決策はキャッシュされ再利用できる

したがって、これは特にMDPの問題に適用されます。なぜなら、ベルマン方程式が状態価値関数V(s)の再帰的な分解を与えるからです。以下はV(s)のためのベルマン方程式の再訪です：

ただし、ダイナミックプログラミングの違いは、特定の方策πに対して、ベルマン方程式を使用して時間ステップtの隣接するV(s')を現在の状態V(s)の時間ステップt+1にマッピングしていることです。以下の図は同様の直感を与えます（以下のk変数は反復ステップです）。また、以下の反復は、ダイナミックプログラミングアルゴリズムの各状態で適用されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

強化学習：動的プログラミングとモンテカルロ法—パート2

マルコフ決定過程を解決するための2つのシンプルな反復的手法の紹介

強化学習：マルコフ決定過程—Part 1

強化学習のバックボーンであるマルコフ決定過程の紹介

1. ダイナミックプログラミング

Was this article helpful?

バージニア工科大学とマイクロソフトの研究者がアイデアの探求と推論の能力を高めるAIアプローチ、アルゴリズムオブソウツを紹介

「トップデータプライバシーツール2023」

機械学習

「加速、効率的なAIシステムの新しいクラスがスーパーコンピューティングの次の時代を示す」

「キャリアを将来に備えるための最高の無料AIコース」

新たなディープ強化学習（DRL）フレームワークは、シミュレートされた環境で攻撃者に対応し、サイバー攻撃がエスカレートする前に95％をブロックすることができます

「デリー政府、提案された電子都市にAIハブを建設する計画」

オープンソースのベクトルデータベースChromaDBを使用して、セマンティック検索アプリケーションを構築する

「AIとともに観測性の潜在能力を解き放つ」