マルコフ意志決定過程
Markov Decision Process (MDP)

MDPとは?: アクセス可能で不確実な環境において，状態遷移モデルが既知のときに最適戦略(方策)を計算する問題．
強化学習の環境: MDP では以下が規定されている．
状態，行為，報酬の規定: 表記および定義; 関数δとrは環境の一部と考え，必ずしもエージェントに知られていないと仮定．; δ(s_t, a_t) とr(s_t, a_t)は現在の状態 (s_t)と現在の行為(a_t) に依存し，それ以前の状態や行為には依存しないと仮定．
MDPの例とエージェントのタスク: エージェントのタスク: この世界で報酬を最大化する行動系列 (現在の観察された状態 s_tに基づいて行為 a_tを決めるための制御ポリシーπ(s_t) = a_t を学習すること．

...Return

講義の詳細