強化学習
Reinforcement Learning

情報が少ない環境とは?: このような環境における学習ではフィードバックを得ることが重要
(例)
ゲームに勝つ，もしくは，負ける．
勝敗の結果を報酬 (reward) もしくは強化 (refinforcement)とみなす．
強化学習のタスク: 学習主体の行為を成功に導く関数を学習するために報酬を用いる．; ただし各報酬がどの行為に依存するのかは教えない．
学習の枠組み: 環境中の学習主体(エージェント)は状況を知覚する．; それらを正負の効用値に写像する．; どの行為をとるかを決定する．
二つの基本設計方針

...Return

講義の詳細