強化学習
Reinforcement Learning
- 情報が少ない環境とは?
- 例題が与えられない
- 環境のモデルがない
- 効用関数をもたない
- このような環境における学習ではフィードバックを得ることが重要
(例)
ゲームに勝つ,もしくは,負ける.
勝敗の結果を報酬 (reward) もしくは強化 (refinforcement)とみなす.
- 強化学習のタスク
- 学習主体の行為を成功に導く関数を学習するために報酬を用いる.
- ただし各報酬がどの行為に依存するのかは教えない.
- 学習の枠組み
- 環境中の学習主体(エージェント)は状況を知覚する.
- それらを正負の効用値に写像する.
- どの行為をとるかを決定する.
- 二つの基本設計方針
- 状態に関する効用関数を学習し,出力の期待効用を最大化する行為の選
択に利用する.
- 行為−価値 (action-value)関数を学ぶ ⇒ Q-
学習
...Return