Q学習
Q-Learning

減衰係数と累積報酬: 制御ポリシー学習では，学習エージェントが累積報酬 V^π(s_t)を最大化するようにすること．; ただし 0 ≦ γ ＜ 1 で，これを減衰係数とよぶ(累積報酬を有限の値にするための工夫)．
累積報酬の最大化と最適な行為: 状態 s における最適な行為a は，状態 s における累積報酬を最大化する．; つまり以下の二つの報酬から得られる和 r(s,a) + γV^*(δ (s,a))を最大化する．; しかし，学習する前のエージェントは V^π，r(s,a), δ(s,a) などの関数を知らないことが仮定されている．; そこで，新しい量として以下のQ値を導入し，エージェントが行動することによって，環境から少しずつ与えられるr(s,a) と δ(s,a) に関する情報を使い，Q値の関数近似を少しずつ形成できるようにする．; 定義より V^*(δ(s,a)) = max_a'Q(δ(s,a), a') であるから，Q値に関する以下の再帰的な定義式を得る．; Q学習アルゴリズム(以下参照)では，この式を使って観測された(s,a)に対してQ(s,a)の値を繰り返し計算により逐次近似していく．
収束定理: [定理] Q学習の収束; 有界の報酬をもつ決定論的MDPにおけるQ学習アルゴリズムが，以下の条件を満たすとする．; n → ∞のとき，すべての s, a, に対してQ_n'(s,a) → Q(s,a)である．ただし，Q_n'(s,a) は Q'(s,a) のn番目の更新である．

...Return

講義の詳細

Q学習 Q-Learning

減衰係数と累積報酬

累積報酬の最大化と最適な行為

収束定理

...Return

Q学習
Q-Learning