強化学習による大規模システムの制御

●学習と並行して,重回帰分析により状態変数の有効な成分を抽出し,主成分分析により状態空間を圧縮する手法を開発した. この手法を強化学習の一手法であるactor-critic手法に適用することにより,環境に関する事前知識を用いることなく高次元非線形システムを制御できることを示した.
・H. Satoh, ``A state space compression method based on multivariate analysis for reinforcement learning in high-dimensional continuous state spaces,'' IEICE Trans. Fundamentals, vol. E89-A, no. 8, pp. 2181--2191, Aug. 2006.

●基底関数の線形結合で表された制御関数の係数の絶対値を基に,学習と並行して基底関数を逐次更新することにより,環境の変化に応じて特徴空間及び制御関数を柔軟に再構築できることを示した.
・H. Satoh, ``Reinforcement learning with orthonormal basis adaptation based on activity-oriented index allocation,'' IEICE Trans. Fundamentals, vol. E91-A, no. 4, pp. 1169-1176, April 2008.

●先に提案した手法をインターネットのルーチングアルゴリズムに適用することにより,安定したルーチング制御を実現した.
・H. Satoh, ``A nonlinear approach to robust routing based on reinforcement learning with state space compression and adaptive basis construction,'' IEICE Trans. Fundamentals, vol. E91-A, no. 7, pp. 1734-1740, July 2008.

佐藤仁樹研究室の研究紹介のページに戻る