教員紹介 複雑系知能学科
三上 貞芳 (教授)
Sadayoshi Mikami- ■所属学科:
- 複雑系知能学科
- ■専門分野:
機械学習、 machine learning、 人工知能
- ■担当科目:
アルゴリズムとデータ構造,コンピュータグラフィックス,情報アーキテクチャ演習,学習進化システム論(大学院)ほか

プロフィール
私の研究は、レベータ群や信号機など、私たちの身の回りの機械装置が、「タイミングをあわせて」、うまく連携すること「学ばせ」るための方法の開発を目指 しています。その一例として、足
の故障を自動的に補って歩くような6足歩行ロボットの開発、スムーズな交通を自ら学ぶ自律交通信号機群などの研究を行って います。
・最終学歴:北海道大学大学院工学研究科
・学位 :工学博士
・前歴 :北海道大学大学院工学研究科 助教授
・着任時期:2000年4月1日
仕事の紹介
[学習する機械群]
なかなか到着しないエレベータ群、信号機の連携にいらいらすることなど、私たちの身の回りの機械装置がうまく連 携してくれればと思うことは多いですね。
人間なら「呼吸をあわせる」ことや「間合いをつかむ」ことなど、詳細なプラン無しに自然と協調作業は実現できま す。 私の研究は、このような機械同士に「呼吸をあわせる」ことを「学ばせ」る
ことを目的とします。
[機械が「呼吸をつかむ」]
どうするのでしょう。まず、「間合い」や「呼吸」の実態は、目や耳などの観測データで知った、
(1)「他の人(エージェントと呼びます)の振る舞いのリズム」の予測の成功と、
(2)その予測に基づいて、自分の満足を大きくする行動を選択すること、
(3)さらにその行動選択が、他のエージェントのリズムを形成していること、の3ステップからなるのではないかと考えました。
これを工学手法で置き換えていきましょう。まず(1)は<<時系列予測>>の問題です。
リズムの存在を知るということを、工学では<<ダイナミクス>>を知るという言い方をします。道路交通流など、一見複雑に見える 現象も、
実は単純で決定的な仕組み(規則)によって作られていると見ることができるのではないかという考え方があります。カオスという考え方です。この規 則を使って、
いままでの工学的方法では遠い将来にわたっての大まかな挙動しか予測し得なかった現象に対して、近い将来の状態を効果的に予測する手法が開発 されてきました。い
までは電力需要予測などにも利用されています。
これをつかって「間合い」を知るのが、最初のステップです。単純なサイクルで ある場合もありましょうが、より複雑な挙動でも、
何らかの決定的メカニズムで動いているエージェント同士が生成するリズムですから、次元を適当に広げてゆ けば、何らかの規則が浮かび出てくる、そ
れにより予測は可能になるのではないかという立場です。
(2)は<<価値関数の学習>>です。
機械学習と呼ばれている手法、特に強化学習と呼ばれる手法は、機械が試行錯誤を行いながら、経験を蓄積して賢く振舞うようになる手法で、
動物が食べ物を手に入れたり、痛みを受けたりすることで、自ら学習してゆく仕組みを、工学的に模倣したものです。
機械のエージェントにも自分の目標があります。たとえば交通信号機は、自分の管理する交差点で、待ち行列をなしている車両の数をなるべく減らしたいという 目標、
また、虫に似せた多足歩行ロボットなどでは、ロボットが転倒せずに、早く前に進みたいという目標です。この目標を<<価値関数 >>といいます。
もちろんエージェントにはセンサがあり、信号機では車両センサ、多足ロボットでは転倒センサと前進センサを使って、どの状態でどう行動すべきかを判断します。
強化学習は試行錯誤をうまく使って、価値関数を最大化する動かし方を学習させる方法です。これは複雑でモデルが立てられないような環境を扱う方法として有力なものです。本題からずれますが、こ
れは同時に、機械に自己修復機能を持たせる方法としても興味深いものです。たとえば、この考え方で、私は6脚の歩行ロボットを作成 し、各脚が独立に強化学習で歩き方を学ばせる実験を行ったことがあります。
ロボットは実験中に生じた1脚の故障に対して、それをカバーするような新しい歩 き方を自動的に発見することができました
[かしこい欲張り]
以上を組み合わせると、「間合い、リズム」を見て、次に他のエージェントが何をするかを知り、その状態で自分の目的(価値関数)を最大にするような行動を探すことで、エージェント同士の「連携」が
期待できます。 もちろん、エージェントは試行錯誤で学習をしますので、「リズム」を自ら崩してしまうのではないかと思うかもしれません。最初の段階ではそのとおりでしょ う。しかし、予
測機構は学習によって選ばれた状態に対して、それを予測できるように努力していること、そして学習は、予測によって教えられた状態に対し て、その元でベストな行動が選べるように努力しています。こ
の2つを交互に実行する系は、「予測が合うように学習機構が行動を選び、その行動はコストをな るべく大きくするものになっている」、と期待できるでしょう。
[実用へむけて]
目下、現実の系でうまく働くよう な、予測機構と学習機構の組み合わせの研究を続けています。現在のところ、単純なイス取りゲーム問題、
そして複雑な例では、道路交通流シミュレーション で、交通信号機を用意して、交通流量を増加させるように学習させる例での、効率の改善を確認しています。
機械が試行錯誤を現実利用として許され るような対象は、実際のところ、エレベータ群、ビル全体の空調、電力ネットワークの効率的な利用など、
身近なところに多くあります。さらにインターネット 上に流れるさまざまな情報の適切なルーティングや、負荷分散など、現在のソフトウエアエージェントの時代には情報空間での「協調」が
求められています。
こ のような実用面に耐えうる手法の実現へと、努力しています。
最近の著作
- 三上貞芳、皆川雅章: 「強化学習」、森北出版、2000.
- 三上貞芳、嘉数侑昇: マルチエージェントにおける機能創発, 計測と制御, 38(10), pp.630-635, 1999.
- 嘉数侑昇、三上貞芳、鈴木恵二他: 「遺伝アルゴリズムハンドブック」、森北出版,1994.
- 三上貞芳, 田野浩明、嘉数侑昇: 強化学習による多足歩行ロボットの適応的歩様獲得に関する研究, 日本機械学会論文 集(C編),pp.246-253 (1994)
- Sadayoshi Mikami: "Prediction Based Reinforcement Learning for Dynamic Environment.,"
Intelligent Engineering Systems
Through Artificial Neural Networks, 7, pp.139-144 (1997)





