RI 1.6

Reinforcement Learningの勉強メモ

1.6

強化学習は、マルコフ決定理論という枠組の中で、エージェントと環境の状態、行動、報酬などを定式化して利用する。

価値と価値関数という概念は、この本で出てくる強化学習の手法にとって鍵になる概念である。価値関数を部分的に更新するというような特徴が、ポリシー全体を更新するような遺伝的アルゴリズムなどと強化学習の違いを際立たせる。

例えば、マルバツゲームのポリシーとして局面 → 次の手というような関数を考える。これは、局面の数が有限なので、有限の辞書で表せる。遺伝的アルゴリズムでは、この辞書をランダムに生成し、それらのポリシーを戦わせ、結果に応じて生き残らせたり突然変異を繰り返したりという手順でポリシーを学習する。この問題に対しては、実際のゲームで出現しない局面についても変更され得るため効率が悪い。一方で、価値関数を結果に応じて更新するような方法は無駄がなく効率が良い、というようなことが前の節に書いてある。

1.7 強化学習の歴史

ざっくり3つの研究ラインがある

動物学習の心理学：1980’sのAIのリバイバルに至る
最適制御とその解：価値関数を使う。学習とはあまり関係ない

temporal difference methodという手法にマージされていき、これらが出会った。これで、1980’sに現在の強化学習というものが提示された感じ。

temporal differenceというのは、ある時点での価値関数の推定値と次の時点での価値関数の推定値を利用する方法。これが、割と大事ぽい。