reinforcement leaning chap2, 3

Part1.

状態数が少なく、価値関数がメモリに乗るようなケースを考える。

主な手法

ベルマン方程式と動的計画法
モンテカルロ法
tempral difference

chap 2. Multi armed bandit

いわゆるバンディット問題を扱う。 $k$個のアクションを選ぶことができて、アクションによって報酬の分布が決まる。その分布に関する情報は持っていない。どのアクションを選ぶべきか？

アクションの価値を得られる報酬の期待値とする。真の価値は分からないが、それまでに、そのアクションから得られた報酬の期待値で推定するのが自然。アクション価値の推定値に基づいた戦略として

greedy
ε-greedy
UBC
Gradient Bandit

などが考えられる。

報酬の分布は一定か
アルゴリズムのパラメータに対して、期待報酬はどう振る舞うか？

など検討すべきポイントがいくつかある。

chap3. Finite Markov Decision Process

MDPの定式化。

登場人物

エージェント
環境

「環境が状態を提示→エージェントがアクションを選択→報酬を獲得」これが繰り返される

記号の定義

$t = 0, 2, 3, \ldots$：時間
$S_t \in \mathcal{S}, t \le 0$：時刻$t$での状態
$A_t \in \mathcal{A}(s), t \le 0$：時刻$t$でのアクション
$R_{t+1} \in \mathcal{$} \subset \mathbb{R}, t \le 0$：時刻$t$のアクションから得た報酬

基本的に、これらは全部有限離散で考える。

\[p(s', r | s, a) = \mathrm{Pr}\{S_t=s', R_t=r | S_{t-1} = s, A_{t-1} = a \}\]

という確率分布を指定してやれば、MDPが定義できる。

$p(s'｜s,a)$：状態の周辺分布
$r(s, a)$：報酬の期待値
$r(s,a,s')$：報酬の期待値

などの表記も用いる。

MDPの枠組では、将来の報酬から計算される何らかの値を最大化することを考える。

ゲームなどのように、プロセスがいつか終わるようなタスクでは、開始から終了までの状態・アクション・報酬の列をエピソードと呼ぶ。

終わりのあるタスクでは、報酬の合計を最大化するのが自然。終わりのないタスクでは、将来の報酬を割り引いて合計した値を最大化するのが自然。

状態に対してアクションの確率分布を与える関数をポリシーと呼ぶ。ポリシーが決まると、各状態において、そこから獲得できる報酬の期待値が決まる。これを価値関数(value function)と呼ぶ。強化学習では、この価値関数の推定をするのが大事になる。

$v_{\pi}(s)$：ポリシー$\pi$に従うときに、状態$s$から得られる報酬の期待値。価値関数と呼ぶ
$q_{\pi}(s, a)$：ポリシー$\pi$に従い、状態$s$でアクション$a$を実行するときの、報酬の期待値。行動価値関数と呼ぶ

ポリシー$\pi, \pi'$が、全ての状態$s$について$v_{\pi}(s) \le v_{\pi'}(s)$を満たす時、$\pi \le \pi'$と定義すると、これは半順序になる。この半順序について、最大値を達成するポリシーが常に1つ以上存在する。それを最適ポリシーと呼ぶ。最適ポリシーが複数ある場合、その価値関数と行動価値関数は、常に同じ値となる。