reinforcement leaning chap2, 3
reinforcement-learningPart1.
状態数が少なく、価値関数がメモリに乗るようなケースを考える。
主な手法
- ベルマン方程式と動的計画法
- モンテカルロ法
- tempral difference
chap 2. Multi armed bandit
いわゆるバンディット問題を扱う。 \(k\)個のアクションを選ぶことができて、アクションによって報酬の分布が決まる。 その分布に関する情報は持っていない。どのアクションを選ぶべきか?
アクションの価値を得られる報酬の期待値とする。 真の価値は分からないが、それまでに、そのアクションから得られた報酬の期待値で推定するのが自然。 アクション価値の推定値に基づいた戦略として
- greedy
- ε-greedy
- UBC
- Gradient Bandit
などが考えられる。
- 報酬の分布は一定か
- アルゴリズムのパラメータに対して、期待報酬はどう振る舞うか?
など検討すべきポイントがいくつかある。
chap3. Finite Markov Decision Process
MDPの定式化。
登場人物
- エージェント
- 環境
「環境が状態を提示→エージェントがアクションを選択→報酬を獲得」これが繰り返される
記号の定義
- \(t = 0, 2, 3, \ldots\):時間
- \(S_t \in \mathcal{S}, t \le 0\):時刻\(t\)での状態
- \(A_t \in \mathcal{A}(s), t \le 0\):時刻\(t\)でのアクション
- \(R_{t+1} \in \mathcal{$} \subset \mathbb{R}, t \le 0\):時刻\(t\)のアクションから得た報酬
基本的に、これらは全部有限離散で考える。
\[p(s', r | s, a) = \mathrm{Pr}\{S_t=s', R_t=r | S_{t-1} = s, A_{t-1} = a \}\]という確率分布を指定してやれば、MDPが定義できる。
- \(p(s'|s,a)\):状態の周辺分布
- \(r(s, a)\):報酬の期待値
- \(r(s,a,s')\):報酬の期待値
などの表記も用いる。
MDPの枠組では、将来の報酬から計算される何らかの値を最大化することを考える。
ゲームなどのように、プロセスがいつか終わるようなタスクでは、開始から終了までの状態・アクション・報酬の列をエピソードと呼ぶ。
終わりのあるタスクでは、報酬の合計を最大化するのが自然。終わりのないタスクでは、将来の報酬を割り引いて合計した値を最大化するのが自然。
状態に対してアクションの確率分布を与える関数をポリシーと呼ぶ。 ポリシーが決まると、各状態において、そこから獲得できる報酬の期待値が決まる。これを価値関数(value function)と呼ぶ。 強化学習では、この価値関数の推定をするのが大事になる。
- \(v_{\pi}(s)\):ポリシー\(\pi\)に従うときに、状態\(s\)から得られる報酬の期待値。価値関数と呼ぶ
- \(q_{\pi}(s, a)\):ポリシー\(\pi\)に従い、状態\(s\)でアクション\(a\)を実行するときの、報酬の期待値。行動価値関数と呼ぶ
ポリシー\(\pi, \pi'\)が、全ての状態\(s\)について\(v_{\pi}(s) \le v_{\pi'}(s)\)を満たす時、\(\pi \le \pi'\)と定義すると、これは半順序になる。 この半順序について、最大値を達成するポリシーが常に1つ以上存在する。それを最適ポリシーと呼ぶ。 最適ポリシーが複数ある場合、その価値関数と行動価値関数は、常に同じ値となる。