『強化学習』(MLPシリーズ) 勉強会 ~Chapter 1 準備~

2021.05.10

『強化学習』(MLPシリーズ) 勉強会 ~Chapter 1 準備~

ベルマン方程式強化学習

0. はじめに

社内の有志で

強化学習 (機械学習プロフェッショナルシリーズ)

の勉強会を始めました．この本は数学的な記法がしっかりしていて何冊か買ってみた中で一番読みやすいです．このブログでは，勉強会を通じて理解した数式のお気持ちや，大事そうな部分などをまとめていきます．今回は「Chapter1 準備」です．

※本編のpdfは「強化学習 (機械学習プロフェッショナルシリーズ)」を読んだ私の解釈，追加説明です．本がなくてもわかるように書いたつもりですが，本を手元において読んでいただくと理解が深まると思います．

1. 概要

Chapter1では，この本の前提となる逐次的意思決定問題を設定し，諸々の概念を定義します．定義なので疑問を挟む余地はありませんが，「定義された確率変数がどの分布によって規定されているのか」を意識しながら読むと今後役に立つと思われます．そこでこのブログでは期待値Eの添字に「どの確率変数で期待値を取っているのか」を独自に記載しています．

2. 難しいポイント

「1.4.3リターンと目的関数」から難易度が上がります．特にp31の式(1.27)は1行でサラッと変形していますがこれは期待値を取る対象が変わっていて初見殺しです．pdfでは「3.3目的関数2」で途中式を追加しました．また，マルコフ連鎖のエルゴート性に関する説明はベイズ統計やったことない方がいきなり見ると厳しいため，深入りは避けた方が良いかもしれません．p33のベルマン期待方程式は「また，仮定より方策は時間不変であり〜」以下を読めば導出できます．

3.本編

それでは本編に入っていきましょう．以下のpdfをご覧ください．

強化学習第1章「準備」

\ いいなと思ったらシェア /

ブログトップに戻る