0. はじめに

社内の有志で

の勉強会を始めました.この本は数学的な記法がしっかりしていて何冊か買ってみた中で一番読みやすいです.このブログでは,勉強会を通じて理解した数式のお気持ちや,大事そうな部分などをまとめていきます.今回は「Chapter3 探索と活用のトレードオフ」です.

  1. Chapter1 準備
  2. Chapter2 プランニング
  3. Chapter3 探索と活用のトレードオフ ←Now

※本編のpdfは「強化学習 (機械学習プロフェッショナルシリーズ)」を読んだ私の解釈,追加説明です.本がなくてもわかるように書いたつもりですが,本を手元において読んでいただくと理解が深まると思います.

1.概要

逐次的意思決定問題において,環境(遷移確率,報酬)が明らかでない場合,エージェントは探索によってデータを収集することで方策を学習する.ここでは,最適方策とは別にデータを適切に集めるための方策も必要となり.方策のモデル化が行われる.

2.難しいポイント

この章はあまり重くなく,難しいポイントは特にない.

3. 本編

それでは本編に入っていきましょう.以下のpdfをご覧ください.