Open AI Spinning Up で深層強化学習のお勉強 -Part 1: Key Concepts in RL- [その2]
INTRODUCTION TO RL -Part 1: Key Concepts in RL-
前回の続き。後半(Key Concepts and TerminologyのValue Functionsから)です。
前回の記事はこちら。
coffee-g9.hatenablog.com
OpenAI Spinning Upのページはこちら。
spinningup.openai.com 前回の続きから。 状態の価値や状態と行動のペアを知ることは、しばしば役立ちます。価値とは、その状態または状態と行動のペアで開始し、その後特定の方策に従って無限期間行動する場合に期待されるリターンを意味します。ほぼすべてのRLアルゴリズムで、何らかの方法で価値関数が使用されます。
ここで注目すべき4つの主な機能があります。 価値関数について話すとき、時間依存性を考慮しない場合は、無限期間の割引リターンのみを意味します。有限期間の割引なしのリターン関数は、引数として時間が必要です。 価値関数と行動価値関数の間には、2つの重要な関係があります。 最適行動価値関数と最適方策によって選択された行動の間には重要な関係があります。定義より、は状態で開始し、(任意の)行動を実行し、その後、最適方策に従って無限期間動作するための期待リターンを提供します。
最適方策は、期待リターンを最大化する行動を選択します。その結果、もしが得られているなら、そこから最適行動を直接求められます。 注:を最大化する複数の行動が存在する場合があり、その場合、それらはすべて最適行動であり、最適方策はそれらのいずれかをランダムに選択する場合があります。ただし、アクションを決定論的に選択する最適なポリシーが常に存在します。 4つの価値関数はすべて、ベルマン方程式と呼ばれる特別な自己整合方程式に従います。ベルマン方程式の背後にある基本的な考え方は次のとおりです。 On-Policyの価値関数のベルマン方程式は次のとおりです。 ここで、は次状態であり、環境の状態遷移ルールよりサンプリングされます。はの省略形です。はの省略形で、はの省略形です。
最適価値関数のベルマン方程式は次のとおりです。 On-Policy価値関数と最適価値関数の重要な違いは、の有無です。が付いていることで、エージェントが行動を選択するときはいつでも、最適な行動をするために、最も高い価値につながる行動を選択しなければなりません。 「ベルマンバックアップ」という用語は、RLの文献で頻繁に登場します。状態、または状態と行動のペアのベルマンバックアップは、ベルマンの方程式の右側、つまり報酬と次の値です。 RLでは、行動の絶対的評価は必要はなく、他の行動との平均的な相対評価が必要です。つまり、その行動の相対的な利点を知りたいのです。アドバンテージ関数を使用して、この概念を正確にします。
方策のアドバンテージ関数は、状態でランダムに行動するより、状態で特定の行動を選択した方がどれほど優れているかを示します。数学的には次のように表されます。 アドバンテージ関数は方策勾配メソッドにとって非常に重要です。 これまで、あまり厳密にではなくエージェントの環境について説明してきましたが、文献を深く読むと、これらの理論の前提としてマルコフ決定過程(MDP)に遭遇する可能性があります。MDPは5タプルです。ここで、 イントロのpart1は強化学習の概要でした。part1の内容はすべての強化学習の基礎となる内容です。これらを基盤に各々のアルゴリズムが各々の特性をもったものになります。最後のマルコフ決定過程はこれら基盤の前提にあたる部分ですがかなり重要です。特に、「遷移は、直前の状態と行動にのみ依存し、過去の履歴には依存しない。」というところです。
マルコフ決定過程については以下の本で学びました。式や定義などしっかり書かれていておすすめです。 次回はINTRODUCTION TO RL -Part 2: Kinds of RL Algorithms-です。
OpenAI Spinning Upの記事一覧
coffee-g9.hatenablog.com
Key Concepts and Terminology
Value Functions
You Should Know
You Should Know
The Optimal Q-Function and the Optimal Action
Bellman Equations
You Should Know
Advantage Functions
You Should Know
(Optional) Formalism
まとめ