デュビデュバの技術ブログ

主に機械学習系の記事を書いていきます。コメント大歓迎です。よろしくお願いします。

2019-01-01から1年間の記事一覧

画像の連結(OpenCV)

メモ。このファイルのディレクトリの子ディレクトリにimgの中に、arrow_0.png~arrow_7.pngを入れておく。変数はQ Learningの時使ったやつなので、このままでは動かない。 # 画像を読み込んで concatenate することで,くっつけてる。 import cv2 import num…

Open AI Spinning Up で深層強化学習のお勉強 -Part 2: Kinds of RL Algorithms-

INTRODUCTION TO RL -Part 2: Kinds of RL Algorithms- 前回の続きです。 前回の記事はこちら。 coffee-g9.hatenablog.com OpenAI Spinning Upのページはこちら。 spinningup.openai.com INTRODUCTION TO RL -Part 2: Kinds of RL Algorithms- はじめに A Ta…

Open AI Spinning Up で深層強化学習のお勉強 -Part 1: Key Concepts in RL- [その2]

INTRODUCTION TO RL -Part 1: Key Concepts in RL- 前回の続き。後半(Key Concepts and TerminologyのValue Functionsから)です。 前回の記事はこちら。 coffee-g9.hatenablog.com OpenAI Spinning Upのページはこちら。 spinningup.openai.com INTRODUCTI…

Open AI Spinning Up で深層強化学習のお勉強 -Part 1: Key Concepts in RL- [その1]

INTRODUCTION TO RL -Part 1: Key Concepts in RL- 今回のページです。長いので分けます。今回は前半(Key Concepts and TerminologyのThe RL Problemまで)だけ。 spinningup.openai.com INTRODUCTION TO RL -Part 1: Key Concepts in RL- はじめに What Ca…

Open AI Spinning Up で深層強化学習のお勉強 -Algorithms-

Algorithms 今回のページとソースコードです。ざっくりとまとめていきます。 spinningup.openai.com github.com Algorithms What's Included Why These Algorithm? The On-Policy Algorithms The Off-Policy Algorithms Code Format The Algorithm File The …

Polyak Averaging

Polyak Averaging Polyak-Ruppert Averaging Polyak Averaging Polyak Averagingは、最適化アルゴリズム中のパラメーター空間内のいくつかのポイントの平均化です。そのため、最適化中にポイント が得られた場合、Polyak Averagingは次のようになります。 以…

Open AI Spinning Up で深層強化学習のお勉強 -Introduction-

以下サイトで深層強化学習について学んでいきたいと思います。 spinningup.openai.com 余談ですけど、強化学習とかやっていると、「学習」って単語を人間に使えなくなりませんか?「学習」って言おうとしてもなんか違和感でわざわざ「勉強」とか「学ぶ」とか…

Qiita投稿済み記事

まだまだ始めたばかりですが。 qiita.com qiita.com qiita.com qiita.com qiita.com