liyougeng

## pg-pong.py
""" Trains an agent with (stochastic) Policy Gradients on Pong. Uses OpenAI Gym. """
import numpy as np
import cPickle as pickle
import gym

# hyperparameters
H = 200 # number of hidden layer neurons
batch_size = 10 # every how many episodes to do a param update?
learning_rate = 1e-4
gamma = 0.99 # discount factor for reward

## 128x128_train.prototxt
name: "CaffeNet"
layers {
  name: "data"
  type: DATA
  top: "data"
  top: "label"
  data_param {
    source: "@YOUR_PATH_TO_DATA@/chairs_128x128_reduced/data-lmdb"
    batch_size: 64
    scale: 0.00390625
	""" Trains an agent with (stochastic) Policy Gradients on Pong. Uses OpenAI Gym. """
	import numpy as np
	import cPickle as pickle
	import gym

	# hyperparameters
	H = 200 # number of hidden layer neurons
	batch_size = 10 # every how many episodes to do a param update?
	learning_rate = 1e-4
	gamma = 0.99 # discount factor for reward
	name: "CaffeNet"
	layers {
	name: "data"
	type: DATA
	top: "data"
	top: "label"
	data_param {
	source: "@YOUR_PATH_TO_DATA@/chairs_128x128_reduced/data-lmdb"
	batch_size: 64
	scale: 0.00390625