Rick Evans javaswinger

## pg-pong.py
""" Trains an agent with (stochastic) Policy Gradients on Pong. Uses OpenAI Gym. """
import numpy as np
import gym.spaces

# hyperparameters
H = 200 # number of hidden layer neurons
batch_size = 10 # every how many episodes to do a param update?
learning_rate = 1e-4
gamma = 0.99 # discount factor for reward
decay_rate = 0.99 # decay factor for RMSProp leaky sum of grad^2

## iOS 7 Toggle.markdown

      
        
          
            
              
              4 files
            
          
          
            
              
              0 forks
            
          
          
            
              
              0 comments
            
          
          
            
              
              0 stars
            
          
        
        
          
              
          
          
            
                javaswinger
                / iOS 7 Toggle.markdown
            
            
              Created
              June 1, 2015 19:19
                — forked from anonymous/iOS 7 Toggle.markdown
            
          
        
      
        
  
      
    iOS 7 Toggle

Works best in Chrome.
A Pen by Joshua Hibbert on CodePen.
License.
	""" Trains an agent with (stochastic) Policy Gradients on Pong. Uses OpenAI Gym. """
	import numpy as np
	import gym.spaces

	# hyperparameters
	H = 200 # number of hidden layer neurons
	batch_size = 10 # every how many episodes to do a param update?
	learning_rate = 1e-4
	gamma = 0.99 # discount factor for reward
	decay_rate = 0.99 # decay factor for RMSProp leaky sum of grad^2