kvfrans/cartpole.py

## cartpole.py
import gym
import numpy as np

def run_episode(env, parameters):
    observation = env.reset()
    totalreward = 0
    while True:
        env.render()
        action = 0 if np.matmul(parameters,observation) < 0 else 1
        observation, reward, done, info = env.step(action)
        totalreward += reward
        if done:
            break
    return totalreward

env = gym.make('CartPole-v0')
bestparams = None
bestreward = 0
env.monitor.start('cartpole-experiments/', force=True)
for _ in xrange(10000):
    parameters = np.random.rand(4) * 2 - 1
    totalreward = 0
    reward = run_episode(env,parameters)
    if reward > bestreward:
        bestreward = reward
        bestparams = parameters
        if reward == 200:
            break

for _ in xrange(100):
    run_episode(env,bestparams)
env.monitor.close()
	import gym
	import numpy as np

	def run_episode(env, parameters):
	observation = env.reset()
	totalreward = 0
	while True:
	env.render()
	action = 0 if np.matmul(parameters,observation) < 0 else 1
	observation, reward, done, info = env.step(action)
	totalreward += reward
	if done:
	break
	return totalreward

	env = gym.make('CartPole-v0')
	bestparams = None
	bestreward = 0
	env.monitor.start('cartpole-experiments/', force=True)
	for _ in xrange(10000):
	parameters = np.random.rand(4) * 2 - 1
	totalreward = 0
	reward = run_episode(env,parameters)
	if reward > bestreward:
	bestreward = reward
	bestparams = parameters
	if reward == 200:
	break

	for _ in xrange(100):
	run_episode(env,bestparams)
	env.monitor.close()