akarazeev/CartPole-v0.py

## CartPole-v0.py
import numpy as np
import gym
from gym import wrappers
env = gym.make('CartPole-v0')

nsteps = 200

def run_episode(env, parameters):
    observation = env.reset()
    totalreward = 0
    for _ in range(nsteps):
        env.render()
        action = 0 if np.matmul(parameters, observation) < 0 else 1
        observation, reward, done, info = env.step(action)
        totalreward += reward
        if done:
            break
    env.close()
    return totalreward

bestparams = None
bestreward = 0

for _ in range(10000):
    parameters = np.random.rand(4) * 2 - 1
    tmpreward = run_episode(env, parameters)
    print(tmpreward)
    if tmpreward > bestreward:
        bestreward = tmpreward
        bestparams = parameters

        if tmpreward == nsteps:
            break
	import numpy as np
	import gym
	from gym import wrappers
	env = gym.make('CartPole-v0')

	nsteps = 200

	def run_episode(env, parameters):
	observation = env.reset()
	totalreward = 0
	for _ in range(nsteps):
	env.render()
	action = 0 if np.matmul(parameters, observation) < 0 else 1
	observation, reward, done, info = env.step(action)
	totalreward += reward
	if done:
	break
	env.close()
	return totalreward

	bestparams = None
	bestreward = 0

	for _ in range(10000):
	parameters = np.random.rand(4) * 2 - 1
	tmpreward = run_episode(env, parameters)
	print(tmpreward)
	if tmpreward > bestreward:
	bestreward = tmpreward
	bestparams = parameters

	if tmpreward == nsteps:
	break