MarceloPrado/cartPoleRandomRL.py

## cartPoleRandomRL.py
'Esse arquivo gera alguns stats dos algoritmos'
import numpy as np
import gym
# from main import random_search
import os

def run_episode(env, params, max_reward):
    'Roda o episodio por no max. 200 timesteps, retornanto o totalReward para esse set de params'
    observation = env.reset()
    totalreward = 0
    for _ in range(max_reward):
        env.render() #para ver treinado
        action = 0 if np.matmul(params, observation) < 0 else 1
        observation, reward, done, info = env.step(action)
        totalreward += reward
        if done:
            break
    return totalreward

def random_search(env, max_reward, streak_counter):
    '''
    Gera weights aleatorios ate encontrar uma combinacao que
    que satisfaca as condicoes impostas
    '''
    best_params = None
    best_reward = 200
    streak = 0
    episode_counter = 0
    for i_episode in range(30000):
        print(streak)
        if streak == 0:
            parameters = np.random.rand(4) * 2 - 1
        else:
            parameters = best_params

        reward = run_episode(env, parameters, max_reward)

        if reward >= best_reward:
            best_reward = reward
            best_params = parameters
            # caso durou 200 timesteps, considere como resolvido
            if best_reward >= max_reward:
                streak += 1
                episode_counter = i_episode

        if reward < max_reward:
            streak = 0

        if streak > streak_counter:
            break

    return episode_counter

out = 'gym/out'
if out:
	if not os.path.exists(out):
		os.makedirs(out)
else:
	if not os.path.exists('gym-out/' + "CartPole-v1"):
		os.makedirs('gym-out/' + "CartPole-v1")
	out = 'gym-out/' + "CartPole-v1"

directory = "gym-out/"
env = gym.make("CartPole-v1")
env = gym.wrappers.Monitor(env, directory,force=True,video_callable=lambda episode_id: episode_id%10000==0)
random_search(env,200, 200)
env.close()
	'Esse arquivo gera alguns stats dos algoritmos'
	import numpy as np
	import gym
	# from main import random_search
	import os

	def run_episode(env, params, max_reward):
	'Roda o episodio por no max. 200 timesteps, retornanto o totalReward para esse set de params'
	observation = env.reset()
	totalreward = 0
	for _ in range(max_reward):
	env.render() #para ver treinado
	action = 0 if np.matmul(params, observation) < 0 else 1
	observation, reward, done, info = env.step(action)
	totalreward += reward
	if done:
	break
	return totalreward

	def random_search(env, max_reward, streak_counter):
	'''
	Gera weights aleatorios ate encontrar uma combinacao que
	que satisfaca as condicoes impostas
	'''
	best_params = None
	best_reward = 200
	streak = 0
	episode_counter = 0
	for i_episode in range(30000):
	print(streak)
	if streak == 0:
	parameters = np.random.rand(4) * 2 - 1
	else:
	parameters = best_params

	reward = run_episode(env, parameters, max_reward)

	if reward >= best_reward:
	best_reward = reward
	best_params = parameters
	# caso durou 200 timesteps, considere como resolvido
	if best_reward >= max_reward:
	streak += 1
	episode_counter = i_episode

	if reward < max_reward:
	streak = 0

	if streak > streak_counter:
	break

	return episode_counter

	out = 'gym/out'
	if out:
	if not os.path.exists(out):
	os.makedirs(out)
	else:
	if not os.path.exists('gym-out/' + "CartPole-v1"):
	os.makedirs('gym-out/' + "CartPole-v1")
	out = 'gym-out/' + "CartPole-v1"

	directory = "gym-out/"
	env = gym.make("CartPole-v1")
	env = gym.wrappers.Monitor(env, directory,force=True,video_callable=lambda episode_id: episode_id%10000==0)
	random_search(env,200, 200)
	env.close()