araffin/demo_baselines.py

## demo_baselines.py
# from https://github.com/hill-a/stable-baselines
import gym

from stable_baselines.common.policies import MlpPolicy
from stable_baselines import PPO2

env = gym.make('CartPole-v1')

model = PPO2(MlpPolicy, env, verbose=1)
# Train the agent
model.learn(total_timesteps=10000)

# Enjoy trained agent
obs = env.reset()
for i in range(1000):
    action, _states = model.predict(obs, deterministic=False)
    obs, reward, done, info = env.step(action)
    env.render()
    if done:
        obs = env.reset()
env.close()
	# from https://github.com/hill-a/stable-baselines
	import gym

	from stable_baselines.common.policies import MlpPolicy
	from stable_baselines import PPO2

	env = gym.make('CartPole-v1')

	model = PPO2(MlpPolicy, env, verbose=1)
	# Train the agent
	model.learn(total_timesteps=10000)

	# Enjoy trained agent
	obs = env.reset()
	for i in range(1000):
	action, _states = model.predict(obs, deterministic=False)
	obs, reward, done, info = env.step(action)
	env.render()
	if done:
	obs = env.reset()
	env.close()