davidADSP/train.py

## train.py
import gym

from stable_baselines import PPO1
from stable_baselines.common.policies import MlpPolicy
from stable_baselines.common.callbacks import EvalCallback

env = gym.make('Pendulum-v0')
model = PPO1(MlpPolicy, env)

# Separate evaluation env
eval_env = gym.make('Pendulum-v0')
eval_callback = EvalCallback(eval_env, best_model_save_path='./logs/',
                             log_path='./logs/', eval_freq=500,
                             deterministic=True, render=False)

model.learn(5000, callback=eval_callback)
	import gym

	from stable_baselines import PPO1
	from stable_baselines.common.policies import MlpPolicy
	from stable_baselines.common.callbacks import EvalCallback

	env = gym.make('Pendulum-v0')
	model = PPO1(MlpPolicy, env)

	# Separate evaluation env
	eval_env = gym.make('Pendulum-v0')
	eval_callback = EvalCallback(eval_env, best_model_save_path='./logs/',
	log_path='./logs/', eval_freq=500,
	deterministic=True, render=False)

	model.learn(5000, callback=eval_callback)