tanzhenyu/ppo_main.py

## ppo_main.py
model, env = ppo()
obs = env.reset()
reward = 0
while True:
  action, _, _ = model.get_pi_logpi_vf(obs.reshape(1, -1))
  obs, r, d, _ = env.step(action.numpy()[0])
  reward += r
  env.render()
  if d:
    print('episode reward {}'.format(reward))
    reward = 0
    obs = env.reset()
	model, env = ppo()
	obs = env.reset()
	reward = 0
	while True:
	action, _, _ = model.get_pi_logpi_vf(obs.reshape(1, -1))
	obs, r, d, _ = env.step(action.numpy()[0])
	reward += r
	env.render()
	if d:
	print('episode reward {}'.format(reward))
	reward = 0
	obs = env.reset()