nagataka/minimal_rllib.py

## minimal_rllib.py
import gym
import ray
from ray.rllib.agents.ppo import PPOTrainer, DEFAULT_CONFIG

import pprint as pp

#tune.run(PPOTrainer, config={"env": "Breakout-v0", "use_pytorch": True})
ray.init(num_gpus=1, ignore_reinit_error=True, log_to_driver=False)

# https://github.com/ray-project/ray/blob/master/rllib/agents/ppo/ppo.py#L15
config = DEFAULT_CONFIG.copy()
config['use_pytorch'] = True
config['num_gpus'] = 1
agent = PPOTrainer(config, "Breakout-v0")

for i in range(10000):
    result = agent.train()
    #pp.pprint(result)
    print(result['episode_reward_mean'])

    if i % 100 == 0:
        checkpoint = agent.save()
        print("checkpoint saved at", checkpoint)
	import gym
	import ray
	from ray.rllib.agents.ppo import PPOTrainer, DEFAULT_CONFIG

	import pprint as pp

	#tune.run(PPOTrainer, config={"env": "Breakout-v0", "use_pytorch": True})
	ray.init(num_gpus=1, ignore_reinit_error=True, log_to_driver=False)

	# https://github.com/ray-project/ray/blob/master/rllib/agents/ppo/ppo.py#L15
	config = DEFAULT_CONFIG.copy()
	config['use_pytorch'] = True
	config['num_gpus'] = 1
	agent = PPOTrainer(config, "Breakout-v0")

	for i in range(10000):
	result = agent.train()
	#pp.pprint(result)
	print(result['episode_reward_mean'])

	if i % 100 == 0:
	checkpoint = agent.save()
	print("checkpoint saved at", checkpoint)