andrewliao11/baselines_sample.py

## baselines_sample.py
# code locate in baselines/gail

def sample(algo, load_model_path, policy_fn):

  assert algo in ['trpo', 'ppo', 'acktr', 'ddpg', 'a2c']
  if algo in ['trpo', 'ppo']:
    with tf.Session() as sess:
      # manually build graph
      policy = policy_fn()
      # load model
      U.load_state(load_model_path)

  elif algo in ['acktr', 'ddpg', 'a2c']:
    policy = Model(policy_fn) # sess/graph declare inside
    policy.load(load_model_path)

  # sample expert
  Sampler(algo, policy, sample_steps)

def Sampler(algo, policy, sample_steps):

  # start sampling code
  for _ in range(sample_steps):
    if algo == 'ddpg':
      actions, q = act(obs)
    elif algo == 'a2c' or 'acktr':
      actions, values, policy.states = policy.step(obs, policy.states, dones)
    elif algo == 'ppo' or 'trpo:
      actions, v = policy.act(stochastic, obs)

    obs, rw, dones, _ = env.step(act)
	# code locate in baselines/gail

	def sample(algo, load_model_path, policy_fn):

	assert algo in ['trpo', 'ppo', 'acktr', 'ddpg', 'a2c']
	if algo in ['trpo', 'ppo']:
	with tf.Session() as sess:
	# manually build graph
	policy = policy_fn()
	# load model
	U.load_state(load_model_path)

	elif algo in ['acktr', 'ddpg', 'a2c']:
	policy = Model(policy_fn) # sess/graph declare inside
	policy.load(load_model_path)

	# sample expert
	Sampler(algo, policy, sample_steps)

	def Sampler(algo, policy, sample_steps):

	# start sampling code
	for _ in range(sample_steps):
	if algo == 'ddpg':
	actions, q = act(obs)
	elif algo == 'a2c' or 'acktr':
	actions, values, policy.states = policy.step(obs, policy.states, dones)
	elif algo == 'ppo' or 'trpo:
	actions, v = policy.act(stochastic, obs)

	obs, rw, dones, _ = env.step(act)