icoxfog417/actor_critic_example_imp2.py

## actor_critic_example_imp2.py
def update(self, states, actions, rewards, values):
    # Calculate values (or advantage) at outside of update process.
    advantage = reward - values
    action_probs = self.actor(states)
    selected_action_probs = action_probs[self.to_one_hot(actions)]
    neg_logs = - log(selected_action_probs)
    policy_loss = reduce_mean(neg_logs * advantages)
	def update(self, states, actions, rewards, values):
	# Calculate values (or advantage) at outside of update process.
	advantage = reward - values
	action_probs = self.actor(states)
	selected_action_probs = action_probs[self.to_one_hot(actions)]
	neg_logs = - log(selected_action_probs)
	policy_loss = reduce_mean(neg_logs * advantages)