icoxfog417/actor_critic_example.py

## actor_critic_example.py
def update(self, states, actions, rewards):
    values = self.critic(states)
    advantage = reward - values
    action_probs = self.actor(states)
    selected_action_probs = action_probs[self.to_one_hot(actions)]
    neg_logs = - log(selected_action_probs)
    # If backprop executed, gradient of policy_loss will affect critic!
    policy_loss = reduce_mean(neg_logs * advantages)
	def update(self, states, actions, rewards):
	values = self.critic(states)
	advantage = reward - values
	action_probs = self.actor(states)
	selected_action_probs = action_probs[self.to_one_hot(actions)]
	neg_logs = - log(selected_action_probs)
	# If backprop executed, gradient of policy_loss will affect critic!
	policy_loss = reduce_mean(neg_logs * advantages)