djbyrne/vpg_loss.py

## vpg_loss.py
    def loss(self, states, actions, scaled_rewards) -> torch.Tensor:

        logits = self.net(states)

        # policy loss
        log_prob = log_softmax(logits, dim=1)
        log_prob_actions = scaled_rewards * log_prob[range(self.batch_size), actions[0]]
        policy_loss = -log_prob_actions.mean()

        # entropy loss
        prob = softmax(logits, dim=1)
        entropy = -(prob * log_prob).sum(dim=1).mean()
        entropy_loss = -self.entropy_beta * entropy

        # total loss
        loss = policy_loss + entropy_loss

        return loss
	def loss(self, states, actions, scaled_rewards) -> torch.Tensor:

	logits = self.net(states)

	# policy loss
	log_prob = log_softmax(logits, dim=1)
	log_prob_actions = scaled_rewards * log_prob[range(self.batch_size), actions[0]]
	policy_loss = -log_prob_actions.mean()

	# entropy loss
	prob = softmax(logits, dim=1)
	entropy = -(prob * log_prob).sum(dim=1).mean()
	entropy_loss = -self.entropy_beta * entropy

	# total loss
	loss = policy_loss + entropy_loss

	return loss