rohan-paul/actor_loss_fn_deepspeed_rlhf_blog.py

## actor_loss_fn_deepspeed_rlhf_blog.py
def actor_loss_fn(self, logprobs, old_logprobs, advantages, mask):
        ## policy gradient loss
        log_ratio = (logprobs - old_logprobs) * mask
        ratio = torch.exp(log_ratio)
        pg_loss1 = -advantages * ratio
        pg_loss2 = -advantages * torch.clamp(ratio, 1.0 - self.cliprange,
                                             1.0 + self.cliprange)
        pg_loss = torch.sum(torch.max(pg_loss1, pg_loss2) * mask) / mask.sum()
        return pg_loss
	def actor_loss_fn(self, logprobs, old_logprobs, advantages, mask):
	## policy gradient loss
	log_ratio = (logprobs - old_logprobs) * mask
	ratio = torch.exp(log_ratio)
	pg_loss1 = -advantages * ratio
	pg_loss2 = -advantages * torch.clamp(ratio, 1.0 - self.cliprange,
	1.0 + self.cliprange)
	pg_loss = torch.sum(torch.max(pg_loss1, pg_loss2) * mask) / mask.sum()
	return pg_loss