djbyrne/vpg_train_step.py

## vpg_train_step.py
    def training_step(self, batch: Tuple[torch.Tensor, torch.Tensor], _) -> OrderedDict:
        states, actions, scaled_rewards = batch

        loss = self.loss(states, actions, scaled_rewards)

        log = {
            "episodes": self.done_episodes,
            "reward": self.total_rewards[-1],
            "avg_reward": self.avg_rewards,
        }
        return OrderedDict(
            {
                "loss": loss,
                "avg_reward": self.avg_rewards,
                "log": log,
                "progress_bar": log,
            }
        )
	def training_step(self, batch: Tuple[torch.Tensor, torch.Tensor], _) -> OrderedDict:
	states, actions, scaled_rewards = batch

	loss = self.loss(states, actions, scaled_rewards)

	log = {
	"episodes": self.done_episodes,
	"reward": self.total_rewards[-1],
	"avg_reward": self.avg_rewards,
	}
	return OrderedDict(
	{
	"loss": loss,
	"avg_reward": self.avg_rewards,
	"log": log,
	"progress_bar": log,
	}
	)