AurelianTactics/td3_critic_learner.py

## td3_critic_learner.py
if self.td3_variant:
    logger.info('using TD3 variant model')
    self.normalized_critic_tf, self.normalized_critic_tf2 = critic(normalized_obs0, self.actions)
    self.critic_tf = denormalize(
        tf.clip_by_value(self.normalized_critic_tf, self.return_range[0], self.return_range[1]), self.ret_rms)
    self.normalized_critic_with_actor_tf, _ = critic(normalized_obs0, self.actor_tf, reuse=True)
    self.critic_with_actor_tf = denormalize(
        tf.clip_by_value(self.normalized_critic_with_actor_tf, self.return_range[0], self.return_range[1]),
        self.ret_rms)
    out_q1, out_q2 = target_critic(normalized_obs1, target_actor(normalized_obs1))
    min_q1 = tf.minimum(out_q1,out_q2)
    Q_obs1 = denormalize(min_q1, self.ret_rms)
else:
    self.normalized_critic_tf = critic(normalized_obs0, self.actions)
    self.critic_tf = denormalize(
        tf.clip_by_value(self.normalized_critic_tf, self.return_range[0], self.return_range[1]), self.ret_rms)
    self.normalized_critic_with_actor_tf = critic(normalized_obs0, self.actor_tf, reuse=True)
    self.critic_with_actor_tf = denormalize(
        tf.clip_by_value(self.normalized_critic_with_actor_tf, self.return_range[0], self.return_range[1]),
        self.ret_rms)
    Q_obs1 = denormalize(target_critic(normalized_obs1, target_actor(normalized_obs1)), self.ret_rms)
self.target_Q = self.rewards + (1. - self.terminals1) * gamma * Q_obs1
	if self.td3_variant:
	logger.info('using TD3 variant model')
	self.normalized_critic_tf, self.normalized_critic_tf2 = critic(normalized_obs0, self.actions)
	self.critic_tf = denormalize(
	tf.clip_by_value(self.normalized_critic_tf, self.return_range[0], self.return_range[1]), self.ret_rms)
	self.normalized_critic_with_actor_tf, _ = critic(normalized_obs0, self.actor_tf, reuse=True)
	self.critic_with_actor_tf = denormalize(
	tf.clip_by_value(self.normalized_critic_with_actor_tf, self.return_range[0], self.return_range[1]),
	self.ret_rms)
	out_q1, out_q2 = target_critic(normalized_obs1, target_actor(normalized_obs1))
	min_q1 = tf.minimum(out_q1,out_q2)
	Q_obs1 = denormalize(min_q1, self.ret_rms)
	else:
	self.normalized_critic_tf = critic(normalized_obs0, self.actions)
	self.critic_tf = denormalize(
	tf.clip_by_value(self.normalized_critic_tf, self.return_range[0], self.return_range[1]), self.ret_rms)
	self.normalized_critic_with_actor_tf = critic(normalized_obs0, self.actor_tf, reuse=True)
	self.critic_with_actor_tf = denormalize(
	tf.clip_by_value(self.normalized_critic_with_actor_tf, self.return_range[0], self.return_range[1]),
	self.ret_rms)
	Q_obs1 = denormalize(target_critic(normalized_obs1, target_actor(normalized_obs1)), self.ret_rms)
	self.target_Q = self.rewards + (1. - self.terminals1) * gamma * Q_obs1