AurelianTactics/trfl_double_q_learning.py

## trfl_double_q_learning.py
#TRFL qlearning
#qloss, q_learning = trfl.qlearning(self.output,self.actions_,self.reward,self.discount,self.targetQs_)
#TRFL double qlearing
qloss, q_learning = trfl.double_qlearning(self.output,self.actions_,self.reward,self.discount,self.targetQs_,self.output)
self.loss = tf.reduce_mean(qloss)
self.opt = tf.train.AdamOptimizer(learning_rate).minimize(self.loss)
	#TRFL qlearning
	#qloss, q_learning = trfl.qlearning(self.output,self.actions_,self.reward,self.discount,self.targetQs_)
	#TRFL double qlearing
	qloss, q_learning = trfl.double_qlearning(self.output,self.actions_,self.reward,self.discount,self.targetQs_,self.output)
	self.loss = tf.reduce_mean(qloss)
	self.opt = tf.train.AdamOptimizer(learning_rate).minimize(self.loss)