awjuliani/boltzmann.py Secret

## boltzmann.py
#Add this to network to compute Boltzmann probabilities.
Temp = tf.placeholder(shape=None,dtype=tf.float32)
Q_dist = slim.softmax(Q_out/Temp)

#Use this for action selection.
t = 0.5
Q_probs = sess.run(Q_dist,feed_dict={inputs:[state],Temp:t})
action_value = np.random.choice(Q_probs[0],p=Q_probs[0])
action = np.argmax(Q_probs[0] == action_value)
	#Add this to network to compute Boltzmann probabilities.
	Temp = tf.placeholder(shape=None,dtype=tf.float32)
	Q_dist = slim.softmax(Q_out/Temp)

	#Use this for action selection.
	t = 0.5
	Q_probs = sess.run(Q_dist,feed_dict={inputs:[state],Temp:t})
	action_value = np.random.choice(Q_probs[0],p=Q_probs[0])
	action = np.argmax(Q_probs[0] == action_value)