lsimmons2/cartpole_double_dqn_act.py

## cartpole_double_dqn_act.py
def act(self, state):
    if self.epsilon > np.random.rand():
        # explore
        return np.random.choice(ACTION_SPACE)
    else:
        # exploit - only use the online network to decide which action to take
        # if allowed by epsilon/the exploration factor
        state = self._reshape_state_for_net(state)
        q_values = self.online_network.predict(state)[0]
        return np.argmax(q_values)
	def act(self, state):
	if self.epsilon > np.random.rand():
	# explore
	return np.random.choice(ACTION_SPACE)
	else:
	# exploit - only use the online network to decide which action to take
	# if allowed by epsilon/the exploration factor
	state = self._reshape_state_for_net(state)
	q_values = self.online_network.predict(state)[0]
	return np.argmax(q_values)