ikbendewilliam/AIP0-training-step.py

## AIP0-training-step.py
j+=1
s = env.get_board()
a = np.argmax(rlModel.predict(s)[0])
if np.random.rand(1) < random_action_threshold:
    a = env.random_action()
s1, reward, done = env.step(a)
rlModel.train_single_step(s, s1, a, reward, maximum_discount)
rAll += reward
if done:
    break
random_action_threshold = 1./((i/50) + 10)
	j+=1
	s = env.get_board()
	a = np.argmax(rlModel.predict(s)[0])
	if np.random.rand(1) < random_action_threshold:
	a = env.random_action()
	s1, reward, done = env.step(a)
	rlModel.train_single_step(s, s1, a, reward, maximum_discount)
	rAll += reward
	if done:
	break
	random_action_threshold = 1./((i/50) + 10)