jknthn/policy_iterator.py

## policy_iterator.py
def policy_iterator(env, n, t, epsilon=0.01):
    random_policy = create_random_policy(env)
    random_policy_score = test_policy(random_policy, env)
    best_policy = (random_policy, random_policy_score)

    for i in tqdm.tqdm(range(t)):
        new_policy =  monte_carlo_e_soft(env, policy=best_policy[0], episodes=n, epsilon=epsilon)
        new_policy_score = test_policy(new_policy, env)
        if new_policy_score > best_policy[1]:
            best_policy = (new_policy, new_policy_score)

    return best_policy
	def policy_iterator(env, n, t, epsilon=0.01):
	random_policy = create_random_policy(env)
	random_policy_score = test_policy(random_policy, env)
	best_policy = (random_policy, random_policy_score)

	for i in tqdm.tqdm(range(t)):
	new_policy = monte_carlo_e_soft(env, policy=best_policy[0], episodes=n, epsilon=epsilon)
	new_policy_score = test_policy(new_policy, env)
	if new_policy_score > best_policy[1]:
	best_policy = (new_policy, new_policy_score)

	return best_policy