icyblade/frozenlake-v0.py

## frozenlake-v0.py
#! coding: utf8
import os

import gym
import numpy as np
from gym import wrappers

env = gym.make('FrozenLake-v0')
os.system('rm -rf /tmp/frozenlake_v0_q_table')
env = wrappers.Monitor(env, '/tmp/frozenlake_v0_q_table')
nb_epoch = 10000

Q = np.zeros([
    env.observation_space.n,
    env.action_space.n
])  # zero initialization
lr = 0.7  # learning rate
gamma = 0.99  # discount
rewards = []
for epoch in xrange(nb_epoch):
    observation_previous = env.reset()
    r = 0
    while True:
        action = np.argmax(
            Q[observation_previous, :] +
            np.random.randn(1, env.action_space.n)*(1.0/(epoch+1))
        )
        observation, reward, done, info = env.step(action)

        gradient = (
            reward + gamma*np.max(Q[observation, :]) -
            Q[observation_previous, action]
        )
        Q[observation_previous, action] += lr*gradient

        r += reward
        observation_previous = observation
        if done:
            env.close()
            break
    rewards.append(r)

print(np.mean(rewards))
	#! coding: utf8
	import os

	import gym
	import numpy as np
	from gym import wrappers

	env = gym.make('FrozenLake-v0')
	os.system('rm -rf /tmp/frozenlake_v0_q_table')
	env = wrappers.Monitor(env, '/tmp/frozenlake_v0_q_table')
	nb_epoch = 10000

	Q = np.zeros([
	env.observation_space.n,
	env.action_space.n
	]) # zero initialization
	lr = 0.7 # learning rate
	gamma = 0.99 # discount
	rewards = []
	for epoch in xrange(nb_epoch):
	observation_previous = env.reset()
	r = 0
	while True:
	action = np.argmax(
	Q[observation_previous, :] +
	np.random.randn(1, env.action_space.n)*(1.0/(epoch+1))
	)
	observation, reward, done, info = env.step(action)

	gradient = (
	reward + gamma*np.max(Q[observation, :]) -
	Q[observation_previous, action]
	)
	Q[observation_previous, action] += lr*gradient

	r += reward
	observation_previous = observation
	if done:
	env.close()
	break
	rewards.append(r)

	print(np.mean(rewards))