ebetica/reinforce.py

## reinforce.py
import argparse
import gym
import numpy as np
from itertools import count

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import torch.autograd as autograd
from torch.autograd import Variable
import torchvision.transforms as T


parser = argparse.ArgumentParser(description='PyTorch REINFORCE example')
parser.add_argument('--gamma', type=float, default=0.9, metavar='G',
                    help='discount factor (default: 0.999)')
parser.add_argument('--seed', type=int, default=1, metavar='N',
                    help='random seed (default: 1)')
parser.add_argument('--log-interval', type=int, default=50, metavar='N',
                    help='interval between training status logs')
args = parser.parse_args()

# torch.manual_seed(args.seed)

class Policy(nn.Module):
    def __init__(self):
        super(Policy, self).__init__()
        self.affine1 = nn.Linear(4, 128)
        self.affine3 = nn.Linear(128, 2)

        self.sampled_probs = []
        self.sampled_actions = []
        self.rewards = []

    def forward(self, x):
        x = F.relu(self.affine1(x))
        x = F.relu(self.affine3(x))
        return F.softmax(x)


env = gym.make('CartPole-v0')
model = Policy()
optimizer = optim.RMSprop(model.parameters(), lr=1e-2, alpha=1, eps=1e-10)


def select_action(state):
    state = torch.from_numpy(state).float().unsqueeze(0)
    probs = model(Variable(state))
    action = probs.multinomial(1, True).data.squeeze()[0]
    model.sampled_probs.append(probs)
    model.sampled_actions.append(action)
    return action


def finish_episode():
    R = 0
    sampled_actions = model.sampled_actions
    sampled_probs = model.sampled_probs
    rewards = []
    for action, r in zip(sampled_actions[::-1], model.rewards[::-1]):
        R = r + args.gamma * R
        rewards.insert(0, R)
    rewards = torch.Tensor(rewards)
    rewards = (rewards - rewards.mean()) / rewards.std()
    ys = [torch.zeros(1, 2) for _ in sampled_probs]
    for i, action in enumerate(sampled_actions):
        ys[i][0][action] = 1

    loss = [((Variable(y) - p)**2).sum() / 2 for p, y in zip(sampled_probs, ys)]

    grads = {}
    for i, l in enumerate(loss):
        optimizer.zero_grad()
        l.backward()
        for j, group in enumerate(optimizer.param_groups):
            saved_group = grads.get(j, {})
            '''
            x = group['params'][-1]
            print(x)
            print(rewards[i] * x)
            '''
            for k, param in enumerate(group['params']):
                cumsum = saved_group.get(k, torch.zeros(param.grad.size()))
                cumsum += rewards[i] * param.grad.data
                saved_group[k] = cumsum
            '''
            print(cumsum)
            import pdb; pdb.set_trace()
            '''
            grads[j] = saved_group
    for j, group in enumerate(optimizer.param_groups):
        for k, param in enumerate(group['params']):
            param.grad.data = grads[j][k] / len(loss)
    '''
    for j, group in enumerate(optimizer.param_groups):
        for k, param in enumerate(group['params']):
            print("grad: ", param.grad.data.abs().max())
            print("param: ", param.data.abs().max())
    '''

    optimizer.step()
    del model.rewards[:]
    del model.sampled_actions[:]
    del model.sampled_probs[:]


running_reward = 10
for i_episode in count(1):
    reward_sum = 0
    state = env.reset()
    for t in count(1):
        action = select_action(state)
        state, reward, done, _ = env.step(action)
        model.rewards.append(reward)
        reward_sum += reward
        if done:
            break

    running_reward = running_reward * 0.99 + reward_sum * 0.01
    finish_episode()
    if i_episode % args.log_interval == 0:
        print('Episode {}\tLast length: {:5f}\tAverage length: {:.2f}'.format(
            i_episode, reward_sum, running_reward))
	import argparse
	import gym
	import numpy as np
	from itertools import count

	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	import torch.optim as optim
	import torch.autograd as autograd
	from torch.autograd import Variable
	import torchvision.transforms as T


	parser = argparse.ArgumentParser(description='PyTorch REINFORCE example')
	parser.add_argument('--gamma', type=float, default=0.9, metavar='G',
	help='discount factor (default: 0.999)')
	parser.add_argument('--seed', type=int, default=1, metavar='N',
	help='random seed (default: 1)')
	parser.add_argument('--log-interval', type=int, default=50, metavar='N',
	help='interval between training status logs')
	args = parser.parse_args()

	# torch.manual_seed(args.seed)

	class Policy(nn.Module):
	def __init__(self):
	super(Policy, self).__init__()
	self.affine1 = nn.Linear(4, 128)
	self.affine3 = nn.Linear(128, 2)

	self.sampled_probs = []
	self.sampled_actions = []
	self.rewards = []

	def forward(self, x):
	x = F.relu(self.affine1(x))
	x = F.relu(self.affine3(x))
	return F.softmax(x)


	env = gym.make('CartPole-v0')
	model = Policy()
	optimizer = optim.RMSprop(model.parameters(), lr=1e-2, alpha=1, eps=1e-10)


	def select_action(state):
	state = torch.from_numpy(state).float().unsqueeze(0)
	probs = model(Variable(state))
	action = probs.multinomial(1, True).data.squeeze()[0]
	model.sampled_probs.append(probs)
	model.sampled_actions.append(action)
	return action


	def finish_episode():
	R = 0
	sampled_actions = model.sampled_actions
	sampled_probs = model.sampled_probs
	rewards = []
	for action, r in zip(sampled_actions[::-1], model.rewards[::-1]):
	R = r + args.gamma * R
	rewards.insert(0, R)
	rewards = torch.Tensor(rewards)
	rewards = (rewards - rewards.mean()) / rewards.std()
	ys = [torch.zeros(1, 2) for _ in sampled_probs]
	for i, action in enumerate(sampled_actions):
	ys[i][0][action] = 1

	loss = [((Variable(y) - p)**2).sum() / 2 for p, y in zip(sampled_probs, ys)]

	grads = {}
	for i, l in enumerate(loss):
	optimizer.zero_grad()
	l.backward()
	for j, group in enumerate(optimizer.param_groups):
	saved_group = grads.get(j, {})
	'''
	x = group['params'][-1]
	print(x)
	print(rewards[i] * x)
	'''
	for k, param in enumerate(group['params']):
	cumsum = saved_group.get(k, torch.zeros(param.grad.size()))
	cumsum += rewards[i] * param.grad.data
	saved_group[k] = cumsum
	'''
	print(cumsum)
	import pdb; pdb.set_trace()
	'''
	grads[j] = saved_group
	for j, group in enumerate(optimizer.param_groups):
	for k, param in enumerate(group['params']):
	param.grad.data = grads[j][k] / len(loss)
	'''
	for j, group in enumerate(optimizer.param_groups):
	for k, param in enumerate(group['params']):
	print("grad: ", param.grad.data.abs().max())
	print("param: ", param.data.abs().max())
	'''

	optimizer.step()
	del model.rewards[:]
	del model.sampled_actions[:]
	del model.sampled_probs[:]


	running_reward = 10
	for i_episode in count(1):
	reward_sum = 0
	state = env.reset()
	for t in count(1):
	action = select_action(state)
	state, reward, done, _ = env.step(action)
	model.rewards.append(reward)
	reward_sum += reward
	if done:
	break

	running_reward = running_reward * 0.99 + reward_sum * 0.01
	finish_episode()
	if i_episode % args.log_interval == 0:
	print('Episode {}\tLast length: {:5f}\tAverage length: {:.2f}'.format(
	i_episode, reward_sum, running_reward))