Numfor Tiapo nums11

## test_agents.py
from Agents import UCBAgent
import matplotlib.pyplot as plt
from NonStationaryBanditEnv import NonStationaryBanditEnv
import numpy as np

env = NonStationaryBanditEnv()

def testUCBAgent(c):
	ucb_agent = UCBAgent(env, 0.1, c)
	num_episodes = 10000

## Agents.py
import random
import numpy as np

class Action(object):
	"""
	Implementation of an action.

	optimistic: determines whether or not Q is initialized optimistically
	"""
	def __init__(self, optimistic=False):

## Agents.py
import random

class Action(object):
	"""
	Implementation of an action.

	optimistic: determines whether or not Q is initialized optimistically
	"""
	def __init__(self, optimistic=False):
		# Current value estimation for this action

## NonStationaryBanditEnv.py
import gym
from gym import Env
from gym.spaces import Discrete
import random

class NonStationaryBanditEnv(Env):
    """
    Non-Stationary 5-arm Bandit Environment

    At any given time, the best action returns a reward of 1

## test_agents.py
import gym
import gym_bandits
from Agents import GreedyAgent, EpsilonGreedyAgent
import matplotlib.pyplot as plt

# env = gym.make("BanditTwoArmedDeterministicFixed-v0")
env = gym.make("BanditTenArmedUniformDistributedReward-v0")

greedy_agent = GreedyAgent(env)
e_greedy_agent = EpsilonGreedyAgent(env, 0.1)

## Agents.py
import random

class Action(object):
	"""
	Implementation of an action.

	optimistic: determines whether or not Q is initialized optimistically
	"""
	def __init__(self, optimistic=False):
		# Current value estimation for this action
	from Agents import UCBAgent
	import matplotlib.pyplot as plt
	from NonStationaryBanditEnv import NonStationaryBanditEnv
	import numpy as np

	env = NonStationaryBanditEnv()

	def testUCBAgent(c):
	ucb_agent = UCBAgent(env, 0.1, c)
	num_episodes = 10000
	import random
	import numpy as np

	class Action(object):
	"""
	Implementation of an action.

	optimistic: determines whether or not Q is initialized optimistically
	"""
	def __init__(self, optimistic=False):
	import gym
	from gym import Env
	from gym.spaces import Discrete
	import random

	class NonStationaryBanditEnv(Env):
	"""
	Non-Stationary 5-arm Bandit Environment

	At any given time, the best action returns a reward of 1
	import gym
	import gym_bandits
	from Agents import GreedyAgent, EpsilonGreedyAgent
	import matplotlib.pyplot as plt

	# env = gym.make("BanditTwoArmedDeterministicFixed-v0")
	env = gym.make("BanditTenArmedUniformDistributedReward-v0")

	greedy_agent = GreedyAgent(env)
	e_greedy_agent = EpsilonGreedyAgent(env, 0.1)