kargarisaac/dqn-cartpole.ipynb

## dqn-cartpole.ipynb
{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# DQN"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "In this notebook, we want to implement DQN algorithm. Code mainly is from the RL course at Aalto university and the pytorch tutorial for DQN:\n",
    "https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "import numpy as np\n",
    "\n",
    "import torch\n",
    "import torch.nn as nn\n",
    "import torch.optim as optim\n",
    "import torch.nn.functional as F\n",
    "\n",
    "import matplotlib.pyplot as plt\n",
    "\n",
    "import gym\n",
    "\n",
    "import random\n",
    "\n",
    "from collections import namedtuple\n",
    "\n",
    "from itertools import count\n",
    "\n",
    "%matplotlib inline"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "import warnings\n",
    "warnings.simplefilter(\"error\")\n",
    "warnings.simplefilter(\"ignore\", UserWarning)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [],
   "source": [
    "torch.manual_seed(1)\n",
    "np.random.seed(1)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "[1]"
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "env_name = \"CartPole-v0\"\n",
    "env = gym.make(env_name)\n",
    "env.seed(1)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(Box(4,), Discrete(2))"
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "env.observation_space, env.action_space"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [],
   "source": [
    "TARGET_UPDATE = 10\n",
    "glie_a = 5\n",
    "num_episodes = 10000\n",
    "hidden = 256\n",
    "gamma = 0.999\n",
    "replay_buffer_size = 10000\n",
    "batch_size = 128\n",
    "eps_stop = 0.05"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [],
   "source": [
    "Transition = namedtuple('Transition',\n",
    "                        ('state', 'action', 'next_state', 'reward', 'done'))\n",
    "\n",
    "\n",
    "class ReplayMemory(object):\n",
    "    def __init__(self, capacity):\n",
    "        self.capacity = capacity\n",
    "        self.memory = []\n",
    "        self.position = 0\n",
    "\n",
    "    def push(self, *args):\n",
    "        \"\"\"Saves a transition.\"\"\"\n",
    "        if len(self.memory) < self.capacity:\n",
    "            self.memory.append(None)\n",
    "        self.memory[self.position] = Transition(*args)\n",
    "        self.position = (self.position + 1) % self.capacity\n",
    "\n",
    "    def sample(self, batch_size):\n",
    "        return random.sample(self.memory, batch_size)\n",
    "\n",
    "    def __len__(self):\n",
    "        return len(self.memory)\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [],
   "source": [
    "class DQN(nn.Module):\n",
    "    def __init__(self, state_space_dim, action_space_dim, hidden=12):\n",
    "        super(DQN, self).__init__()\n",
    "        self.hidden = hidden\n",
    "        self.fc1 = nn.Linear(state_space_dim, hidden)\n",
    "        self.fc2 = nn.Linear(hidden, hidden//2)\n",
    "        self.fc3 = nn.Linear(hidden//2, action_space_dim)\n",
    "\n",
    "    def forward(self, x):\n",
    "        x = self.fc1(x)\n",
    "        x = F.relu(x)\n",
    "        x = self.fc2(x)\n",
    "        x = F.relu(x)\n",
    "        x = self.fc3(x)\n",
    "        return x"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [],
   "source": [
    "class DQNAgent(object):\n",
    "    def __init__(self, state_space, n_actions, replay_buffer_size=50000,\n",
    "                 batch_size=32, hidden_size=12, gamma=0.98):\n",
    "        self.device = 'cuda' if torch.cuda.is_available() else 'cpu'\n",
    "        self.n_actions = n_actions\n",
    "        self.state_space_dim = state_space\n",
    "        self.policy_net = DQN(state_space, n_actions, hidden_size).to(self.device)\n",
    "        self.target_net = DQN(state_space, n_actions, hidden_size).to(self.device)\n",
    "        self.target_net.load_state_dict(self.policy_net.state_dict())\n",
    "        self.target_net.eval()\n",
    "\n",
    "        self.optimizer = optim.Adam(self.policy_net.parameters(), lr=1e-3)\n",
    "        self.memory = ReplayMemory(replay_buffer_size)\n",
    "        self.batch_size = batch_size\n",
    "        self.gamma = gamma\n",
    "\n",
    "    def update_network(self, updates=1):\n",
    "        for _ in range(updates):\n",
    "            self._do_network_update()\n",
    "\n",
    "    def _do_network_update(self):\n",
    "        if len(self.memory) < self.batch_size:\n",
    "            return\n",
    "        transitions = self.memory.sample(self.batch_size)\n",
    "        # Transpose the batch (see https://stackoverflow.com/a/19343/3343043 for\n",
    "        # detailed explanation). This converts batch-array of Transitions\n",
    "        # to Transition of batch-arrays.\n",
    "        batch = Transition(*zip(*transitions))\n",
    "\n",
    "        # Compute a mask of non-final states and concatenate the batch elements\n",
    "        # (a final state would've been the one after which simulation ended)\n",
    "        non_final_mask = 1 - torch.tensor(batch.done, dtype=torch.uint8)\n",
    "        non_final_next_states = [s for nonfinal,s in zip(non_final_mask,\n",
    "                                     batch.next_state) if nonfinal > 0]\n",
    "        non_final_next_states = torch.stack(non_final_next_states).to(self.device)\n",
    "        state_batch = torch.stack(batch.state).to(self.device)\n",
    "        action_batch = torch.cat(batch.action).to(self.device)\n",
    "        reward_batch = torch.cat(batch.reward).to(self.device)\n",
    "\n",
    "        self.optimizer.zero_grad()\n",
    "        # Compute Q(s_t, a) - the model computes Q(s_t), then we select the\n",
    "        # columns of actions taken. These are the actions which would've been taken\n",
    "        # for each batch state according to policy_net\n",
    "        state_action_values = self.policy_net(state_batch).gather(1, action_batch)\n",
    "        \n",
    "        # Compute V(s_{t+1}) for all next states.\n",
    "        # Expected values of actions for non_final_next_states are computed based\n",
    "        # on the \"older\" target_net; selecting their best reward with max(1)[0].\n",
    "        # This is merged based on the mask, such that we'll have either the expected\n",
    "        # state value or 0 in case the state was final.\n",
    "        # about detach(): https://discuss.pytorch.org/t/detach-no-grad-and-requires-grad/16915/7\n",
    "        next_state_values = torch.zeros(self.batch_size).to(self.device)\n",
    "        next_state_values[non_final_mask] = self.target_net(non_final_next_states).max(1)[0].detach()\n",
    "        expected_state_action_values = reward_batch + self.gamma * next_state_values\n",
    "        \n",
    "        # Compute Huber loss\n",
    "        loss = F.smooth_l1_loss(state_action_values.squeeze(),\n",
    "                                expected_state_action_values)\n",
    "\n",
    "        # Optimize the model\n",
    "        loss.backward()\n",
    "        for param in self.policy_net.parameters():\n",
    "            param.grad.data.clamp_(-1e-1, 1e-1)\n",
    "        self.optimizer.step()\n",
    "\n",
    "    def get_action(self, state, epsilon=0.05):\n",
    "        sample = random.random()\n",
    "        if sample > epsilon:\n",
    "            with torch.no_grad():\n",
    "                state = torch.from_numpy(state).float().to(self.device)\n",
    "                q_values = self.policy_net(state).to(self.device)\n",
    "                return torch.argmax(q_values).item()\n",
    "        else:\n",
    "            return random.randrange(self.n_actions)\n",
    "\n",
    "    def update_target_network(self):\n",
    "        self.target_net.load_state_dict(self.policy_net.state_dict())\n",
    "\n",
    "    def store_transition(self, state, action, next_state, reward, done):\n",
    "        action = torch.Tensor([[action]]).long()\n",
    "        reward = torch.tensor([reward], dtype=torch.float32)\n",
    "        next_state = torch.from_numpy(next_state).float()\n",
    "        state = torch.from_numpy(state).float()\n",
    "        self.memory.push(state, action, next_state, reward, done)\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [],
   "source": [
    "def plot_rewards(rewards):\n",
    "    plt.figure(2)\n",
    "    plt.clf()\n",
    "    rewards_t = torch.tensor(rewards, dtype=torch.float)\n",
    "    plt.title('Training...')\n",
    "    plt.xlabel('Episode')\n",
    "    plt.ylabel('Cumulative reward')\n",
    "    plt.grid(True)\n",
    "    plt.plot(rewards_t.numpy())\n",
    "    # Take 100 episode averages and plot them too\n",
    "    if len(rewards_t) >= 100:\n",
    "        means = rewards_t.unfold(0, 100, 1).mean(1).view(-1)\n",
    "        means = torch.cat((torch.zeros(99), means))\n",
    "        plt.plot(means.numpy())\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "agent policy net:  DQN(\n",
      "  (fc1): Linear(in_features=4, out_features=256, bias=True)\n",
      "  (fc2): Linear(in_features=256, out_features=128, bias=True)\n",
      "  (fc3): Linear(in_features=128, out_features=2, bias=True)\n",
      ")\n"
     ]
    }
   ],
   "source": [
    "# Get number of actions from gym action space\n",
    "n_actions = env.action_space.n\n",
    "state_space_dim = env.observation_space.shape[0]\n",
    "\n",
    "agent = DQNAgent(state_space_dim, n_actions, replay_buffer_size, batch_size,\n",
    "                  hidden, gamma)\n",
    "\n",
    "print('agent policy net: ', agent.policy_net)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "training started ...\n",
      "episode: 0: reward:  14.00, mean_100:  14.00, epsilon: 1.00\n",
      "training started ...\n",
      "episode: 1: reward:  40.00, mean_100:  27.00, epsilon: 0.83\n",
      "training started ...\n",
      "episode: 2: reward:  10.00, mean_100:  21.33, epsilon: 0.71\n",
      "training started ...\n",
      "episode: 3: reward:  15.00, mean_100:  19.75, epsilon: 0.62\n",
      "training started ...\n",
      "episode: 4: reward:  14.00, mean_100:  18.60, epsilon: 0.56\n",
      "training started ...\n",
      "episode: 5: reward:  27.00, mean_100:  20.00, epsilon: 0.50\n",
      "training started ...\n",
      "episode: 6: reward:  23.00, mean_100:  20.43, epsilon: 0.45\n",
      "training started ...\n",
      "episode: 7: reward:  10.00, mean_100:  19.12, epsilon: 0.42\n",
      "training started ...\n",
      "episode: 8: reward:  10.00, mean_100:  18.11, epsilon: 0.38\n",
      "training started ...\n",
      "episode: 9: reward:  12.00, mean_100:  17.50, epsilon: 0.36\n",
      "training started ...\n",
      "episode: 10: reward:  18.00, mean_100:  17.55, epsilon: 0.33\n",
      "training started ...\n",
      "episode: 11: reward:  12.00, mean_100:  17.08, epsilon: 0.31\n",
      "training started ...\n",
      "episode: 12: reward:  12.00, mean_100:  16.69, epsilon: 0.29\n",
      "training started ...\n",
      "episode: 13: reward:  12.00, mean_100:  16.36, epsilon: 0.28\n",
      "training started ...\n",
      "episode: 14: reward:   9.00, mean_100:  15.87, epsilon: 0.26\n",
      "training started ...\n",
      "episode: 15: reward:   8.00, mean_100:  15.38, epsilon: 0.25\n",
      "training started ...\n",
      "episode: 16: reward:   9.00, mean_100:  15.00, epsilon: 0.24\n",
      "training started ...\n",
      "episode: 17: reward:  12.00, mean_100:  14.83, epsilon: 0.23\n",
      "training started ...\n",
      "episode: 18: reward:  14.00, mean_100:  14.79, epsilon: 0.22\n",
      "training started ...\n",
      "episode: 19: reward:  10.00, mean_100:  14.55, epsilon: 0.21\n",
      "training started ...\n",
      "episode: 20: reward:  12.00, mean_100:  14.43, epsilon: 0.20\n",
      "training started ...\n",
      "episode: 21: reward:  12.00, mean_100:  14.32, epsilon: 0.19\n",
      "training started ...\n",
      "episode: 22: reward:   8.00, mean_100:  14.04, epsilon: 0.19\n",
      "training started ...\n",
      "episode: 23: reward:   8.00, mean_100:  13.79, epsilon: 0.18\n",
      "training started ...\n",
      "episode: 24: reward:  12.00, mean_100:  13.72, epsilon: 0.17\n",
      "training started ...\n",
      "episode: 25: reward:   9.00, mean_100:  13.54, epsilon: 0.17\n",
      "training started ...\n",
      "episode: 26: reward:  15.00, mean_100:  13.59, epsilon: 0.16\n",
      "training started ...\n",
      "episode: 27: reward:  12.00, mean_100:  13.54, epsilon: 0.16\n",
      "training started ...\n",
      "episode: 28: reward:   9.00, mean_100:  13.38, epsilon: 0.15\n",
      "training started ...\n",
      "episode: 29: reward:  14.00, mean_100:  13.40, epsilon: 0.15\n",
      "training started ...\n",
      "episode: 30: reward:  11.00, mean_100:  13.32, epsilon: 0.14\n",
      "training started ...\n",
      "episode: 31: reward:  20.00, mean_100:  13.53, epsilon: 0.14\n",
      "training started ...\n",
      "episode: 32: reward:  14.00, mean_100:  13.55, epsilon: 0.14\n",
      "training started ...\n",
      "episode: 33: reward:  18.00, mean_100:  13.68, epsilon: 0.13\n",
      "training started ...\n",
      "episode: 34: reward:  21.00, mean_100:  13.89, epsilon: 0.13\n",
      "training started ...\n",
      "episode: 35: reward:  24.00, mean_100:  14.17, epsilon: 0.12\n",
      "training started ...\n",
      "episode: 36: reward:  23.00, mean_100:  14.41, epsilon: 0.12\n",
      "training started ...\n",
      "episode: 37: reward:  19.00, mean_100:  14.53, epsilon: 0.12\n",
      "training started ...\n",
      "episode: 38: reward:  17.00, mean_100:  14.59, epsilon: 0.12\n",
      "training started ...\n",
      "episode: 39: reward:  15.00, mean_100:  14.60, epsilon: 0.11\n",
      "training started ...\n",
      "episode: 40: reward:  20.00, mean_100:  14.73, epsilon: 0.11\n",
      "training started ...\n",
      "episode: 41: reward:  21.00, mean_100:  14.88, epsilon: 0.11\n",
      "training started ...\n",
      "episode: 42: reward:  24.00, mean_100:  15.09, epsilon: 0.11\n",
      "training started ...\n",
      "episode: 43: reward:  25.00, mean_100:  15.32, epsilon: 0.10\n",
      "training started ...\n",
      "episode: 44: reward:  40.00, mean_100:  15.87, epsilon: 0.10\n",
      "training started ...\n",
      "episode: 45: reward:  31.00, mean_100:  16.20, epsilon: 0.10\n",
      "training started ...\n",
      "episode: 46: reward:  34.00, mean_100:  16.57, epsilon: 0.10\n",
      "training started ...\n",
      "episode: 47: reward:  58.00, mean_100:  17.44, epsilon: 0.10\n",
      "training started ...\n",
      "episode: 48: reward:  59.00, mean_100:  18.29, epsilon: 0.09\n",
      "training started ...\n",
      "episode: 49: reward:  62.00, mean_100:  19.16, epsilon: 0.09\n",
      "training started ...\n",
      "episode: 50: reward:  69.00, mean_100:  20.14, epsilon: 0.09\n",
      "training started ...\n",
      "episode: 51: reward:   9.00, mean_100:  19.92, epsilon: 0.09\n",
      "training started ...\n",
      "episode: 52: reward:  82.00, mean_100:  21.09, epsilon: 0.09\n",
      "training started ...\n",
      "episode: 53: reward: 136.00, mean_100:  23.22, epsilon: 0.09\n",
      "training started ...\n",
      "episode: 54: reward:  94.00, mean_100:  24.51, epsilon: 0.08\n",
      "training started ...\n",
      "episode: 55: reward: 200.00, mean_100:  27.64, epsilon: 0.08\n",
      "training started ...\n",
      "episode: 56: reward: 179.00, mean_100:  30.30, epsilon: 0.08\n",
      "training started ...\n",
      "episode: 57: reward: 100.00, mean_100:  31.50, epsilon: 0.08\n",
      "training started ...\n",
      "episode: 58: reward: 104.00, mean_100:  32.73, epsilon: 0.08\n",
      "training started ...\n",
      "episode: 59: reward: 118.00, mean_100:  34.15, epsilon: 0.08\n",
      "training started ...\n",
      "episode: 60: reward: 119.00, mean_100:  35.54, epsilon: 0.08\n",
      "training started ...\n",
      "episode: 61: reward: 158.00, mean_100:  37.52, epsilon: 0.08\n",
      "training started ...\n",
      "episode: 62: reward: 175.00, mean_100:  39.70, epsilon: 0.07\n",
      "training started ...\n",
      "episode: 63: reward: 123.00, mean_100:  41.00, epsilon: 0.07\n",
      "training started ...\n",
      "episode: 64: reward: 191.00, mean_100:  43.31, epsilon: 0.07\n",
      "training started ...\n",
      "episode: 65: reward: 148.00, mean_100:  44.89, epsilon: 0.07\n",
      "training started ...\n",
      "episode: 66: reward: 150.00, mean_100:  46.46, epsilon: 0.07\n",
      "training started ...\n",
      "episode: 67: reward: 111.00, mean_100:  47.41, epsilon: 0.07\n",
      "training started ...\n",
      "episode: 68: reward: 200.00, mean_100:  49.62, epsilon: 0.07\n",
      "training started ...\n",
      "episode: 69: reward: 106.00, mean_100:  50.43, epsilon: 0.07\n",
      "training started ...\n",
      "episode: 70: reward: 167.00, mean_100:  52.07, epsilon: 0.07\n",
      "training started ...\n",
      "episode: 71: reward: 166.00, mean_100:  53.65, epsilon: 0.07\n",
      "training started ...\n",
      "episode: 72: reward: 139.00, mean_100:  54.82, epsilon: 0.06\n",
      "training started ...\n",
      "episode: 73: reward: 200.00, mean_100:  56.78, epsilon: 0.06\n",
      "training started ...\n",
      "episode: 74: reward: 200.00, mean_100:  58.69, epsilon: 0.06\n",
      "training started ...\n",
      "episode: 75: reward: 185.00, mean_100:  60.36, epsilon: 0.06\n",
      "training started ...\n",
      "episode: 76: reward: 200.00, mean_100:  62.17, epsilon: 0.06\n",
      "training started ...\n",
      "episode: 77: reward: 200.00, mean_100:  63.94, epsilon: 0.06\n",
      "training started ...\n",
      "episode: 78: reward: 187.00, mean_100:  65.49, epsilon: 0.06\n",
      "training started ...\n",
      "episode: 79: reward: 163.00, mean_100:  66.71, epsilon: 0.06\n",
      "training started ...\n",
      "episode: 80: reward: 163.00, mean_100:  67.90, epsilon: 0.06\n",
      "training started ...\n",
      "episode: 81: reward: 200.00, mean_100:  69.51, epsilon: 0.06\n",
      "training started ...\n",
      "episode: 82: reward: 200.00, mean_100:  71.08, epsilon: 0.06\n",
      "training started ...\n",
      "episode: 83: reward: 196.00, mean_100:  72.57, epsilon: 0.06\n",
      "training started ...\n",
      "episode: 84: reward: 170.00, mean_100:  73.72, epsilon: 0.06\n",
      "training started ...\n",
      "episode: 85: reward: 200.00, mean_100:  75.19, epsilon: 0.06\n",
      "training started ...\n",
      "episode: 86: reward: 164.00, mean_100:  76.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 87: reward: 174.00, mean_100:  77.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 88: reward: 200.00, mean_100:  78.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 89: reward: 200.00, mean_100:  80.04, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 90: reward: 190.00, mean_100:  81.25, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 91: reward: 200.00, mean_100:  82.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 92: reward: 200.00, mean_100:  83.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 93: reward: 200.00, mean_100:  85.04, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 94: reward: 200.00, mean_100:  86.25, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 95: reward: 200.00, mean_100:  87.44, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 96: reward: 196.00, mean_100:  88.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 97: reward: 200.00, mean_100:  89.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 98: reward: 200.00, mean_100:  90.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 99: reward: 200.00, mean_100:  91.90, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 100: reward: 200.00, mean_100:  93.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 101: reward: 200.00, mean_100:  95.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 102: reward: 200.00, mean_100:  97.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 103: reward: 200.00, mean_100:  99.11, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 104: reward: 200.00, mean_100: 100.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 105: reward: 200.00, mean_100: 102.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 106: reward: 200.00, mean_100: 104.47, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 107: reward: 200.00, mean_100: 106.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 108: reward: 200.00, mean_100: 108.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 109: reward: 200.00, mean_100: 110.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 110: reward: 200.00, mean_100: 111.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 111: reward: 200.00, mean_100: 113.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 112: reward: 200.00, mean_100: 115.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 113: reward: 187.00, mean_100: 117.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 114: reward: 198.00, mean_100: 119.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 115: reward: 200.00, mean_100: 121.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 116: reward: 166.00, mean_100: 122.86, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 117: reward: 200.00, mean_100: 124.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 118: reward: 200.00, mean_100: 126.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 119: reward: 200.00, mean_100: 128.50, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 120: reward: 184.00, mean_100: 130.22, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 121: reward: 200.00, mean_100: 132.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 122: reward: 200.00, mean_100: 134.02, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 123: reward: 200.00, mean_100: 135.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 124: reward:  27.00, mean_100: 136.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 125: reward: 200.00, mean_100: 138.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 126: reward: 200.00, mean_100: 139.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 127: reward: 200.00, mean_100: 141.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 128: reward: 200.00, mean_100: 143.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 129: reward: 200.00, mean_100: 145.50, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 130: reward: 200.00, mean_100: 147.39, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 131: reward: 200.00, mean_100: 149.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 132: reward: 200.00, mean_100: 151.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 133: reward: 200.00, mean_100: 152.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 134: reward: 200.00, mean_100: 154.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 135: reward: 200.00, mean_100: 156.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 136: reward: 200.00, mean_100: 158.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 137: reward: 200.00, mean_100: 160.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 138: reward: 200.00, mean_100: 161.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 139: reward: 200.00, mean_100: 163.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 140: reward: 200.00, mean_100: 165.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 141: reward: 200.00, mean_100: 167.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 142: reward: 200.00, mean_100: 169.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 143: reward: 200.00, mean_100: 170.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 144: reward: 200.00, mean_100: 172.38, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 145: reward: 200.00, mean_100: 174.07, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 146: reward: 200.00, mean_100: 175.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 147: reward: 200.00, mean_100: 177.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 148: reward: 200.00, mean_100: 178.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 149: reward: 200.00, mean_100: 179.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 150: reward: 200.00, mean_100: 181.25, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 151: reward: 183.00, mean_100: 182.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 152: reward: 200.00, mean_100: 184.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 153: reward: 200.00, mean_100: 184.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 154: reward: 200.00, mean_100: 185.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 155: reward: 200.00, mean_100: 185.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 156: reward: 185.00, mean_100: 185.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 157: reward: 200.00, mean_100: 186.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 158: reward: 197.00, mean_100: 187.86, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 159: reward: 200.00, mean_100: 188.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 160: reward: 181.00, mean_100: 189.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 161: reward: 156.00, mean_100: 189.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 162: reward: 200.00, mean_100: 189.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 163: reward: 200.00, mean_100: 190.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 164: reward: 190.00, mean_100: 190.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 165: reward: 200.00, mean_100: 190.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 166: reward: 200.00, mean_100: 191.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 167: reward: 200.00, mean_100: 192.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 168: reward: 200.00, mean_100: 192.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 169: reward: 183.00, mean_100: 192.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 170: reward: 200.00, mean_100: 193.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 171: reward: 147.00, mean_100: 193.11, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 172: reward: 167.00, mean_100: 193.39, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 173: reward: 180.00, mean_100: 193.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 174: reward: 174.00, mean_100: 192.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 175: reward: 181.00, mean_100: 192.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 176: reward: 175.00, mean_100: 192.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 177: reward: 190.00, mean_100: 192.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 178: reward: 197.00, mean_100: 192.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 179: reward: 182.00, mean_100: 192.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 180: reward: 151.00, mean_100: 192.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 181: reward: 167.00, mean_100: 192.38, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 182: reward: 167.00, mean_100: 192.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 183: reward: 162.00, mean_100: 191.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 184: reward: 165.00, mean_100: 191.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 185: reward: 177.00, mean_100: 191.43, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 186: reward: 160.00, mean_100: 191.39, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 187: reward: 173.00, mean_100: 191.38, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 188: reward: 180.00, mean_100: 191.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 189: reward: 182.00, mean_100: 191.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 190: reward: 161.00, mean_100: 190.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 191: reward:  26.00, mean_100: 188.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 192: reward: 200.00, mean_100: 188.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 193: reward: 200.00, mean_100: 188.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 194: reward: 200.00, mean_100: 188.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 195: reward: 200.00, mean_100: 188.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 196: reward: 200.00, mean_100: 189.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 197: reward: 157.00, mean_100: 188.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 198: reward: 187.00, mean_100: 188.45, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 199: reward: 200.00, mean_100: 188.45, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 200: reward: 200.00, mean_100: 188.45, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 201: reward:  46.00, mean_100: 186.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 202: reward: 168.00, mean_100: 186.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 203: reward: 136.00, mean_100: 185.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 204: reward: 175.00, mean_100: 185.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 205: reward: 145.00, mean_100: 185.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 206: reward: 141.00, mean_100: 184.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 207: reward: 161.00, mean_100: 184.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 208: reward: 153.00, mean_100: 183.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 209: reward: 143.00, mean_100: 183.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 210: reward: 168.00, mean_100: 182.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 211: reward:  16.00, mean_100: 180.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 212: reward: 159.00, mean_100: 180.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 213: reward: 145.00, mean_100: 180.14, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 214: reward: 150.00, mean_100: 179.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 215: reward: 161.00, mean_100: 179.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 216: reward: 161.00, mean_100: 179.22, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 217: reward: 145.00, mean_100: 178.67, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 218: reward: 166.00, mean_100: 178.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 219: reward: 152.00, mean_100: 177.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 220: reward: 136.00, mean_100: 177.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 221: reward: 152.00, mean_100: 176.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 222: reward: 154.00, mean_100: 176.43, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 223: reward: 180.00, mean_100: 176.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 224: reward: 157.00, mean_100: 177.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 225: reward: 164.00, mean_100: 177.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 226: reward: 158.00, mean_100: 176.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 227: reward: 152.00, mean_100: 176.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 228: reward: 169.00, mean_100: 175.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 229: reward: 152.00, mean_100: 175.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 230: reward: 157.00, mean_100: 175.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 231: reward: 164.00, mean_100: 174.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 232: reward: 153.00, mean_100: 174.22, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 233: reward: 193.00, mean_100: 174.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 234: reward: 154.00, mean_100: 173.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 235: reward: 200.00, mean_100: 173.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 236: reward: 200.00, mean_100: 173.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 237: reward: 183.00, mean_100: 173.52, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 238: reward: 169.00, mean_100: 173.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 239: reward: 179.00, mean_100: 173.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 240: reward: 156.00, mean_100: 172.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 241: reward: 149.00, mean_100: 172.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 242: reward: 146.00, mean_100: 171.51, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 243: reward: 150.00, mean_100: 171.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 244: reward: 153.00, mean_100: 170.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 245: reward: 153.00, mean_100: 170.07, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 246: reward: 150.00, mean_100: 169.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 247: reward: 145.00, mean_100: 169.02, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 248: reward: 154.00, mean_100: 168.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 249: reward: 131.00, mean_100: 167.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 250: reward: 159.00, mean_100: 167.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 251: reward: 163.00, mean_100: 167.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 252: reward: 179.00, mean_100: 167.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 253: reward: 156.00, mean_100: 166.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 254: reward: 158.00, mean_100: 166.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 255: reward: 161.00, mean_100: 165.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 256: reward: 174.00, mean_100: 165.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 257: reward: 164.00, mean_100: 165.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 258: reward: 162.00, mean_100: 164.98, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 259: reward: 154.00, mean_100: 164.52, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 260: reward: 166.00, mean_100: 164.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 261: reward: 156.00, mean_100: 164.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 262: reward: 163.00, mean_100: 164.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 263: reward: 169.00, mean_100: 163.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 264: reward: 152.00, mean_100: 163.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 265: reward: 161.00, mean_100: 162.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 266: reward: 165.00, mean_100: 162.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 267: reward: 163.00, mean_100: 162.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 268: reward: 163.00, mean_100: 161.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 269: reward: 163.00, mean_100: 161.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 270: reward: 176.00, mean_100: 161.39, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 271: reward: 178.00, mean_100: 161.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 272: reward: 191.00, mean_100: 161.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 273: reward: 169.00, mean_100: 161.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 274: reward: 164.00, mean_100: 161.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 275: reward: 172.00, mean_100: 161.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 276: reward: 194.00, mean_100: 161.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 277: reward: 173.00, mean_100: 161.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 278: reward: 185.00, mean_100: 161.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 279: reward: 175.00, mean_100: 161.47, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 280: reward: 175.00, mean_100: 161.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 281: reward: 185.00, mean_100: 161.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 282: reward: 200.00, mean_100: 162.22, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 283: reward: 200.00, mean_100: 162.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 284: reward: 200.00, mean_100: 162.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 285: reward: 200.00, mean_100: 163.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 286: reward: 200.00, mean_100: 163.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 287: reward: 200.00, mean_100: 163.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 288: reward: 200.00, mean_100: 164.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 289: reward: 200.00, mean_100: 164.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 290: reward: 200.00, mean_100: 164.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 291: reward: 200.00, mean_100: 166.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 292: reward: 200.00, mean_100: 166.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 293: reward: 200.00, mean_100: 166.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 294: reward: 188.00, mean_100: 166.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 295: reward: 191.00, mean_100: 166.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 296: reward: 200.00, mean_100: 166.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 297: reward: 200.00, mean_100: 166.58, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 298: reward: 191.00, mean_100: 166.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 299: reward: 197.00, mean_100: 166.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 300: reward: 200.00, mean_100: 166.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 301: reward: 200.00, mean_100: 168.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 302: reward: 200.00, mean_100: 168.45, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 303: reward: 199.00, mean_100: 169.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 304: reward: 200.00, mean_100: 169.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 305: reward: 183.00, mean_100: 169.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 306: reward: 169.00, mean_100: 169.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 307: reward: 188.00, mean_100: 170.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 308: reward: 171.00, mean_100: 170.44, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 309: reward: 192.00, mean_100: 170.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 310: reward: 181.00, mean_100: 171.06, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 311: reward: 186.00, mean_100: 172.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 312: reward: 161.00, mean_100: 172.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 313: reward: 161.00, mean_100: 172.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 314: reward: 155.00, mean_100: 172.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 315: reward: 153.00, mean_100: 172.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 316: reward: 157.00, mean_100: 172.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 317: reward: 155.00, mean_100: 172.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 318: reward: 160.00, mean_100: 172.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 319: reward: 141.00, mean_100: 172.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 320: reward: 156.00, mean_100: 173.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 321: reward: 136.00, mean_100: 172.84, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 322: reward: 157.00, mean_100: 172.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 323: reward: 153.00, mean_100: 172.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 324: reward:  82.00, mean_100: 171.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 325: reward: 155.00, mean_100: 171.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 326: reward: 158.00, mean_100: 171.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 327: reward: 160.00, mean_100: 171.84, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 328: reward: 152.00, mean_100: 171.67, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 329: reward: 151.00, mean_100: 171.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 330: reward: 153.00, mean_100: 171.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 331: reward: 139.00, mean_100: 171.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 332: reward:  98.00, mean_100: 170.82, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 333: reward: 141.00, mean_100: 170.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 334: reward: 139.00, mean_100: 170.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 335: reward: 147.00, mean_100: 169.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 336: reward: 139.00, mean_100: 169.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 337: reward: 137.00, mean_100: 168.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 338: reward: 137.00, mean_100: 168.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 339: reward: 157.00, mean_100: 168.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 340: reward: 157.00, mean_100: 168.02, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 341: reward:  12.00, mean_100: 166.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 342: reward: 200.00, mean_100: 167.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 343: reward: 184.00, mean_100: 167.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 344: reward: 185.00, mean_100: 167.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 345: reward: 175.00, mean_100: 168.07, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 346: reward: 180.00, mean_100: 168.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 347: reward: 169.00, mean_100: 168.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 348: reward: 165.00, mean_100: 168.72, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 349: reward: 164.00, mean_100: 169.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 350: reward: 175.00, mean_100: 169.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 351: reward: 167.00, mean_100: 169.25, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 352: reward: 189.00, mean_100: 169.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 353: reward: 170.00, mean_100: 169.49, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 354: reward: 180.00, mean_100: 169.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 355: reward: 190.00, mean_100: 170.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 356: reward: 200.00, mean_100: 170.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 357: reward: 200.00, mean_100: 170.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 358: reward: 173.00, mean_100: 170.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 359: reward: 180.00, mean_100: 170.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 360: reward: 200.00, mean_100: 171.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 361: reward: 200.00, mean_100: 171.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 362: reward: 162.00, mean_100: 171.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 363: reward: 158.00, mean_100: 171.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 364: reward: 162.00, mean_100: 171.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 365: reward: 152.00, mean_100: 171.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 366: reward: 165.00, mean_100: 171.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 367: reward: 164.00, mean_100: 171.67, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 368: reward: 161.00, mean_100: 171.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 369: reward: 154.00, mean_100: 171.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 370: reward: 160.00, mean_100: 171.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 371: reward: 162.00, mean_100: 171.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 372: reward: 150.00, mean_100: 170.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 373: reward: 141.00, mean_100: 170.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 374: reward: 137.00, mean_100: 170.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 375: reward: 148.00, mean_100: 170.04, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 376: reward: 152.00, mean_100: 169.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 377: reward: 133.00, mean_100: 169.22, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 378: reward: 140.00, mean_100: 168.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 379: reward: 137.00, mean_100: 168.39, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 380: reward: 135.00, mean_100: 167.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 381: reward: 166.00, mean_100: 167.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 382: reward: 126.00, mean_100: 167.06, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 383: reward:  20.00, mean_100: 165.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 384: reward: 101.00, mean_100: 164.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 385: reward: 123.00, mean_100: 163.50, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 386: reward:  14.00, mean_100: 161.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 387: reward:  19.00, mean_100: 159.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 388: reward: 131.00, mean_100: 159.14, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 389: reward:  71.00, mean_100: 157.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 390: reward: 120.00, mean_100: 157.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 391: reward:  63.00, mean_100: 155.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 392: reward: 181.00, mean_100: 155.49, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 393: reward: 194.00, mean_100: 155.43, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 394: reward: 200.00, mean_100: 155.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 395: reward: 200.00, mean_100: 155.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 396: reward: 200.00, mean_100: 155.64, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 397: reward:  92.00, mean_100: 154.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 398: reward: 160.00, mean_100: 154.25, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 399: reward: 200.00, mean_100: 154.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 400: reward: 200.00, mean_100: 154.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 401: reward: 200.00, mean_100: 154.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 402: reward: 200.00, mean_100: 154.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 403: reward: 200.00, mean_100: 154.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 404: reward: 200.00, mean_100: 154.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 405: reward: 200.00, mean_100: 154.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 406: reward: 200.00, mean_100: 154.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 407: reward: 200.00, mean_100: 154.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 408: reward: 200.00, mean_100: 155.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 409: reward: 200.00, mean_100: 155.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 410: reward: 200.00, mean_100: 155.45, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 411: reward:  19.00, mean_100: 153.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 412: reward: 141.00, mean_100: 153.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 413: reward: 200.00, mean_100: 153.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 414: reward: 200.00, mean_100: 154.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 415: reward: 200.00, mean_100: 154.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 416: reward: 137.00, mean_100: 154.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 417: reward: 200.00, mean_100: 155.14, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 418: reward: 200.00, mean_100: 155.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 419: reward: 136.00, mean_100: 155.49, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 420: reward: 132.00, mean_100: 155.25, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 421: reward: 180.00, mean_100: 155.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 422: reward: 200.00, mean_100: 156.12, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 423: reward: 169.00, mean_100: 156.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 424: reward: 200.00, mean_100: 157.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 425: reward: 187.00, mean_100: 157.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 426: reward: 200.00, mean_100: 158.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 427: reward: 185.00, mean_100: 158.45, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 428: reward: 200.00, mean_100: 158.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 429: reward: 200.00, mean_100: 159.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 430: reward: 183.00, mean_100: 159.72, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 431: reward: 200.00, mean_100: 160.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 432: reward: 171.00, mean_100: 161.06, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 433: reward: 169.00, mean_100: 161.34, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 434: reward: 200.00, mean_100: 161.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 435: reward: 188.00, mean_100: 162.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 436: reward: 177.00, mean_100: 162.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 437: reward: 158.00, mean_100: 162.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 438: reward: 174.00, mean_100: 163.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 439: reward: 200.00, mean_100: 163.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 440: reward: 200.00, mean_100: 164.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 441: reward: 200.00, mean_100: 166.06, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 442: reward: 158.00, mean_100: 165.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 443: reward: 190.00, mean_100: 165.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 444: reward: 194.00, mean_100: 165.79, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 445: reward: 191.00, mean_100: 165.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 446: reward: 200.00, mean_100: 166.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 447: reward:  12.00, mean_100: 164.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 448: reward: 172.00, mean_100: 164.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 449: reward: 200.00, mean_100: 165.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 450: reward:  15.00, mean_100: 163.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 451: reward: 200.00, mean_100: 163.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 452: reward: 200.00, mean_100: 163.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 453: reward: 200.00, mean_100: 164.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 454: reward: 200.00, mean_100: 164.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 455: reward: 160.00, mean_100: 164.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 456: reward: 200.00, mean_100: 164.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 457: reward: 200.00, mean_100: 164.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 458: reward: 200.00, mean_100: 164.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 459: reward: 200.00, mean_100: 164.52, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 460: reward:  12.00, mean_100: 162.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 461: reward:  11.00, mean_100: 160.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 462: reward: 200.00, mean_100: 161.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 463: reward:  17.00, mean_100: 159.72, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 464: reward: 200.00, mean_100: 160.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 465: reward: 200.00, mean_100: 160.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 466: reward:  50.00, mean_100: 159.43, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 467: reward: 200.00, mean_100: 159.79, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 468: reward: 200.00, mean_100: 160.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 469: reward: 200.00, mean_100: 160.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 470: reward: 200.00, mean_100: 161.04, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 471: reward: 200.00, mean_100: 161.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 472: reward: 200.00, mean_100: 161.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 473: reward: 200.00, mean_100: 162.51, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 474: reward: 200.00, mean_100: 163.14, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 475: reward: 200.00, mean_100: 163.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 476: reward:  10.00, mean_100: 162.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 477: reward: 200.00, mean_100: 162.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 478: reward: 200.00, mean_100: 163.51, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 479: reward: 200.00, mean_100: 164.14, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 480: reward: 200.00, mean_100: 164.79, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 481: reward:  25.00, mean_100: 163.38, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 482: reward: 200.00, mean_100: 164.12, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 483: reward: 200.00, mean_100: 165.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 484: reward: 200.00, mean_100: 166.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 485: reward: 200.00, mean_100: 167.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 486: reward: 200.00, mean_100: 169.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 487: reward: 200.00, mean_100: 171.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 488: reward: 200.00, mean_100: 172.04, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 489: reward:  13.00, mean_100: 171.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 490: reward: 200.00, mean_100: 172.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 491: reward:  27.00, mean_100: 171.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 492: reward: 200.00, mean_100: 172.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 493: reward: 200.00, mean_100: 172.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 494: reward: 200.00, mean_100: 172.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 495: reward: 200.00, mean_100: 172.15, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 496: reward: 200.00, mean_100: 172.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 497: reward:  69.00, mean_100: 171.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 498: reward:  70.00, mean_100: 171.02, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 499: reward: 200.00, mean_100: 171.02, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 500: reward: 200.00, mean_100: 171.02, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 501: reward:  21.00, mean_100: 169.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 502: reward:  74.00, mean_100: 167.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 503: reward:  26.00, mean_100: 166.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 504: reward: 200.00, mean_100: 166.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 505: reward: 200.00, mean_100: 166.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 506: reward:  53.00, mean_100: 164.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 507: reward:  62.00, mean_100: 163.38, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 508: reward: 154.00, mean_100: 162.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 509: reward: 200.00, mean_100: 162.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 510: reward: 100.00, mean_100: 161.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 511: reward:  12.00, mean_100: 161.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 512: reward:  18.00, mean_100: 160.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 513: reward: 100.00, mean_100: 159.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 514: reward:  97.00, mean_100: 158.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 515: reward: 108.00, mean_100: 157.67, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 516: reward:  16.00, mean_100: 156.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 517: reward: 117.00, mean_100: 155.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 518: reward: 155.00, mean_100: 155.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 519: reward: 104.00, mean_100: 154.86, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 520: reward:  10.00, mean_100: 153.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 521: reward: 110.00, mean_100: 152.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 522: reward:  95.00, mean_100: 151.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 523: reward:  17.00, mean_100: 150.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 524: reward:  94.00, mean_100: 149.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 525: reward:  93.00, mean_100: 148.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 526: reward:  16.00, mean_100: 146.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 527: reward:  39.00, mean_100: 145.07, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 528: reward:  29.00, mean_100: 143.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 529: reward:  18.00, mean_100: 141.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 530: reward:  93.00, mean_100: 140.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 531: reward:  13.00, mean_100: 138.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 532: reward:  11.00, mean_100: 137.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 533: reward:  96.00, mean_100: 136.44, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 534: reward: 101.00, mean_100: 135.45, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 535: reward:  97.00, mean_100: 134.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 536: reward:  17.00, mean_100: 132.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 537: reward:  93.00, mean_100: 132.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 538: reward:  31.00, mean_100: 130.86, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 539: reward:  88.00, mean_100: 129.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 540: reward:  96.00, mean_100: 128.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 541: reward:  97.00, mean_100: 127.67, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 542: reward: 100.00, mean_100: 127.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 543: reward:  96.00, mean_100: 126.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 544: reward:  93.00, mean_100: 125.14, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 545: reward:  15.00, mean_100: 123.38, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 546: reward:  93.00, mean_100: 122.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 547: reward:  90.00, mean_100: 123.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 548: reward:  91.00, mean_100: 122.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 549: reward:  96.00, mean_100: 121.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 550: reward:  95.00, mean_100: 122.04, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 551: reward:  96.00, mean_100: 121.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 552: reward:  92.00, mean_100: 119.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 553: reward:  97.00, mean_100: 118.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 554: reward:  94.00, mean_100: 117.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 555: reward:  96.00, mean_100: 117.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 556: reward:  97.00, mean_100: 116.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 557: reward:  15.00, mean_100: 114.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 558: reward: 100.00, mean_100: 113.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 559: reward:  96.00, mean_100: 112.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 560: reward:  94.00, mean_100: 113.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 561: reward:  99.00, mean_100: 113.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 562: reward:  99.00, mean_100: 112.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 563: reward:  99.00, mean_100: 113.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 564: reward: 105.00, mean_100: 112.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 565: reward:  15.00, mean_100: 110.98, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 566: reward:  97.00, mean_100: 111.45, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 567: reward:  98.00, mean_100: 110.43, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 568: reward:  94.00, mean_100: 109.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 569: reward:  92.00, mean_100: 108.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 570: reward:  36.00, mean_100: 106.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 571: reward:  95.00, mean_100: 105.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 572: reward:  97.00, mean_100: 104.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 573: reward:  93.00, mean_100: 103.50, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 574: reward:  20.00, mean_100: 101.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 575: reward:  92.00, mean_100: 100.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 576: reward: 102.00, mean_100: 101.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 577: reward:  16.00, mean_100:  99.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 578: reward:  20.00, mean_100:  97.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 579: reward:  11.00, mean_100:  96.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 580: reward:  98.00, mean_100:  94.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 581: reward: 100.00, mean_100:  95.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 582: reward:  98.00, mean_100:  94.72, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 583: reward:  98.00, mean_100:  93.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 584: reward:  95.00, mean_100:  92.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 585: reward:  14.00, mean_100:  90.79, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 586: reward:  15.00, mean_100:  88.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 587: reward:  20.00, mean_100:  87.14, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 588: reward:  13.00, mean_100:  85.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 589: reward:  94.00, mean_100:  86.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 590: reward:  98.00, mean_100:  85.06, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 591: reward: 100.00, mean_100:  85.79, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 592: reward: 101.00, mean_100:  84.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 593: reward: 104.00, mean_100:  83.84, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 594: reward: 105.00, mean_100:  82.89, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 595: reward: 102.00, mean_100:  81.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 596: reward: 101.00, mean_100:  80.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 597: reward: 104.00, mean_100:  81.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 598: reward: 102.00, mean_100:  81.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 599: reward:  23.00, mean_100:  79.82, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 600: reward: 104.00, mean_100:  78.86, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 601: reward:  95.00, mean_100:  79.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 602: reward: 102.00, mean_100:  79.88, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 603: reward: 102.00, mean_100:  80.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 604: reward:  27.00, mean_100:  78.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 605: reward:  26.00, mean_100:  77.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 606: reward:  95.00, mean_100:  77.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 607: reward: 103.00, mean_100:  78.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 608: reward:  19.00, mean_100:  76.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 609: reward: 101.00, mean_100:  75.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 610: reward:  20.00, mean_100:  74.86, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 611: reward: 105.00, mean_100:  75.79, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 612: reward: 136.00, mean_100:  76.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 613: reward: 118.00, mean_100:  77.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 614: reward:  18.00, mean_100:  76.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 615: reward:  50.00, mean_100:  75.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 616: reward:  17.00, mean_100:  75.79, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 617: reward:  28.00, mean_100:  74.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 618: reward: 106.00, mean_100:  74.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 619: reward:  14.00, mean_100:  73.51, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 620: reward: 118.00, mean_100:  74.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 621: reward:  23.00, mean_100:  73.72, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 622: reward:  12.00, mean_100:  72.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 623: reward:  16.00, mean_100:  72.88, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 624: reward:  50.00, mean_100:  72.44, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 625: reward: 134.00, mean_100:  72.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 626: reward:  60.00, mean_100:  73.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 627: reward: 200.00, mean_100:  74.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 628: reward:  52.00, mean_100:  75.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 629: reward:  57.00, mean_100:  75.52, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 630: reward: 200.00, mean_100:  76.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 631: reward:  58.00, mean_100:  77.04, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 632: reward:  66.00, mean_100:  77.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 633: reward:  51.00, mean_100:  77.14, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 634: reward: 108.00, mean_100:  77.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 635: reward: 119.00, mean_100:  77.43, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 636: reward:  98.00, mean_100:  78.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 637: reward:  58.00, mean_100:  77.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 638: reward:  95.00, mean_100:  78.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 639: reward: 199.00, mean_100:  79.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 640: reward:  48.00, mean_100:  79.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 641: reward: 198.00, mean_100:  80.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 642: reward:  21.00, mean_100:  79.38, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 643: reward: 183.00, mean_100:  80.25, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 644: reward: 200.00, mean_100:  81.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 645: reward: 200.00, mean_100:  83.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 646: reward: 168.00, mean_100:  83.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 647: reward:  47.00, mean_100:  83.49, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 648: reward:  14.00, mean_100:  82.72, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 649: reward:  77.00, mean_100:  82.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 650: reward: 100.00, mean_100:  82.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 651: reward: 160.00, mean_100:  83.22, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 652: reward: 108.00, mean_100:  83.38, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 653: reward: 153.00, mean_100:  83.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 654: reward: 130.00, mean_100:  84.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 655: reward: 179.00, mean_100:  85.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 656: reward: 114.00, mean_100:  85.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 657: reward: 145.00, mean_100:  86.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 658: reward: 115.00, mean_100:  86.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 659: reward: 115.00, mean_100:  86.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 660: reward: 116.00, mean_100:  87.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 661: reward: 105.00, mean_100:  87.22, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 662: reward: 111.00, mean_100:  87.34, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 663: reward: 117.00, mean_100:  87.52, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 664: reward: 117.00, mean_100:  87.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 665: reward: 108.00, mean_100:  88.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 666: reward: 112.00, mean_100:  88.72, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 667: reward: 112.00, mean_100:  88.86, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 668: reward: 105.00, mean_100:  88.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 669: reward: 105.00, mean_100:  89.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 670: reward: 104.00, mean_100:  89.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 671: reward: 102.00, mean_100:  89.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 672: reward: 107.00, mean_100:  89.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 673: reward: 108.00, mean_100:  90.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 674: reward: 110.00, mean_100:  91.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 675: reward: 109.00, mean_100:  91.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 676: reward: 108.00, mean_100:  91.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 677: reward: 104.00, mean_100:  92.11, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 678: reward: 107.00, mean_100:  92.98, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 679: reward: 106.00, mean_100:  93.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 680: reward: 104.00, mean_100:  93.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 681: reward: 114.00, mean_100:  94.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 682: reward: 114.00, mean_100:  94.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 683: reward: 106.00, mean_100:  94.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 684: reward: 109.00, mean_100:  94.51, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 685: reward: 103.00, mean_100:  95.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 686: reward: 104.00, mean_100:  96.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 687: reward: 104.00, mean_100:  97.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 688: reward: 110.00, mean_100:  98.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 689: reward: 119.00, mean_100:  98.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 690: reward: 111.00, mean_100:  98.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 691: reward: 113.00, mean_100:  98.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 692: reward: 111.00, mean_100:  98.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 693: reward: 103.00, mean_100:  98.70, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 694: reward: 176.00, mean_100:  99.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 695: reward: 111.00, mean_100:  99.50, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 696: reward: 102.00, mean_100:  99.51, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 697: reward: 113.00, mean_100:  99.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 698: reward: 111.00, mean_100:  99.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 699: reward: 109.00, mean_100: 100.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 700: reward: 110.00, mean_100: 100.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 701: reward: 108.00, mean_100: 100.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 702: reward: 200.00, mean_100: 101.72, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 703: reward: 111.00, mean_100: 101.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 704: reward: 115.00, mean_100: 102.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 705: reward: 143.00, mean_100: 103.86, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 706: reward: 139.00, mean_100: 104.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 707: reward: 200.00, mean_100: 105.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 708: reward: 139.00, mean_100: 106.47, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 709: reward: 176.00, mean_100: 107.22, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 710: reward: 110.00, mean_100: 108.12, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 711: reward: 141.00, mean_100: 108.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 712: reward: 200.00, mean_100: 109.12, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 713: reward: 200.00, mean_100: 109.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 714: reward: 200.00, mean_100: 111.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 715: reward: 199.00, mean_100: 113.25, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 716: reward: 200.00, mean_100: 115.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 717: reward: 200.00, mean_100: 116.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 718: reward: 173.00, mean_100: 117.47, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 719: reward: 200.00, mean_100: 119.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 720: reward: 151.00, mean_100: 119.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 721: reward:  18.00, mean_100: 119.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 722: reward: 200.00, mean_100: 121.49, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 723: reward: 200.00, mean_100: 123.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 724: reward: 200.00, mean_100: 124.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 725: reward: 200.00, mean_100: 125.49, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 726: reward: 200.00, mean_100: 126.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 727: reward: 200.00, mean_100: 126.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 728: reward: 200.00, mean_100: 128.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 729: reward: 200.00, mean_100: 129.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 730: reward: 200.00, mean_100: 129.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 731: reward: 200.00, mean_100: 131.22, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 732: reward: 200.00, mean_100: 132.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 733: reward: 200.00, mean_100: 134.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 734: reward: 200.00, mean_100: 134.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 735: reward: 200.00, mean_100: 135.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 736: reward: 200.00, mean_100: 136.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 737: reward: 200.00, mean_100: 138.22, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 738: reward: 200.00, mean_100: 139.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 739: reward: 200.00, mean_100: 139.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 740: reward: 200.00, mean_100: 140.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 741: reward:  12.00, mean_100: 138.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 742: reward: 113.00, mean_100: 139.86, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 743: reward: 200.00, mean_100: 140.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 744: reward: 200.00, mean_100: 140.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 745: reward: 200.00, mean_100: 140.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 746: reward: 200.00, mean_100: 140.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 747: reward: 200.00, mean_100: 141.88, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 748: reward: 200.00, mean_100: 143.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 749: reward: 200.00, mean_100: 144.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 750: reward: 200.00, mean_100: 145.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 751: reward: 139.00, mean_100: 145.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 752: reward: 200.00, mean_100: 146.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 753: reward: 145.00, mean_100: 146.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 754: reward: 200.00, mean_100: 147.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 755: reward: 200.00, mean_100: 147.51, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 756: reward: 200.00, mean_100: 148.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 757: reward: 200.00, mean_100: 148.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 758: reward: 200.00, mean_100: 149.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 759: reward: 200.00, mean_100: 150.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 760: reward: 200.00, mean_100: 151.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 761: reward: 200.00, mean_100: 152.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 762: reward: 200.00, mean_100: 153.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 763: reward: 200.00, mean_100: 154.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 764: reward: 200.00, mean_100: 154.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 765: reward: 200.00, mean_100: 155.88, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 766: reward: 187.00, mean_100: 156.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 767: reward: 200.00, mean_100: 157.51, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 768: reward: 138.00, mean_100: 157.84, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 769: reward: 150.00, mean_100: 158.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 770: reward: 200.00, mean_100: 159.25, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 771: reward: 155.00, mean_100: 159.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 772: reward: 181.00, mean_100: 160.52, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 773: reward: 142.00, mean_100: 160.86, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 774: reward: 145.00, mean_100: 161.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 775: reward: 148.00, mean_100: 161.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 776: reward: 153.00, mean_100: 162.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 777: reward: 152.00, mean_100: 162.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 778: reward: 200.00, mean_100: 163.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 779: reward:  15.00, mean_100: 162.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 780: reward: 150.00, mean_100: 163.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 781: reward: 200.00, mean_100: 163.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 782: reward: 200.00, mean_100: 164.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 783: reward: 200.00, mean_100: 165.67, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 784: reward: 199.00, mean_100: 166.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 785: reward: 199.00, mean_100: 167.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 786: reward: 200.00, mean_100: 168.49, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 787: reward: 200.00, mean_100: 169.45, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 788: reward: 200.00, mean_100: 170.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 789: reward: 200.00, mean_100: 171.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 790: reward: 198.00, mean_100: 172.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 791: reward: 200.00, mean_100: 172.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 792: reward: 200.00, mean_100: 173.79, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 793: reward:  70.00, mean_100: 173.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 794: reward: 200.00, mean_100: 173.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 795: reward:  68.00, mean_100: 173.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 796: reward: 200.00, mean_100: 174.25, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 797: reward:  68.00, mean_100: 173.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 798: reward: 200.00, mean_100: 174.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 799: reward: 200.00, mean_100: 175.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 800: reward: 200.00, mean_100: 176.50, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 801: reward: 200.00, mean_100: 177.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 802: reward: 200.00, mean_100: 177.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 803: reward:  69.00, mean_100: 177.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 804: reward: 200.00, mean_100: 177.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 805: reward:  69.00, mean_100: 177.11, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 806: reward: 200.00, mean_100: 177.72, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 807: reward:  97.00, mean_100: 176.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 808: reward:  66.00, mean_100: 175.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 809: reward:  37.00, mean_100: 174.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 810: reward:  42.00, mean_100: 173.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 811: reward: 200.00, mean_100: 174.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 812: reward: 200.00, mean_100: 174.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 813: reward:  32.00, mean_100: 172.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 814: reward: 200.00, mean_100: 172.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 815: reward: 200.00, mean_100: 172.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 816: reward: 200.00, mean_100: 172.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 817: reward: 200.00, mean_100: 172.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 818: reward: 200.00, mean_100: 173.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 819: reward:  43.00, mean_100: 171.51, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 820: reward:  32.00, mean_100: 170.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 821: reward: 200.00, mean_100: 172.14, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 822: reward:  74.00, mean_100: 170.88, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 823: reward:  43.00, mean_100: 169.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 824: reward:  61.00, mean_100: 167.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 825: reward:  63.00, mean_100: 166.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 826: reward:  72.00, mean_100: 165.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 827: reward:  80.00, mean_100: 164.07, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 828: reward: 200.00, mean_100: 164.07, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 829: reward:  83.00, mean_100: 162.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 830: reward: 200.00, mean_100: 162.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 831: reward: 200.00, mean_100: 162.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 832: reward: 200.00, mean_100: 162.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 833: reward: 200.00, mean_100: 162.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 834: reward: 200.00, mean_100: 162.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 835: reward: 200.00, mean_100: 162.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 836: reward: 200.00, mean_100: 162.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 837: reward: 200.00, mean_100: 162.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 838: reward: 200.00, mean_100: 162.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 839: reward: 200.00, mean_100: 162.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 840: reward: 200.00, mean_100: 162.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 841: reward: 200.00, mean_100: 164.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 842: reward: 200.00, mean_100: 165.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 843: reward: 200.00, mean_100: 165.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 844: reward: 200.00, mean_100: 165.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 845: reward:  83.00, mean_100: 164.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 846: reward: 200.00, mean_100: 164.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 847: reward: 200.00, mean_100: 164.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 848: reward: 200.00, mean_100: 164.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 849: reward: 200.00, mean_100: 164.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 850: reward: 200.00, mean_100: 164.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 851: reward: 200.00, mean_100: 165.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 852: reward: 200.00, mean_100: 165.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 853: reward: 200.00, mean_100: 165.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 854: reward: 200.00, mean_100: 165.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 855: reward: 200.00, mean_100: 165.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 856: reward:  71.00, mean_100: 164.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 857: reward:  65.00, mean_100: 163.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 858: reward: 200.00, mean_100: 163.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 859: reward: 200.00, mean_100: 163.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 860: reward: 200.00, mean_100: 163.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 861: reward:  27.00, mean_100: 161.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 862: reward: 200.00, mean_100: 161.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 863: reward: 200.00, mean_100: 161.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 864: reward: 200.00, mean_100: 161.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 865: reward: 200.00, mean_100: 161.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 866: reward: 200.00, mean_100: 161.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 867: reward: 200.00, mean_100: 161.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 868: reward: 200.00, mean_100: 162.02, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 869: reward:  34.00, mean_100: 160.86, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 870: reward: 200.00, mean_100: 160.86, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 871: reward: 200.00, mean_100: 161.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 872: reward: 200.00, mean_100: 161.50, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 873: reward: 200.00, mean_100: 162.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 874: reward: 200.00, mean_100: 162.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 875: reward: 200.00, mean_100: 163.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 876: reward: 200.00, mean_100: 163.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 877: reward: 200.00, mean_100: 164.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 878: reward:  63.00, mean_100: 162.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 879: reward: 200.00, mean_100: 164.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 880: reward: 200.00, mean_100: 165.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 881: reward: 200.00, mean_100: 165.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 882: reward: 200.00, mean_100: 165.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 883: reward: 200.00, mean_100: 165.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 884: reward: 200.00, mean_100: 165.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 885: reward: 200.00, mean_100: 165.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 886: reward: 200.00, mean_100: 165.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 887: reward:  18.00, mean_100: 163.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 888: reward: 200.00, mean_100: 163.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 889: reward: 200.00, mean_100: 163.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 890: reward: 200.00, mean_100: 163.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 891: reward: 200.00, mean_100: 163.30, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 892: reward: 200.00, mean_100: 163.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 893: reward: 200.00, mean_100: 164.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 894: reward: 200.00, mean_100: 164.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 895: reward: 200.00, mean_100: 165.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 896: reward: 200.00, mean_100: 165.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 897: reward: 200.00, mean_100: 167.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 898: reward: 200.00, mean_100: 167.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 899: reward: 200.00, mean_100: 167.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 900: reward:  57.00, mean_100: 165.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 901: reward:  51.00, mean_100: 164.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 902: reward:  61.00, mean_100: 162.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 903: reward: 200.00, mean_100: 164.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 904: reward: 200.00, mean_100: 164.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 905: reward: 200.00, mean_100: 165.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 906: reward: 200.00, mean_100: 165.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 907: reward: 200.00, mean_100: 166.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 908: reward: 200.00, mean_100: 167.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 909: reward: 200.00, mean_100: 169.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 910: reward: 200.00, mean_100: 171.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 911: reward: 200.00, mean_100: 171.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 912: reward: 200.00, mean_100: 171.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 913: reward:  55.00, mean_100: 171.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 914: reward:  39.00, mean_100: 169.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 915: reward: 200.00, mean_100: 169.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 916: reward: 200.00, mean_100: 169.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 917: reward: 200.00, mean_100: 169.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 918: reward: 200.00, mean_100: 169.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 919: reward: 200.00, mean_100: 171.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 920: reward: 200.00, mean_100: 173.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 921: reward: 200.00, mean_100: 173.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 922: reward: 200.00, mean_100: 174.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 923: reward: 200.00, mean_100: 175.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 924: reward: 200.00, mean_100: 177.22, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 925: reward: 200.00, mean_100: 178.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 926: reward: 200.00, mean_100: 179.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 927: reward:  41.00, mean_100: 179.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 928: reward: 200.00, mean_100: 179.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 929: reward: 200.00, mean_100: 180.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 930: reward:  45.00, mean_100: 179.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 931: reward: 200.00, mean_100: 179.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 932: reward: 200.00, mean_100: 179.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 933: reward: 200.00, mean_100: 179.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 934: reward: 200.00, mean_100: 179.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 935: reward: 200.00, mean_100: 179.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 936: reward:  17.00, mean_100: 177.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 937: reward: 200.00, mean_100: 177.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 938: reward: 200.00, mean_100: 177.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 939: reward: 200.00, mean_100: 177.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 940: reward: 200.00, mean_100: 177.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 941: reward:  22.00, mean_100: 175.49, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 942: reward: 200.00, mean_100: 175.49, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 943: reward: 200.00, mean_100: 175.49, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 944: reward: 200.00, mean_100: 175.49, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 945: reward: 200.00, mean_100: 176.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 946: reward: 200.00, mean_100: 176.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 947: reward: 200.00, mean_100: 176.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 948: reward: 200.00, mean_100: 176.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 949: reward: 200.00, mean_100: 176.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 950: reward: 200.00, mean_100: 176.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 951: reward: 200.00, mean_100: 176.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 952: reward: 200.00, mean_100: 176.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 953: reward: 200.00, mean_100: 176.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 954: reward: 200.00, mean_100: 176.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 955: reward: 200.00, mean_100: 176.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 956: reward: 200.00, mean_100: 177.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 957: reward: 200.00, mean_100: 179.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 958: reward: 200.00, mean_100: 179.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 959: reward: 200.00, mean_100: 179.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 960: reward: 200.00, mean_100: 179.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 961: reward: 200.00, mean_100: 181.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 962: reward: 200.00, mean_100: 181.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 963: reward: 200.00, mean_100: 181.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 964: reward: 200.00, mean_100: 181.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 965: reward: 200.00, mean_100: 181.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 966: reward: 200.00, mean_100: 181.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 967: reward: 200.00, mean_100: 181.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 968: reward: 200.00, mean_100: 181.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 969: reward:  25.00, mean_100: 180.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 970: reward:  16.00, mean_100: 179.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 971: reward: 200.00, mean_100: 179.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 972: reward: 200.00, mean_100: 179.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 973: reward: 200.00, mean_100: 179.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 974: reward: 200.00, mean_100: 179.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 975: reward:  78.00, mean_100: 177.88, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 976: reward: 200.00, mean_100: 177.88, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 977: reward: 200.00, mean_100: 177.88, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 978: reward: 200.00, mean_100: 179.25, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 979: reward:  54.00, mean_100: 177.79, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 980: reward: 200.00, mean_100: 177.79, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 981: reward: 200.00, mean_100: 177.79, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 982: reward: 200.00, mean_100: 177.79, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 983: reward: 200.00, mean_100: 177.79, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 984: reward:  23.00, mean_100: 176.02, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 985: reward:  16.00, mean_100: 174.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 986: reward: 200.00, mean_100: 174.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 987: reward: 200.00, mean_100: 176.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 988: reward: 200.00, mean_100: 176.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 989: reward: 200.00, mean_100: 176.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 990: reward: 200.00, mean_100: 176.00, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 991: reward: 200.00, mean_100: 176.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 992: reward: 200.00, mean_100: 176.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 993: reward: 200.00, mean_100: 176.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 994: reward: 200.00, mean_100: 176.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 995: reward: 200.00, mean_100: 176.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 996: reward:  53.00, mean_100: 174.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 997: reward: 200.00, mean_100: 174.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 998: reward: 200.00, mean_100: 174.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 999: reward:  11.00, mean_100: 172.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1000: reward:  60.00, mean_100: 172.67, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1001: reward: 200.00, mean_100: 174.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1002: reward: 200.00, mean_100: 175.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1003: reward: 200.00, mean_100: 175.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1004: reward: 200.00, mean_100: 175.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1005: reward: 200.00, mean_100: 175.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1006: reward: 200.00, mean_100: 175.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1007: reward: 200.00, mean_100: 175.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1008: reward: 200.00, mean_100: 175.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1009: reward: 200.00, mean_100: 175.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1010: reward: 200.00, mean_100: 175.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1011: reward: 200.00, mean_100: 175.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1012: reward: 200.00, mean_100: 175.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1013: reward: 200.00, mean_100: 177.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1014: reward: 200.00, mean_100: 178.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1015: reward: 200.00, mean_100: 178.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1016: reward: 200.00, mean_100: 178.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1017: reward: 200.00, mean_100: 178.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1018: reward: 200.00, mean_100: 178.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1019: reward: 200.00, mean_100: 178.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1020: reward: 200.00, mean_100: 178.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1021: reward:  20.00, mean_100: 176.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1022: reward: 200.00, mean_100: 176.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1023: reward: 200.00, mean_100: 176.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1024: reward: 200.00, mean_100: 176.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1025: reward: 200.00, mean_100: 176.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1026: reward: 200.00, mean_100: 176.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1027: reward: 200.00, mean_100: 178.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1028: reward: 200.00, mean_100: 178.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1029: reward: 200.00, mean_100: 178.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1030: reward: 200.00, mean_100: 179.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1031: reward: 200.00, mean_100: 179.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1032: reward: 138.00, mean_100: 179.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1033: reward: 200.00, mean_100: 179.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1034: reward: 200.00, mean_100: 179.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1035: reward: 125.00, mean_100: 178.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1036: reward: 118.00, mean_100: 179.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1037: reward: 133.00, mean_100: 178.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1038: reward: 200.00, mean_100: 178.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1039: reward: 200.00, mean_100: 178.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1040: reward: 200.00, mean_100: 178.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1041: reward: 200.00, mean_100: 180.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1042: reward: 138.00, mean_100: 180.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1043: reward: 140.00, mean_100: 179.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1044: reward: 147.00, mean_100: 178.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1045: reward: 126.00, mean_100: 178.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1046: reward: 128.00, mean_100: 177.49, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1047: reward: 153.00, mean_100: 177.02, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1048: reward: 133.00, mean_100: 176.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1049: reward: 141.00, mean_100: 175.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1050: reward: 200.00, mean_100: 175.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1051: reward: 129.00, mean_100: 175.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1052: reward: 159.00, mean_100: 174.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1053: reward: 136.00, mean_100: 174.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1054: reward: 142.00, mean_100: 173.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1055: reward: 148.00, mean_100: 172.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1056: reward: 158.00, mean_100: 172.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1057: reward: 200.00, mean_100: 172.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1058: reward: 172.00, mean_100: 172.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1059: reward: 165.00, mean_100: 171.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1060: reward: 162.00, mean_100: 171.47, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1061: reward: 141.00, mean_100: 170.88, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1062: reward: 141.00, mean_100: 170.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1063: reward: 177.00, mean_100: 170.06, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1064: reward: 161.00, mean_100: 169.67, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1065: reward: 160.00, mean_100: 169.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1066: reward: 111.00, mean_100: 168.38, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1067: reward: 134.00, mean_100: 167.72, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1068: reward: 145.00, mean_100: 167.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1069: reward: 200.00, mean_100: 168.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1070: reward: 144.00, mean_100: 170.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1071: reward: 151.00, mean_100: 169.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1072: reward: 116.00, mean_100: 168.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1073: reward: 131.00, mean_100: 168.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1074: reward: 116.00, mean_100: 167.34, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1075: reward: 105.00, mean_100: 167.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1076: reward: 142.00, mean_100: 167.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1077: reward: 113.00, mean_100: 166.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1078: reward: 119.00, mean_100: 165.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1079: reward: 124.00, mean_100: 166.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1080: reward: 102.00, mean_100: 165.07, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1081: reward: 114.00, mean_100: 164.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1082: reward:  79.00, mean_100: 163.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1083: reward:  72.00, mean_100: 161.72, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1084: reward: 118.00, mean_100: 162.67, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1085: reward:  67.00, mean_100: 163.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1086: reward:  65.00, mean_100: 161.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1087: reward:  74.00, mean_100: 160.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1088: reward: 100.00, mean_100: 159.57, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 1089: reward:  66.00, mean_100: 158.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1090: reward: 200.00, mean_100: 158.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1091: reward:  81.00, mean_100: 157.04, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1092: reward: 200.00, mean_100: 157.04, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1093: reward: 117.00, mean_100: 156.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1094: reward:  19.00, mean_100: 154.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1095: reward: 200.00, mean_100: 154.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1096: reward: 200.00, mean_100: 155.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1097: reward:  20.00, mean_100: 154.07, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1098: reward:  15.00, mean_100: 152.22, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1099: reward: 200.00, mean_100: 154.11, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1100: reward:  69.00, mean_100: 154.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1101: reward: 200.00, mean_100: 154.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1102: reward: 200.00, mean_100: 154.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1103: reward: 200.00, mean_100: 154.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1104: reward: 200.00, mean_100: 154.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1105: reward: 200.00, mean_100: 154.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1106: reward: 200.00, mean_100: 154.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1107: reward: 200.00, mean_100: 154.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1108: reward: 200.00, mean_100: 154.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1109: reward: 200.00, mean_100: 154.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1110: reward: 200.00, mean_100: 154.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1111: reward: 200.00, mean_100: 154.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1112: reward: 200.00, mean_100: 154.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1113: reward: 200.00, mean_100: 154.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1114: reward: 200.00, mean_100: 154.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1115: reward: 200.00, mean_100: 154.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1116: reward: 200.00, mean_100: 154.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1117: reward: 200.00, mean_100: 154.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1118: reward: 200.00, mean_100: 154.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1119: reward: 181.00, mean_100: 154.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1120: reward: 200.00, mean_100: 154.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1121: reward: 200.00, mean_100: 155.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1122: reward: 200.00, mean_100: 155.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1123: reward: 200.00, mean_100: 155.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1124: reward: 200.00, mean_100: 155.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1125: reward: 200.00, mean_100: 155.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1126: reward: 200.00, mean_100: 155.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1127: reward:  20.00, mean_100: 154.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1128: reward: 200.00, mean_100: 154.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1129: reward:  16.00, mean_100: 152.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1130: reward: 200.00, mean_100: 152.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1131: reward:  22.00, mean_100: 150.39, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1132: reward: 200.00, mean_100: 151.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1133: reward: 200.00, mean_100: 151.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1134: reward: 200.00, mean_100: 151.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1135: reward:  22.00, mean_100: 149.98, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1136: reward:  25.00, mean_100: 149.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1137: reward:  22.00, mean_100: 147.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1138: reward: 200.00, mean_100: 147.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1139: reward:  27.00, mean_100: 146.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1140: reward: 200.00, mean_100: 146.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1141: reward: 200.00, mean_100: 146.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1142: reward: 200.00, mean_100: 146.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1143: reward: 200.00, mean_100: 147.43, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1144: reward:  23.00, mean_100: 146.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1145: reward:  22.00, mean_100: 145.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1146: reward: 200.00, mean_100: 145.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1147: reward: 200.00, mean_100: 146.34, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1148: reward:  16.00, mean_100: 145.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1149: reward: 200.00, mean_100: 145.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1150: reward:  14.00, mean_100: 143.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1151: reward:  28.00, mean_100: 142.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1152: reward:  13.00, mean_100: 141.43, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1153: reward:  12.00, mean_100: 140.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1154: reward:  13.00, mean_100: 138.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1155: reward:  14.00, mean_100: 137.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1156: reward: 119.00, mean_100: 137.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1157: reward: 153.00, mean_100: 136.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1158: reward:  21.00, mean_100: 135.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1159: reward:  11.00, mean_100: 133.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1160: reward: 137.00, mean_100: 133.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1161: reward: 117.00, mean_100: 133.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1162: reward:  16.00, mean_100: 131.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1163: reward:  18.00, mean_100: 130.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1164: reward: 108.00, mean_100: 129.79, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1165: reward:  19.00, mean_100: 128.38, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1166: reward: 112.00, mean_100: 128.39, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1167: reward:  28.00, mean_100: 127.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1168: reward:  81.00, mean_100: 126.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1169: reward:  21.00, mean_100: 124.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1170: reward:  18.00, mean_100: 123.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1171: reward: 135.00, mean_100: 123.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1172: reward:  16.00, mean_100: 122.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1173: reward:  12.00, mean_100: 121.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1174: reward: 141.00, mean_100: 121.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1175: reward: 133.00, mean_100: 121.82, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1176: reward: 131.00, mean_100: 121.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1177: reward: 140.00, mean_100: 121.98, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1178: reward:  16.00, mean_100: 120.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1179: reward:  14.00, mean_100: 119.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1180: reward: 135.00, mean_100: 120.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1181: reward: 147.00, mean_100: 120.51, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1182: reward: 153.00, mean_100: 121.25, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1183: reward: 138.00, mean_100: 121.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1184: reward: 150.00, mean_100: 122.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1185: reward:  21.00, mean_100: 121.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1186: reward:  21.00, mean_100: 121.33, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 1187: reward: 140.00, mean_100: 121.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1188: reward:  16.00, mean_100: 121.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1189: reward: 142.00, mean_100: 121.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1190: reward: 137.00, mean_100: 121.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1191: reward: 200.00, mean_100: 122.47, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1192: reward:  21.00, mean_100: 120.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1193: reward: 157.00, mean_100: 121.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1194: reward:  21.00, mean_100: 121.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1195: reward:  63.00, mean_100: 119.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1196: reward: 165.00, mean_100: 119.38, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1197: reward: 174.00, mean_100: 120.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1198: reward: 164.00, mean_100: 122.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1199: reward: 173.00, mean_100: 122.14, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1200: reward: 161.00, mean_100: 123.06, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1201: reward:  14.00, mean_100: 121.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1202: reward:  30.00, mean_100: 119.50, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1203: reward: 200.00, mean_100: 119.50, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1204: reward: 200.00, mean_100: 119.50, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1205: reward: 200.00, mean_100: 119.50, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1206: reward: 200.00, mean_100: 119.50, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1207: reward:  40.00, mean_100: 117.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1208: reward: 200.00, mean_100: 117.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1209: reward: 200.00, mean_100: 117.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1210: reward: 200.00, mean_100: 117.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1211: reward: 186.00, mean_100: 117.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1212: reward: 193.00, mean_100: 117.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1213: reward: 200.00, mean_100: 117.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1214: reward: 200.00, mean_100: 117.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1215: reward: 196.00, mean_100: 117.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1216: reward: 200.00, mean_100: 117.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1217: reward: 200.00, mean_100: 117.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1218: reward: 200.00, mean_100: 117.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1219: reward: 200.00, mean_100: 117.84, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1220: reward: 149.00, mean_100: 117.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1221: reward:  16.00, mean_100: 115.49, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1222: reward:  11.00, mean_100: 113.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1223: reward:  63.00, mean_100: 112.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1224: reward: 195.00, mean_100: 112.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1225: reward: 200.00, mean_100: 112.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1226: reward: 138.00, mean_100: 111.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1227: reward:  19.00, mean_100: 111.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1228: reward:  92.00, mean_100: 110.47, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1229: reward: 200.00, mean_100: 112.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1230: reward: 200.00, mean_100: 112.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1231: reward: 200.00, mean_100: 114.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1232: reward: 200.00, mean_100: 114.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1233: reward: 200.00, mean_100: 114.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1234: reward: 200.00, mean_100: 114.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1235: reward: 200.00, mean_100: 115.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1236: reward: 200.00, mean_100: 117.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1237: reward: 200.00, mean_100: 119.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1238: reward: 200.00, mean_100: 119.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1239: reward: 139.00, mean_100: 120.52, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1240: reward: 200.00, mean_100: 120.52, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1241: reward: 200.00, mean_100: 120.52, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1242: reward: 200.00, mean_100: 120.52, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1243: reward:  12.00, mean_100: 118.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1244: reward: 200.00, mean_100: 120.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1245: reward: 200.00, mean_100: 122.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1246: reward: 200.00, mean_100: 122.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1247: reward: 200.00, mean_100: 122.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1248: reward: 200.00, mean_100: 124.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1249: reward: 199.00, mean_100: 124.02, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1250: reward: 200.00, mean_100: 125.88, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1251: reward: 134.00, mean_100: 126.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1252: reward:  14.00, mean_100: 126.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1253: reward: 152.00, mean_100: 128.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1254: reward: 138.00, mean_100: 129.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1255: reward: 200.00, mean_100: 131.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1256: reward: 189.00, mean_100: 132.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1257: reward: 200.00, mean_100: 132.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1258: reward: 200.00, mean_100: 134.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1259: reward: 200.00, mean_100: 136.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1260: reward: 200.00, mean_100: 136.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1261: reward: 200.00, mean_100: 137.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1262: reward: 200.00, mean_100: 139.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1263: reward: 200.00, mean_100: 141.43, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1264: reward: 200.00, mean_100: 142.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1265: reward: 200.00, mean_100: 144.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1266: reward: 200.00, mean_100: 145.04, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1267: reward: 200.00, mean_100: 146.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1268: reward: 200.00, mean_100: 147.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1269: reward: 200.00, mean_100: 149.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1270: reward: 200.00, mean_100: 151.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1271: reward: 200.00, mean_100: 152.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1272: reward: 200.00, mean_100: 154.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1273: reward: 200.00, mean_100: 155.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1274: reward: 200.00, mean_100: 156.52, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1275: reward: 200.00, mean_100: 157.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1276: reward: 200.00, mean_100: 157.88, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1277: reward: 200.00, mean_100: 158.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1278: reward: 200.00, mean_100: 160.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1279: reward: 200.00, mean_100: 162.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1280: reward: 200.00, mean_100: 162.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1281: reward: 200.00, mean_100: 163.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1282: reward: 200.00, mean_100: 163.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1283: reward: 200.00, mean_100: 164.45, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1284: reward: 200.00, mean_100: 164.95, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 1285: reward: 200.00, mean_100: 166.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1286: reward: 200.00, mean_100: 168.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1287: reward: 200.00, mean_100: 169.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1288: reward: 200.00, mean_100: 170.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1289: reward: 200.00, mean_100: 171.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1290: reward: 200.00, mean_100: 172.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1291: reward: 200.00, mean_100: 172.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1292: reward: 200.00, mean_100: 173.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1293: reward: 200.00, mean_100: 174.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1294: reward: 200.00, mean_100: 176.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1295: reward: 200.00, mean_100: 177.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1296: reward: 200.00, mean_100: 177.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1297: reward: 200.00, mean_100: 178.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1298: reward: 200.00, mean_100: 178.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1299: reward: 200.00, mean_100: 178.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1300: reward: 200.00, mean_100: 179.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1301: reward: 200.00, mean_100: 181.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1302: reward: 200.00, mean_100: 182.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1303: reward: 200.00, mean_100: 182.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1304: reward: 200.00, mean_100: 182.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1305: reward: 200.00, mean_100: 182.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1306: reward: 200.00, mean_100: 182.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1307: reward: 200.00, mean_100: 184.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1308: reward: 200.00, mean_100: 184.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1309: reward: 200.00, mean_100: 184.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1310: reward: 200.00, mean_100: 184.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1311: reward:  27.00, mean_100: 182.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1312: reward: 200.00, mean_100: 182.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1313: reward: 146.00, mean_100: 182.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1314: reward: 200.00, mean_100: 182.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1315: reward: 200.00, mean_100: 182.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1316: reward: 200.00, mean_100: 182.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1317: reward: 200.00, mean_100: 182.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1318: reward: 200.00, mean_100: 182.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1319: reward: 200.00, mean_100: 182.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1320: reward: 200.00, mean_100: 182.84, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1321: reward: 149.00, mean_100: 184.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1322: reward: 124.00, mean_100: 185.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1323: reward: 130.00, mean_100: 185.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1324: reward: 128.00, mean_100: 185.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1325: reward: 200.00, mean_100: 185.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1326: reward:  13.00, mean_100: 184.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1327: reward: 138.00, mean_100: 185.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1328: reward: 140.00, mean_100: 185.72, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1329: reward: 151.00, mean_100: 185.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1330: reward: 129.00, mean_100: 184.52, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1331: reward:  22.00, mean_100: 182.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1332: reward:  13.00, mean_100: 180.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1333: reward:  19.00, mean_100: 179.06, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1334: reward: 153.00, mean_100: 178.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1335: reward:  18.00, mean_100: 176.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1336: reward:  18.00, mean_100: 174.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1337: reward:  13.00, mean_100: 173.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1338: reward:  12.00, mean_100: 171.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1339: reward:  15.00, mean_100: 169.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1340: reward:  17.00, mean_100: 168.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1341: reward:  13.00, mean_100: 166.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1342: reward:  17.00, mean_100: 164.43, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1343: reward:  16.00, mean_100: 164.47, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1344: reward: 124.00, mean_100: 163.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1345: reward: 196.00, mean_100: 163.67, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1346: reward:  12.00, mean_100: 161.79, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1347: reward: 127.00, mean_100: 161.06, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1348: reward: 128.00, mean_100: 160.34, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1349: reward: 195.00, mean_100: 160.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1350: reward:  14.00, mean_100: 158.44, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1351: reward:  11.00, mean_100: 157.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1352: reward: 137.00, mean_100: 158.44, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1353: reward: 125.00, mean_100: 158.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1354: reward: 113.00, mean_100: 157.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1355: reward: 113.00, mean_100: 157.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1356: reward:  14.00, mean_100: 155.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1357: reward: 132.00, mean_100: 154.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1358: reward: 200.00, mean_100: 154.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1359: reward: 189.00, mean_100: 154.51, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1360: reward: 196.00, mean_100: 154.47, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1361: reward: 112.00, mean_100: 153.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1362: reward:  15.00, mean_100: 151.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1363: reward: 111.00, mean_100: 150.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1364: reward:  13.00, mean_100: 148.98, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1365: reward: 112.00, mean_100: 148.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1366: reward: 112.00, mean_100: 147.22, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1367: reward:  22.00, mean_100: 145.44, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1368: reward: 116.00, mean_100: 144.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1369: reward: 111.00, mean_100: 143.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1370: reward:  25.00, mean_100: 141.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1371: reward: 117.00, mean_100: 141.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1372: reward:  34.00, mean_100: 139.47, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1373: reward: 109.00, mean_100: 138.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1374: reward: 107.00, mean_100: 137.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1375: reward: 108.00, mean_100: 136.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1376: reward: 112.00, mean_100: 135.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1377: reward: 113.00, mean_100: 134.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1378: reward: 119.00, mean_100: 134.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1379: reward: 109.00, mean_100: 133.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1380: reward: 105.00, mean_100: 132.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1381: reward: 112.00, mean_100: 131.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1382: reward: 112.00, mean_100: 130.53, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 1383: reward: 113.00, mean_100: 129.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1384: reward: 119.00, mean_100: 128.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1385: reward: 112.00, mean_100: 127.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1386: reward:  39.00, mean_100: 126.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1387: reward: 116.00, mean_100: 125.52, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1388: reward: 112.00, mean_100: 124.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1389: reward: 109.00, mean_100: 123.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1390: reward: 107.00, mean_100: 122.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1391: reward: 104.00, mean_100: 121.84, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1392: reward:  36.00, mean_100: 120.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1393: reward: 105.00, mean_100: 119.25, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1394: reward: 104.00, mean_100: 118.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1395: reward: 104.00, mean_100: 117.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1396: reward: 103.00, mean_100: 116.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1397: reward:  18.00, mean_100: 114.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1398: reward: 103.00, mean_100: 113.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1399: reward:  14.00, mean_100: 111.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1400: reward: 105.00, mean_100: 110.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1401: reward:  22.00, mean_100: 108.98, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1402: reward: 110.00, mean_100: 108.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1403: reward:  32.00, mean_100: 106.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1404: reward: 105.00, mean_100: 105.45, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1405: reward:  24.00, mean_100: 103.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1406: reward: 100.00, mean_100: 102.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1407: reward:  31.00, mean_100: 101.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1408: reward:  34.00, mean_100:  99.34, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1409: reward: 107.00, mean_100:  98.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1410: reward:  25.00, mean_100:  96.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1411: reward: 105.00, mean_100:  97.44, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1412: reward: 104.00, mean_100:  96.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1413: reward: 105.00, mean_100:  96.07, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1414: reward:  11.00, mean_100:  94.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1415: reward:  13.00, mean_100:  92.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1416: reward:  30.00, mean_100:  90.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1417: reward:  10.00, mean_100:  88.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1418: reward: 105.00, mean_100:  87.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1419: reward:  14.00, mean_100:  85.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1420: reward:  97.00, mean_100:  84.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1421: reward:  16.00, mean_100:  83.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1422: reward:  13.00, mean_100:  82.43, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1423: reward:  97.00, mean_100:  82.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1424: reward:  17.00, mean_100:  80.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1425: reward:  16.00, mean_100:  79.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1426: reward:  95.00, mean_100:  79.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1427: reward:  10.00, mean_100:  78.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1428: reward:  95.00, mean_100:  78.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1429: reward: 101.00, mean_100:  77.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1430: reward:  29.00, mean_100:  76.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1431: reward:  95.00, mean_100:  77.47, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1432: reward:  44.00, mean_100:  77.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1433: reward:  37.00, mean_100:  77.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1434: reward:  19.00, mean_100:  76.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1435: reward:  36.00, mean_100:  76.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1436: reward:  91.00, mean_100:  77.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1437: reward:  17.00, mean_100:  77.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1438: reward:  44.00, mean_100:  77.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1439: reward:  95.00, mean_100:  78.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1440: reward:  42.00, mean_100:  78.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1441: reward:  97.00, mean_100:  79.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1442: reward:  40.00, mean_100:  80.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1443: reward:  91.00, mean_100:  80.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1444: reward:  46.00, mean_100:  79.98, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1445: reward:  22.00, mean_100:  78.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1446: reward:  51.00, mean_100:  78.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1447: reward:  62.00, mean_100:  77.98, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1448: reward:  42.00, mean_100:  77.12, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1449: reward:  24.00, mean_100:  75.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1450: reward:  17.00, mean_100:  75.44, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1451: reward:  37.00, mean_100:  75.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1452: reward:  59.00, mean_100:  74.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1453: reward:  88.00, mean_100:  74.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1454: reward:  16.00, mean_100:  73.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1455: reward:  57.00, mean_100:  73.02, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1456: reward:  51.00, mean_100:  73.39, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1457: reward:  50.00, mean_100:  72.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1458: reward:  53.00, mean_100:  71.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1459: reward:  39.00, mean_100:  69.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1460: reward:  40.00, mean_100:  68.04, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1461: reward:  59.00, mean_100:  67.51, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1462: reward:  54.00, mean_100:  67.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1463: reward:  62.00, mean_100:  67.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1464: reward:  90.00, mean_100:  68.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1465: reward:  16.00, mean_100:  67.22, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1466: reward:  13.00, mean_100:  66.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1467: reward:  48.00, mean_100:  66.49, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1468: reward:  34.00, mean_100:  65.67, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1469: reward:  45.00, mean_100:  65.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1470: reward:  16.00, mean_100:  64.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1471: reward:  53.00, mean_100:  64.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1472: reward:  91.00, mean_100:  64.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1473: reward:  23.00, mean_100:  63.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1474: reward:  17.00, mean_100:  63.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1475: reward:  90.00, mean_100:  62.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1476: reward:  57.00, mean_100:  62.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1477: reward:  34.00, mean_100:  61.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1478: reward:  95.00, mean_100:  61.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1479: reward:  96.00, mean_100:  61.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1480: reward:  46.00, mean_100:  60.61, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 1481: reward:  94.00, mean_100:  60.43, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1482: reward:  89.00, mean_100:  60.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1483: reward:  86.00, mean_100:  59.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1484: reward:  99.00, mean_100:  59.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1485: reward:  48.00, mean_100:  59.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1486: reward:  95.00, mean_100:  59.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1487: reward:  19.00, mean_100:  58.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1488: reward:  92.00, mean_100:  58.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1489: reward:  90.00, mean_100:  58.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1490: reward:  93.00, mean_100:  58.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1491: reward:  60.00, mean_100:  57.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1492: reward:  86.00, mean_100:  58.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1493: reward:  44.00, mean_100:  57.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1494: reward:  41.00, mean_100:  56.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1495: reward:  92.00, mean_100:  56.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1496: reward:  29.00, mean_100:  56.11, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1497: reward:  52.00, mean_100:  56.45, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1498: reward:  29.00, mean_100:  55.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1499: reward:  21.00, mean_100:  55.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1500: reward:  43.00, mean_100:  55.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1501: reward:  25.00, mean_100:  55.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1502: reward:  27.00, mean_100:  54.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1503: reward:  50.00, mean_100:  54.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1504: reward:  47.00, mean_100:  53.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1505: reward:  37.00, mean_100:  54.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1506: reward:  88.00, mean_100:  53.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1507: reward:  86.00, mean_100:  54.52, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1508: reward:  87.00, mean_100:  55.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1509: reward:  84.00, mean_100:  54.82, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1510: reward:  56.00, mean_100:  55.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1511: reward:  38.00, mean_100:  54.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1512: reward:  92.00, mean_100:  54.34, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1513: reward:  36.00, mean_100:  53.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1514: reward:  14.00, mean_100:  53.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1515: reward:  91.00, mean_100:  54.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1516: reward:  87.00, mean_100:  55.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1517: reward:  86.00, mean_100:  55.79, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1518: reward:  25.00, mean_100:  54.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1519: reward:  51.00, mean_100:  55.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1520: reward:  90.00, mean_100:  55.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1521: reward:  90.00, mean_100:  56.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1522: reward:  91.00, mean_100:  56.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1523: reward:  86.00, mean_100:  56.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1524: reward:  93.00, mean_100:  57.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1525: reward:  19.00, mean_100:  57.49, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1526: reward:  47.00, mean_100:  57.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1527: reward:  46.00, mean_100:  57.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1528: reward:  15.00, mean_100:  56.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1529: reward:  91.00, mean_100:  56.47, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1530: reward:  29.00, mean_100:  56.47, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1531: reward:  10.00, mean_100:  55.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1532: reward:  72.00, mean_100:  55.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1533: reward:  53.00, mean_100:  56.06, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1534: reward:  91.00, mean_100:  56.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1535: reward:  20.00, mean_100:  56.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1536: reward:  85.00, mean_100:  56.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1537: reward:  91.00, mean_100:  57.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1538: reward:  49.00, mean_100:  57.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1539: reward:  17.00, mean_100:  56.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1540: reward:  91.00, mean_100:  57.06, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1541: reward:  14.00, mean_100:  56.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1542: reward:  97.00, mean_100:  56.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1543: reward:  28.00, mean_100:  56.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1544: reward:  93.00, mean_100:  56.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1545: reward:  37.00, mean_100:  56.79, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1546: reward:  91.00, mean_100:  57.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1547: reward:  78.00, mean_100:  57.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1548: reward:  73.00, mean_100:  57.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1549: reward:  36.00, mean_100:  57.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1550: reward:  92.00, mean_100:  58.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1551: reward:  87.00, mean_100:  59.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1552: reward:  64.00, mean_100:  59.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1553: reward:  12.00, mean_100:  58.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1554: reward:  92.00, mean_100:  59.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1555: reward:  43.00, mean_100:  58.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1556: reward:  91.00, mean_100:  59.34, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1557: reward:  99.00, mean_100:  59.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1558: reward:  65.00, mean_100:  59.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1559: reward:  15.00, mean_100:  59.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1560: reward:  89.00, mean_100:  60.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1561: reward:  94.00, mean_100:  60.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1562: reward:  19.00, mean_100:  60.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1563: reward:  89.00, mean_100:  60.47, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1564: reward:  18.00, mean_100:  59.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1565: reward:  95.00, mean_100:  60.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1566: reward:  77.00, mean_100:  61.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1567: reward:  19.00, mean_100:  60.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1568: reward:  96.00, mean_100:  61.51, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1569: reward: 102.00, mean_100:  62.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1570: reward: 101.00, mean_100:  62.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1571: reward:  17.00, mean_100:  62.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1572: reward:  10.00, mean_100:  61.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1573: reward:  88.00, mean_100:  62.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1574: reward:  91.00, mean_100:  63.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1575: reward:  90.00, mean_100:  63.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1576: reward:  91.00, mean_100:  63.49, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1577: reward:  17.00, mean_100:  63.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1578: reward:  91.00, mean_100:  63.28, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 1579: reward:  88.00, mean_100:  63.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1580: reward:  77.00, mean_100:  63.51, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1581: reward:  23.00, mean_100:  62.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1582: reward:  20.00, mean_100:  62.11, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1583: reward:  91.00, mean_100:  62.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1584: reward:  88.00, mean_100:  62.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1585: reward:  87.00, mean_100:  62.44, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1586: reward:  86.00, mean_100:  62.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1587: reward:  88.00, mean_100:  63.04, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1588: reward:  10.00, mean_100:  62.22, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1589: reward:  17.00, mean_100:  61.49, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1590: reward:  91.00, mean_100:  61.47, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1591: reward:  46.00, mean_100:  61.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1592: reward:  48.00, mean_100:  60.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1593: reward:  27.00, mean_100:  60.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1594: reward:  80.00, mean_100:  61.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1595: reward:  34.00, mean_100:  60.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1596: reward:  65.00, mean_100:  60.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1597: reward:  30.00, mean_100:  60.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1598: reward:  68.00, mean_100:  61.12, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1599: reward:  26.00, mean_100:  61.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1600: reward:  55.00, mean_100:  61.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1601: reward:  87.00, mean_100:  61.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1602: reward:  41.00, mean_100:  62.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1603: reward:  38.00, mean_100:  61.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1604: reward:  91.00, mean_100:  62.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1605: reward:  65.00, mean_100:  62.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1606: reward:  88.00, mean_100:  62.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1607: reward:  90.00, mean_100:  62.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1608: reward:  11.00, mean_100:  61.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1609: reward:  94.00, mean_100:  62.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1610: reward:  12.00, mean_100:  61.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1611: reward:  40.00, mean_100:  61.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1612: reward:  90.00, mean_100:  61.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1613: reward:  74.00, mean_100:  61.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1614: reward:  29.00, mean_100:  62.12, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1615: reward:  67.00, mean_100:  61.88, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1616: reward:  55.00, mean_100:  61.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1617: reward:  90.00, mean_100:  61.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1618: reward:  87.00, mean_100:  62.22, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1619: reward:  88.00, mean_100:  62.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1620: reward:  40.00, mean_100:  62.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1621: reward:  49.00, mean_100:  61.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1622: reward:  72.00, mean_100:  61.49, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1623: reward:  94.00, mean_100:  61.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1624: reward:  78.00, mean_100:  61.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1625: reward:  96.00, mean_100:  62.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1626: reward:  40.00, mean_100:  62.12, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1627: reward:  65.00, mean_100:  62.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1628: reward:  91.00, mean_100:  63.07, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1629: reward: 100.00, mean_100:  63.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1630: reward:  40.00, mean_100:  63.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1631: reward:  73.00, mean_100:  63.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1632: reward:  66.00, mean_100:  63.84, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1633: reward:  92.00, mean_100:  64.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1634: reward:  92.00, mean_100:  64.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1635: reward:  95.00, mean_100:  64.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1636: reward:  89.00, mean_100:  65.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1637: reward:  73.00, mean_100:  64.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1638: reward:  90.00, mean_100:  65.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1639: reward:  98.00, mean_100:  66.07, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1640: reward:  96.00, mean_100:  66.12, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1641: reward: 126.00, mean_100:  67.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1642: reward: 184.00, mean_100:  68.11, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1643: reward:  88.00, mean_100:  68.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1644: reward: 200.00, mean_100:  69.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1645: reward:  57.00, mean_100:  69.98, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1646: reward: 200.00, mean_100:  71.07, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1647: reward:  80.00, mean_100:  71.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1648: reward:  98.00, mean_100:  71.34, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1649: reward: 140.00, mean_100:  72.38, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1650: reward:  59.00, mean_100:  72.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1651: reward: 200.00, mean_100:  73.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1652: reward:  86.00, mean_100:  73.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1653: reward:  85.00, mean_100:  74.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1654: reward:  79.00, mean_100:  74.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1655: reward: 104.00, mean_100:  74.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1656: reward:  81.00, mean_100:  74.51, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1657: reward:  14.00, mean_100:  73.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1658: reward: 200.00, mean_100:  75.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1659: reward: 200.00, mean_100:  76.86, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1660: reward: 112.00, mean_100:  77.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1661: reward: 105.00, mean_100:  77.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1662: reward:  95.00, mean_100:  77.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1663: reward: 200.00, mean_100:  79.07, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1664: reward: 121.00, mean_100:  80.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1665: reward: 200.00, mean_100:  81.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1666: reward:  57.00, mean_100:  80.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1667: reward:  18.00, mean_100:  80.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1668: reward: 100.00, mean_100:  80.98, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1669: reward: 101.00, mean_100:  80.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1670: reward:  64.00, mean_100:  80.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1671: reward:  99.00, mean_100:  81.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1672: reward:  91.00, mean_100:  82.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1673: reward:  93.00, mean_100:  82.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1674: reward: 134.00, mean_100:  82.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1675: reward: 200.00, mean_100:  83.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1676: reward: 200.00, mean_100:  84.90, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 1677: reward: 200.00, mean_100:  86.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1678: reward: 101.00, mean_100:  86.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1679: reward: 119.00, mean_100:  87.14, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1680: reward: 108.00, mean_100:  87.45, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1681: reward: 115.00, mean_100:  88.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1682: reward: 200.00, mean_100:  90.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1683: reward:  92.00, mean_100:  90.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1684: reward: 103.00, mean_100:  90.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1685: reward: 110.00, mean_100:  90.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1686: reward:  12.00, mean_100:  89.82, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1687: reward:  13.00, mean_100:  89.07, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1688: reward:  98.00, mean_100:  89.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1689: reward: 120.00, mean_100:  90.98, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1690: reward:  34.00, mean_100:  90.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1691: reward: 200.00, mean_100:  91.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1692: reward: 200.00, mean_100:  93.47, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1693: reward: 200.00, mean_100:  95.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1694: reward:  15.00, mean_100:  94.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1695: reward: 200.00, mean_100:  96.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1696: reward: 200.00, mean_100:  97.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1697: reward: 200.00, mean_100:  99.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1698: reward: 200.00, mean_100: 100.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1699: reward: 200.00, mean_100: 102.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1700: reward: 200.00, mean_100: 103.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1701: reward: 200.00, mean_100: 104.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1702: reward: 114.00, mean_100: 105.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1703: reward: 168.00, mean_100: 106.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1704: reward: 109.00, mean_100: 107.11, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1705: reward: 114.00, mean_100: 107.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1706: reward: 113.00, mean_100: 107.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1707: reward: 200.00, mean_100: 108.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1708: reward: 136.00, mean_100: 110.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1709: reward: 131.00, mean_100: 110.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1710: reward: 125.00, mean_100: 111.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1711: reward:  23.00, mean_100: 111.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1712: reward:  95.00, mean_100: 111.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1713: reward: 101.00, mean_100: 111.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1714: reward:  15.00, mean_100: 111.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1715: reward:  97.00, mean_100: 112.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1716: reward:  95.00, mean_100: 112.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1717: reward:  14.00, mean_100: 111.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1718: reward:  12.00, mean_100: 110.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1719: reward:  96.00, mean_100: 110.98, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1720: reward:  90.00, mean_100: 111.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1721: reward:  59.00, mean_100: 111.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1722: reward:  27.00, mean_100: 111.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1723: reward:  19.00, mean_100: 110.38, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1724: reward:  22.00, mean_100: 109.82, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1725: reward:  18.00, mean_100: 109.04, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1726: reward:  15.00, mean_100: 108.79, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1727: reward:  21.00, mean_100: 108.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1728: reward:  21.00, mean_100: 107.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1729: reward:  18.00, mean_100: 106.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1730: reward:  13.00, mean_100: 106.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1731: reward:  21.00, mean_100: 106.04, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1732: reward:  35.00, mean_100: 105.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1733: reward:  19.00, mean_100: 105.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1734: reward:  23.00, mean_100: 104.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1735: reward:  19.00, mean_100: 103.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1736: reward:  25.00, mean_100: 102.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1737: reward:  30.00, mean_100: 102.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1738: reward:  38.00, mean_100: 101.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1739: reward:  17.00, mean_100: 101.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1740: reward:  13.00, mean_100: 100.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1741: reward:  15.00, mean_100:  99.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1742: reward:  25.00, mean_100:  97.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1743: reward:  16.00, mean_100:  96.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1744: reward:  16.00, mean_100:  95.06, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1745: reward:  15.00, mean_100:  94.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1746: reward:  21.00, mean_100:  92.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1747: reward:  18.00, mean_100:  92.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1748: reward:  11.00, mean_100:  91.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1749: reward:  47.00, mean_100:  90.43, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1750: reward:  19.00, mean_100:  90.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1751: reward:  25.00, mean_100:  88.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1752: reward:  20.00, mean_100:  87.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1753: reward:  27.00, mean_100:  87.04, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1754: reward:  16.00, mean_100:  86.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1755: reward:  26.00, mean_100:  85.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1756: reward:  18.00, mean_100:  85.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1757: reward:  16.00, mean_100:  85.02, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1758: reward:  20.00, mean_100:  83.22, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1759: reward:  18.00, mean_100:  81.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1760: reward:  28.00, mean_100:  80.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1761: reward:  25.00, mean_100:  79.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1762: reward:  54.00, mean_100:  79.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1763: reward:  65.00, mean_100:  78.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1764: reward:  58.00, mean_100:  77.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1765: reward:  24.00, mean_100:  75.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1766: reward:  44.00, mean_100:  75.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1767: reward:  17.00, mean_100:  75.47, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1768: reward:  84.00, mean_100:  75.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1769: reward:  12.00, mean_100:  74.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1770: reward:  68.00, mean_100:  74.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1771: reward:  39.00, mean_100:  73.86, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1772: reward:  32.00, mean_100:  73.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1773: reward:  88.00, mean_100:  73.22, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1774: reward:  15.00, mean_100:  72.03, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 1775: reward:  90.00, mean_100:  70.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1776: reward:  20.00, mean_100:  69.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1777: reward:  13.00, mean_100:  67.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1778: reward:  68.00, mean_100:  66.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1779: reward:  18.00, mean_100:  65.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1780: reward:  12.00, mean_100:  64.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1781: reward:  79.00, mean_100:  64.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1782: reward:  68.00, mean_100:  63.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1783: reward:  32.00, mean_100:  62.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1784: reward:  24.00, mean_100:  61.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1785: reward:  20.00, mean_100:  60.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1786: reward:  76.00, mean_100:  61.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1787: reward:  17.00, mean_100:  61.67, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1788: reward:  15.00, mean_100:  60.84, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1789: reward:  93.00, mean_100:  60.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1790: reward:  12.00, mean_100:  60.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1791: reward:  48.00, mean_100:  58.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1792: reward:  10.00, mean_100:  56.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1793: reward:  88.00, mean_100:  55.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1794: reward:  90.00, mean_100:  56.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1795: reward:  80.00, mean_100:  55.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1796: reward:  20.00, mean_100:  53.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1797: reward:  74.00, mean_100:  52.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1798: reward:  18.00, mean_100:  50.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1799: reward:  73.00, mean_100:  49.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1800: reward:  87.00, mean_100:  48.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1801: reward:  68.00, mean_100:  46.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1802: reward:  73.00, mean_100:  46.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1803: reward:  43.00, mean_100:  45.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1804: reward:  65.00, mean_100:  44.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1805: reward:  90.00, mean_100:  44.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1806: reward:  95.00, mean_100:  44.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1807: reward:  93.00, mean_100:  43.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1808: reward:  89.00, mean_100:  42.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1809: reward:  30.00, mean_100:  41.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1810: reward:  16.00, mean_100:  40.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1811: reward:  94.00, mean_100:  41.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1812: reward:  79.00, mean_100:  41.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1813: reward:  17.00, mean_100:  40.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1814: reward:  17.00, mean_100:  40.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1815: reward:  92.00, mean_100:  40.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1816: reward:  54.00, mean_100:  39.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1817: reward:  94.00, mean_100:  40.67, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1818: reward:  38.00, mean_100:  40.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1819: reward:  94.00, mean_100:  40.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1820: reward:  85.00, mean_100:  40.86, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1821: reward:  19.00, mean_100:  40.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1822: reward:  90.00, mean_100:  41.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1823: reward:  91.00, mean_100:  41.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1824: reward:  25.00, mean_100:  41.84, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1825: reward:  87.00, mean_100:  42.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1826: reward:  89.00, mean_100:  43.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1827: reward:  70.00, mean_100:  43.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1828: reward:  19.00, mean_100:  43.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1829: reward:  56.00, mean_100:  44.12, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1830: reward:  93.00, mean_100:  44.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1831: reward:  12.00, mean_100:  44.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1832: reward: 101.00, mean_100:  45.49, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1833: reward:  93.00, mean_100:  46.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1834: reward:  95.00, mean_100:  46.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1835: reward:  91.00, mean_100:  47.67, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1836: reward:  98.00, mean_100:  48.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1837: reward:  90.00, mean_100:  49.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1838: reward:  92.00, mean_100:  49.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1839: reward: 100.00, mean_100:  50.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1840: reward: 101.00, mean_100:  51.25, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1841: reward:  98.00, mean_100:  52.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1842: reward:  89.00, mean_100:  52.72, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1843: reward:  90.00, mean_100:  53.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1844: reward:  92.00, mean_100:  54.22, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1845: reward:  88.00, mean_100:  54.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1846: reward:  90.00, mean_100:  55.64, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1847: reward:  90.00, mean_100:  56.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1848: reward:  88.00, mean_100:  57.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1849: reward:  23.00, mean_100:  56.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1850: reward:  93.00, mean_100:  57.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1851: reward:  91.00, mean_100:  58.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1852: reward:  88.00, mean_100:  58.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1853: reward:  92.00, mean_100:  59.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1854: reward:  90.00, mean_100:  60.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1855: reward:  89.00, mean_100:  60.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1856: reward: 100.00, mean_100:  61.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1857: reward:  14.00, mean_100:  61.79, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1858: reward:  77.00, mean_100:  62.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1859: reward:  69.00, mean_100:  62.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1860: reward:  95.00, mean_100:  63.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1861: reward:  90.00, mean_100:  64.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1862: reward:  22.00, mean_100:  63.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1863: reward:  90.00, mean_100:  64.12, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1864: reward:  92.00, mean_100:  64.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1865: reward:  91.00, mean_100:  65.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1866: reward:  83.00, mean_100:  65.52, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1867: reward:  20.00, mean_100:  65.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1868: reward:  67.00, mean_100:  65.38, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1869: reward:  95.00, mean_100:  66.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1870: reward:  89.00, mean_100:  66.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1871: reward:  84.00, mean_100:  66.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1872: reward:  78.00, mean_100:  67.33, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 1873: reward:  94.00, mean_100:  67.39, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1874: reward:  92.00, mean_100:  68.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1875: reward:  16.00, mean_100:  67.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1876: reward:  88.00, mean_100:  68.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1877: reward:  51.00, mean_100:  68.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1878: reward:  61.00, mean_100:  68.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1879: reward:  83.00, mean_100:  69.06, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1880: reward:  91.00, mean_100:  69.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1881: reward:  96.00, mean_100:  70.02, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1882: reward: 108.00, mean_100:  70.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1883: reward:  98.00, mean_100:  71.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1884: reward:  97.00, mean_100:  71.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1885: reward:  96.00, mean_100:  72.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1886: reward: 102.00, mean_100:  72.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1887: reward:  96.00, mean_100:  73.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1888: reward:  95.00, mean_100:  74.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1889: reward:  97.00, mean_100:  74.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1890: reward:  14.00, mean_100:  74.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1891: reward:  95.00, mean_100:  74.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1892: reward:  33.00, mean_100:  75.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1893: reward:  94.00, mean_100:  75.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1894: reward:  81.00, mean_100:  75.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1895: reward:  91.00, mean_100:  75.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1896: reward:  91.00, mean_100:  75.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1897: reward:  44.00, mean_100:  75.67, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1898: reward:  14.00, mean_100:  75.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1899: reward:  50.00, mean_100:  75.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1900: reward:  88.00, mean_100:  75.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1901: reward:  27.00, mean_100:  75.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1902: reward:  95.00, mean_100:  75.22, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1903: reward:  92.00, mean_100:  75.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1904: reward:  93.00, mean_100:  75.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1905: reward:  20.00, mean_100:  75.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1906: reward:  87.00, mean_100:  75.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1907: reward:  90.00, mean_100:  75.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1908: reward:  83.00, mean_100:  75.12, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1909: reward:  89.00, mean_100:  75.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1910: reward:  71.00, mean_100:  76.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1911: reward:  81.00, mean_100:  76.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1912: reward:  89.00, mean_100:  76.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1913: reward:  21.00, mean_100:  76.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1914: reward:  84.00, mean_100:  76.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1915: reward:  88.00, mean_100:  76.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1916: reward:  16.00, mean_100:  76.52, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1917: reward:  90.00, mean_100:  76.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1918: reward:  35.00, mean_100:  76.45, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1919: reward:  91.00, mean_100:  76.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1920: reward:  25.00, mean_100:  75.82, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1921: reward:  90.00, mean_100:  76.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1922: reward:  94.00, mean_100:  76.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1923: reward:  90.00, mean_100:  76.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1924: reward:  13.00, mean_100:  76.44, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1925: reward:  43.00, mean_100:  76.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1926: reward:  64.00, mean_100:  75.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1927: reward:  77.00, mean_100:  75.82, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1928: reward:  87.00, mean_100:  76.50, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1929: reward:  92.00, mean_100:  76.86, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1930: reward:  90.00, mean_100:  76.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1931: reward:  94.00, mean_100:  77.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1932: reward:  93.00, mean_100:  77.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1933: reward:  98.00, mean_100:  77.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1934: reward:  29.00, mean_100:  76.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1935: reward:  20.00, mean_100:  76.25, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1936: reward:  32.00, mean_100:  75.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1937: reward:  86.00, mean_100:  75.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1938: reward:  95.00, mean_100:  75.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1939: reward:  42.00, mean_100:  75.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1940: reward:  18.00, mean_100:  74.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1941: reward:  94.00, mean_100:  74.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1942: reward:  92.00, mean_100:  74.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1943: reward:  97.00, mean_100:  74.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1944: reward:  97.00, mean_100:  74.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1945: reward:  97.00, mean_100:  74.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1946: reward:  23.00, mean_100:  73.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1947: reward:  94.00, mean_100:  73.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1948: reward:  31.00, mean_100:  73.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1949: reward: 101.00, mean_100:  73.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1950: reward:  38.00, mean_100:  73.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1951: reward: 112.00, mean_100:  73.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1952: reward:  21.00, mean_100:  72.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1953: reward: 116.00, mean_100:  73.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1954: reward: 200.00, mean_100:  74.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1955: reward: 107.00, mean_100:  74.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1956: reward:  19.00, mean_100:  73.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1957: reward: 126.00, mean_100:  74.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1958: reward: 112.00, mean_100:  75.12, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1959: reward:  30.00, mean_100:  74.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1960: reward: 200.00, mean_100:  75.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1961: reward: 118.00, mean_100:  76.06, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1962: reward:  33.00, mean_100:  76.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1963: reward:  26.00, mean_100:  75.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1964: reward:  29.00, mean_100:  74.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1965: reward: 151.00, mean_100:  75.50, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1966: reward: 115.00, mean_100:  75.82, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1967: reward: 119.00, mean_100:  76.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1968: reward:  26.00, mean_100:  76.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1969: reward: 117.00, mean_100:  76.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1970: reward: 122.00, mean_100:  76.95, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 1971: reward: 123.00, mean_100:  77.34, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1972: reward:  17.00, mean_100:  76.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1973: reward: 105.00, mean_100:  76.84, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1974: reward: 113.00, mean_100:  77.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1975: reward: 118.00, mean_100:  78.07, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1976: reward: 114.00, mean_100:  78.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1977: reward: 118.00, mean_100:  79.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1978: reward:  31.00, mean_100:  78.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1979: reward:  28.00, mean_100:  78.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1980: reward: 110.00, mean_100:  78.34, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1981: reward:  10.00, mean_100:  77.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1982: reward: 129.00, mean_100:  77.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1983: reward: 121.00, mean_100:  77.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1984: reward:  20.00, mean_100:  77.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1985: reward: 119.00, mean_100:  77.38, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1986: reward:  15.00, mean_100:  76.51, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1987: reward: 120.00, mean_100:  76.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1988: reward:  28.00, mean_100:  76.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1989: reward: 125.00, mean_100:  76.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1990: reward: 126.00, mean_100:  77.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1991: reward: 119.00, mean_100:  77.72, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1992: reward: 121.00, mean_100:  78.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1993: reward:  16.00, mean_100:  77.82, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1994: reward: 114.00, mean_100:  78.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1995: reward: 124.00, mean_100:  78.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1996: reward: 123.00, mean_100:  78.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1997: reward: 118.00, mean_100:  79.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1998: reward: 120.00, mean_100:  80.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 1999: reward: 119.00, mean_100:  81.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2000: reward: 121.00, mean_100:  81.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2001: reward: 112.00, mean_100:  82.47, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2002: reward: 113.00, mean_100:  82.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2003: reward:  26.00, mean_100:  81.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2004: reward: 120.00, mean_100:  82.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2005: reward: 120.00, mean_100:  83.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2006: reward: 113.00, mean_100:  83.52, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2007: reward:  31.00, mean_100:  82.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2008: reward: 110.00, mean_100:  83.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2009: reward: 114.00, mean_100:  83.45, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2010: reward:  29.00, mean_100:  83.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2011: reward: 110.00, mean_100:  83.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2012: reward:  31.00, mean_100:  82.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2013: reward:  14.00, mean_100:  82.67, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2014: reward: 101.00, mean_100:  82.84, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2015: reward:  12.00, mean_100:  82.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2016: reward:  24.00, mean_100:  82.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2017: reward:  17.00, mean_100:  81.43, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2018: reward: 122.00, mean_100:  82.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2019: reward:  95.00, mean_100:  82.34, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2020: reward: 121.00, mean_100:  83.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2021: reward: 122.00, mean_100:  83.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2022: reward: 121.00, mean_100:  83.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2023: reward: 108.00, mean_100:  84.07, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2024: reward: 117.00, mean_100:  85.11, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2025: reward: 123.00, mean_100:  85.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2026: reward: 120.00, mean_100:  86.47, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2027: reward: 123.00, mean_100:  86.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2028: reward: 126.00, mean_100:  87.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2029: reward: 127.00, mean_100:  87.67, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2030: reward: 116.00, mean_100:  87.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2031: reward: 116.00, mean_100:  88.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2032: reward: 113.00, mean_100:  88.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2033: reward: 111.00, mean_100:  88.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2034: reward: 110.00, mean_100:  89.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2035: reward: 108.00, mean_100:  90.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2036: reward: 109.00, mean_100:  90.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2037: reward: 110.00, mean_100:  91.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2038: reward: 112.00, mean_100:  91.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2039: reward: 123.00, mean_100:  92.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2040: reward:  33.00, mean_100:  92.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2041: reward: 126.00, mean_100:  92.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2042: reward:  30.00, mean_100:  92.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2043: reward: 128.00, mean_100:  92.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2044: reward: 124.00, mean_100:  92.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2045: reward:  19.00, mean_100:  91.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2046: reward:  34.00, mean_100:  91.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2047: reward: 128.00, mean_100:  92.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2048: reward:  28.00, mean_100:  92.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2049: reward: 124.00, mean_100:  92.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2050: reward: 141.00, mean_100:  93.49, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2051: reward:  28.00, mean_100:  92.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2052: reward: 110.00, mean_100:  93.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2053: reward: 110.00, mean_100:  93.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2054: reward:  11.00, mean_100:  91.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2055: reward:  21.00, mean_100:  90.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2056: reward:  22.00, mean_100:  90.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2057: reward:  13.00, mean_100:  89.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2058: reward:  27.00, mean_100:  88.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2059: reward: 123.00, mean_100:  89.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2060: reward:  19.00, mean_100:  87.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2061: reward:  21.00, mean_100:  86.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2062: reward: 105.00, mean_100:  87.65, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2063: reward: 200.00, mean_100:  89.39, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2064: reward: 116.00, mean_100:  90.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2065: reward:  28.00, mean_100:  89.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2066: reward:  13.00, mean_100:  88.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2067: reward: 171.00, mean_100:  88.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2068: reward:  20.00, mean_100:  88.47, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 2069: reward: 110.00, mean_100:  88.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2070: reward:  11.00, mean_100:  87.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2071: reward: 101.00, mean_100:  87.07, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2072: reward:  11.00, mean_100:  87.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2073: reward:  15.00, mean_100:  86.11, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2074: reward:  27.00, mean_100:  85.25, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2075: reward:  27.00, mean_100:  84.34, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2076: reward:  17.00, mean_100:  83.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2077: reward: 107.00, mean_100:  83.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2078: reward:  22.00, mean_100:  83.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2079: reward:  13.00, mean_100:  83.02, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2080: reward:  12.00, mean_100:  82.04, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2081: reward:  96.00, mean_100:  82.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2082: reward:  41.00, mean_100:  82.02, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2083: reward:  21.00, mean_100:  81.02, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2084: reward:  18.00, mean_100:  81.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2085: reward: 102.00, mean_100:  80.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2086: reward: 109.00, mean_100:  81.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2087: reward: 113.00, mean_100:  81.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2088: reward:  27.00, mean_100:  81.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2089: reward: 113.00, mean_100:  81.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2090: reward:  19.00, mean_100:  80.50, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2091: reward: 115.00, mean_100:  80.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2092: reward:  93.00, mean_100:  80.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2093: reward: 200.00, mean_100:  82.02, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2094: reward:  99.00, mean_100:  81.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2095: reward:  21.00, mean_100:  80.84, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2096: reward:  14.00, mean_100:  79.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2097: reward:  99.00, mean_100:  79.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2098: reward: 200.00, mean_100:  80.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2099: reward:  14.00, mean_100:  79.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2100: reward: 200.00, mean_100:  80.10, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2101: reward:  17.00, mean_100:  79.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2102: reward:  25.00, mean_100:  78.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2103: reward:  80.00, mean_100:  78.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2104: reward:  21.00, mean_100:  77.82, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2105: reward: 200.00, mean_100:  78.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2106: reward:  14.00, mean_100:  77.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2107: reward:  80.00, mean_100:  78.12, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2108: reward:  13.00, mean_100:  77.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2109: reward:  78.00, mean_100:  76.79, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2110: reward:  16.00, mean_100:  76.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2111: reward: 200.00, mean_100:  77.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2112: reward: 144.00, mean_100:  78.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2113: reward: 200.00, mean_100:  80.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2114: reward: 200.00, mean_100:  81.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2115: reward: 200.00, mean_100:  83.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2116: reward:  24.00, mean_100:  83.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2117: reward:  84.00, mean_100:  84.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2118: reward: 200.00, mean_100:  84.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2119: reward: 200.00, mean_100:  85.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2120: reward: 200.00, mean_100:  86.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2121: reward:  13.00, mean_100:  85.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2122: reward: 200.00, mean_100:  86.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2123: reward: 200.00, mean_100:  87.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2124: reward: 200.00, mean_100:  88.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2125: reward: 200.00, mean_100:  88.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2126: reward:  22.00, mean_100:  87.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2127: reward:  22.00, mean_100:  86.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2128: reward: 200.00, mean_100:  87.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2129: reward: 200.00, mean_100:  88.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2130: reward:  21.00, mean_100:  87.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2131: reward:  23.00, mean_100:  86.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2132: reward: 200.00, mean_100:  87.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2133: reward:  25.00, mean_100:  86.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2134: reward:  12.00, mean_100:  85.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2135: reward: 200.00, mean_100:  86.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2136: reward:  19.00, mean_100:  85.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2137: reward: 200.00, mean_100:  86.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2138: reward: 200.00, mean_100:  87.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2139: reward: 200.00, mean_100:  88.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2140: reward: 200.00, mean_100:  89.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2141: reward: 200.00, mean_100:  90.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2142: reward: 200.00, mean_100:  92.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2143: reward:  22.00, mean_100:  91.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2144: reward:  27.00, mean_100:  90.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2145: reward:  11.00, mean_100:  90.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2146: reward:  21.00, mean_100:  90.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2147: reward: 200.00, mean_100:  90.72, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2148: reward:  11.00, mean_100:  90.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2149: reward: 200.00, mean_100:  91.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2150: reward: 200.00, mean_100:  91.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2151: reward:  33.00, mean_100:  91.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2152: reward: 200.00, mean_100:  92.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2153: reward: 200.00, mean_100:  93.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2154: reward:  14.00, mean_100:  93.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2155: reward: 200.00, mean_100:  95.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2156: reward:  18.00, mean_100:  95.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2157: reward: 200.00, mean_100:  97.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2158: reward:  12.00, mean_100:  97.25, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2159: reward: 200.00, mean_100:  98.02, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2160: reward: 200.00, mean_100:  99.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2161: reward: 200.00, mean_100: 101.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2162: reward: 200.00, mean_100: 102.57, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2163: reward:  20.00, mean_100: 100.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2164: reward: 200.00, mean_100: 101.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2165: reward:  35.00, mean_100: 101.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2166: reward:  72.00, mean_100: 102.27, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 2167: reward: 200.00, mean_100: 102.56, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2168: reward: 200.00, mean_100: 104.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2169: reward:  27.00, mean_100: 103.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2170: reward: 200.00, mean_100: 105.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2171: reward: 200.00, mean_100: 106.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2172: reward: 200.00, mean_100: 108.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2173: reward: 200.00, mean_100: 110.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2174: reward: 200.00, mean_100: 111.88, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2175: reward:  26.00, mean_100: 111.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2176: reward: 200.00, mean_100: 113.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2177: reward:  32.00, mean_100: 112.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2178: reward:  20.00, mean_100: 112.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2179: reward:  15.00, mean_100: 112.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2180: reward: 200.00, mean_100: 114.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2181: reward: 200.00, mean_100: 115.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2182: reward: 200.00, mean_100: 117.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2183: reward: 200.00, mean_100: 119.25, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2184: reward: 200.00, mean_100: 121.07, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2185: reward:  75.00, mean_100: 120.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2186: reward: 200.00, mean_100: 121.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2187: reward: 200.00, mean_100: 122.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2188: reward: 200.00, mean_100: 124.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2189: reward: 200.00, mean_100: 125.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2190: reward:  21.00, mean_100: 125.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2191: reward: 200.00, mean_100: 126.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2192: reward: 200.00, mean_100: 127.12, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2193: reward:  19.00, mean_100: 125.31, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2194: reward: 200.00, mean_100: 126.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2195: reward:  32.00, mean_100: 126.43, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2196: reward:  18.00, mean_100: 126.47, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2197: reward: 200.00, mean_100: 127.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2198: reward:  94.00, mean_100: 126.42, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2199: reward: 200.00, mean_100: 128.28, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2200: reward:  25.00, mean_100: 126.53, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2201: reward: 200.00, mean_100: 128.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2202: reward: 200.00, mean_100: 130.11, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2203: reward:  65.00, mean_100: 129.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2204: reward:  18.00, mean_100: 129.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2205: reward: 162.00, mean_100: 129.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2206: reward: 200.00, mean_100: 131.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2207: reward: 200.00, mean_100: 132.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2208: reward: 200.00, mean_100: 134.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2209: reward: 200.00, mean_100: 135.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2210: reward: 200.00, mean_100: 137.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2211: reward:  38.00, mean_100: 135.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2212: reward: 200.00, mean_100: 136.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2213: reward: 200.00, mean_100: 136.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2214: reward: 200.00, mean_100: 136.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2215: reward: 200.00, mean_100: 136.48, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2216: reward: 200.00, mean_100: 138.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2217: reward:  30.00, mean_100: 137.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2218: reward: 200.00, mean_100: 137.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2219: reward:  15.00, mean_100: 135.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2220: reward: 200.00, mean_100: 135.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2221: reward: 200.00, mean_100: 137.72, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2222: reward:  11.00, mean_100: 135.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2223: reward: 200.00, mean_100: 135.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2224: reward: 200.00, mean_100: 135.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2225: reward: 200.00, mean_100: 135.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2226: reward: 200.00, mean_100: 137.61, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2227: reward: 200.00, mean_100: 139.39, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2228: reward: 200.00, mean_100: 139.39, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2229: reward: 200.00, mean_100: 139.39, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2230: reward: 200.00, mean_100: 141.18, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2231: reward:  28.00, mean_100: 141.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2232: reward: 200.00, mean_100: 141.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2233: reward: 200.00, mean_100: 142.98, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2234: reward:  13.00, mean_100: 142.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2235: reward: 200.00, mean_100: 142.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2236: reward: 200.00, mean_100: 144.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2237: reward: 200.00, mean_100: 144.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2238: reward: 200.00, mean_100: 144.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2239: reward:  14.00, mean_100: 142.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2240: reward: 200.00, mean_100: 142.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2241: reward:  10.00, mean_100: 141.04, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2242: reward: 200.00, mean_100: 141.04, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2243: reward: 200.00, mean_100: 142.82, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2244: reward: 200.00, mean_100: 144.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2245: reward: 200.00, mean_100: 146.44, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2246: reward: 200.00, mean_100: 148.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2247: reward: 200.00, mean_100: 148.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2248: reward: 200.00, mean_100: 150.12, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2249: reward:  15.00, mean_100: 148.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2250: reward: 200.00, mean_100: 148.27, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2251: reward: 200.00, mean_100: 149.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2252: reward: 200.00, mean_100: 149.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2253: reward: 200.00, mean_100: 149.94, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2254: reward: 200.00, mean_100: 151.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2255: reward: 200.00, mean_100: 151.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2256: reward: 200.00, mean_100: 153.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2257: reward: 200.00, mean_100: 153.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2258: reward: 200.00, mean_100: 155.50, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2259: reward: 200.00, mean_100: 155.50, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2260: reward: 200.00, mean_100: 155.50, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2261: reward:  25.00, mean_100: 153.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2262: reward: 200.00, mean_100: 153.75, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2263: reward: 200.00, mean_100: 155.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2264: reward: 200.00, mean_100: 155.55, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 2265: reward: 200.00, mean_100: 157.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2266: reward:  15.00, mean_100: 156.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2267: reward:  21.00, mean_100: 154.84, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2268: reward: 200.00, mean_100: 154.84, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2269: reward:  13.00, mean_100: 154.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2270: reward:  45.00, mean_100: 153.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2271: reward:  54.00, mean_100: 151.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2272: reward: 200.00, mean_100: 151.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2273: reward: 200.00, mean_100: 151.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2274: reward: 200.00, mean_100: 151.69, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2275: reward: 200.00, mean_100: 153.43, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2276: reward: 200.00, mean_100: 153.43, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2277: reward: 200.00, mean_100: 155.11, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2278: reward: 200.00, mean_100: 156.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2279: reward: 200.00, mean_100: 158.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2280: reward: 200.00, mean_100: 158.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2281: reward:  15.00, mean_100: 156.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2282: reward: 200.00, mean_100: 156.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2283: reward: 200.00, mean_100: 156.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2284: reward: 200.00, mean_100: 156.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2285: reward: 200.00, mean_100: 158.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2286: reward: 200.00, mean_100: 158.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2287: reward: 200.00, mean_100: 158.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2288: reward: 200.00, mean_100: 158.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2289: reward: 200.00, mean_100: 158.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2290: reward: 200.00, mean_100: 159.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2291: reward: 200.00, mean_100: 159.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2292: reward: 200.00, mean_100: 159.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2293: reward: 200.00, mean_100: 161.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2294: reward: 200.00, mean_100: 161.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2295: reward: 200.00, mean_100: 163.44, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2296: reward: 200.00, mean_100: 165.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2297: reward: 200.00, mean_100: 165.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2298: reward: 200.00, mean_100: 166.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2299: reward: 200.00, mean_100: 166.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2300: reward: 200.00, mean_100: 168.07, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2301: reward: 200.00, mean_100: 168.07, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2302: reward:  12.00, mean_100: 166.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2303: reward: 200.00, mean_100: 167.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2304: reward: 200.00, mean_100: 169.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2305: reward: 200.00, mean_100: 169.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2306: reward: 200.00, mean_100: 169.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2307: reward: 200.00, mean_100: 169.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2308: reward: 200.00, mean_100: 169.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2309: reward: 200.00, mean_100: 169.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2310: reward: 200.00, mean_100: 169.74, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2311: reward: 200.00, mean_100: 171.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2312: reward:  36.00, mean_100: 169.72, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2313: reward: 200.00, mean_100: 169.72, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2314: reward:  34.00, mean_100: 168.06, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2315: reward:  33.00, mean_100: 166.39, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2316: reward:  42.00, mean_100: 164.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2317: reward: 200.00, mean_100: 166.51, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2318: reward: 200.00, mean_100: 166.51, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2319: reward: 200.00, mean_100: 168.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2320: reward:  19.00, mean_100: 166.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2321: reward: 200.00, mean_100: 166.55, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2322: reward:  27.00, mean_100: 166.71, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2323: reward:  24.00, mean_100: 164.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2324: reward: 200.00, mean_100: 164.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2325: reward: 200.00, mean_100: 164.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2326: reward: 200.00, mean_100: 164.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2327: reward: 200.00, mean_100: 164.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2328: reward:  25.00, mean_100: 163.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2329: reward: 200.00, mean_100: 163.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2330: reward: 200.00, mean_100: 163.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2331: reward: 200.00, mean_100: 164.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2332: reward: 200.00, mean_100: 164.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2333: reward: 200.00, mean_100: 164.92, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2334: reward:  18.00, mean_100: 164.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2335: reward: 200.00, mean_100: 164.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2336: reward: 200.00, mean_100: 164.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2337: reward: 200.00, mean_100: 164.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2338: reward: 200.00, mean_100: 164.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2339: reward: 200.00, mean_100: 166.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2340: reward: 200.00, mean_100: 166.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2341: reward: 200.00, mean_100: 168.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2342: reward: 200.00, mean_100: 168.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2343: reward: 200.00, mean_100: 168.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2344: reward: 200.00, mean_100: 168.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2345: reward: 200.00, mean_100: 168.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2346: reward: 200.00, mean_100: 168.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2347: reward: 200.00, mean_100: 168.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2348: reward: 200.00, mean_100: 168.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2349: reward: 200.00, mean_100: 170.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2350: reward: 200.00, mean_100: 170.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2351: reward: 200.00, mean_100: 170.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2352: reward: 200.00, mean_100: 170.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2353: reward: 200.00, mean_100: 170.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2354: reward: 200.00, mean_100: 170.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2355: reward: 200.00, mean_100: 170.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2356: reward: 200.00, mean_100: 170.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2357: reward: 200.00, mean_100: 170.58, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2358: reward:  43.00, mean_100: 169.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2359: reward: 200.00, mean_100: 169.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2360: reward: 200.00, mean_100: 169.01, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2361: reward: 200.00, mean_100: 170.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2362: reward: 200.00, mean_100: 170.76, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 2363: reward: 200.00, mean_100: 170.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2364: reward:  11.00, mean_100: 168.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2365: reward: 200.00, mean_100: 168.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2366: reward: 200.00, mean_100: 170.72, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2367: reward: 200.00, mean_100: 172.51, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2368: reward: 200.00, mean_100: 172.51, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2369: reward: 200.00, mean_100: 174.38, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2370: reward: 200.00, mean_100: 175.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2371: reward: 200.00, mean_100: 177.39, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2372: reward: 200.00, mean_100: 177.39, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2373: reward: 200.00, mean_100: 177.39, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2374: reward:  15.00, mean_100: 175.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2375: reward: 200.00, mean_100: 175.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2376: reward:  26.00, mean_100: 173.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2377: reward: 200.00, mean_100: 173.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2378: reward: 200.00, mean_100: 173.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2379: reward: 200.00, mean_100: 173.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2380: reward: 200.00, mean_100: 173.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2381: reward:  15.00, mean_100: 173.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2382: reward: 200.00, mean_100: 173.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2383: reward: 200.00, mean_100: 173.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2384: reward: 200.00, mean_100: 173.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2385: reward:  16.00, mean_100: 171.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2386: reward: 200.00, mean_100: 171.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2387: reward:  27.00, mean_100: 170.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2388: reward: 200.00, mean_100: 170.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2389: reward: 200.00, mean_100: 170.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2390: reward: 200.00, mean_100: 170.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2391: reward:  13.00, mean_100: 168.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2392: reward: 200.00, mean_100: 168.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2393: reward: 200.00, mean_100: 168.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2394: reward: 200.00, mean_100: 168.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2395: reward: 200.00, mean_100: 168.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2396: reward:  16.00, mean_100: 166.52, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2397: reward:  18.00, mean_100: 164.70, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2398: reward:  25.00, mean_100: 162.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2399: reward: 200.00, mean_100: 162.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2400: reward:  13.00, mean_100: 161.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2401: reward: 200.00, mean_100: 161.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2402: reward: 200.00, mean_100: 162.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2403: reward:  25.00, mean_100: 161.21, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2404: reward:  25.00, mean_100: 159.46, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2405: reward:  16.00, mean_100: 157.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2406: reward: 200.00, mean_100: 157.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2407: reward: 200.00, mean_100: 157.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2408: reward: 200.00, mean_100: 157.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2409: reward: 200.00, mean_100: 157.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2410: reward: 200.00, mean_100: 157.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2411: reward: 200.00, mean_100: 157.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2412: reward:  24.00, mean_100: 157.50, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2413: reward: 200.00, mean_100: 157.50, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2414: reward: 200.00, mean_100: 159.16, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2415: reward: 200.00, mean_100: 160.83, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2416: reward: 200.00, mean_100: 162.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2417: reward: 200.00, mean_100: 162.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2418: reward: 200.00, mean_100: 162.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2419: reward: 200.00, mean_100: 162.41, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2420: reward:  18.00, mean_100: 162.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2421: reward: 200.00, mean_100: 162.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2422: reward: 200.00, mean_100: 164.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2423: reward: 200.00, mean_100: 165.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2424: reward: 200.00, mean_100: 165.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2425: reward: 200.00, mean_100: 165.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2426: reward:  16.00, mean_100: 164.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2427: reward: 200.00, mean_100: 164.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2428: reward:  23.00, mean_100: 164.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2429: reward: 200.00, mean_100: 164.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2430: reward:  12.00, mean_100: 162.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2431: reward: 200.00, mean_100: 162.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2432: reward: 200.00, mean_100: 162.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2433: reward: 200.00, mean_100: 162.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2434: reward: 200.00, mean_100: 163.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2435: reward: 200.00, mean_100: 163.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2436: reward: 200.00, mean_100: 163.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2437: reward: 200.00, mean_100: 163.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2438: reward: 200.00, mean_100: 163.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2439: reward: 200.00, mean_100: 163.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2440: reward: 200.00, mean_100: 163.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2441: reward: 200.00, mean_100: 163.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2442: reward: 200.00, mean_100: 163.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2443: reward: 200.00, mean_100: 163.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2444: reward: 200.00, mean_100: 163.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2445: reward: 200.00, mean_100: 163.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2446: reward:  38.00, mean_100: 162.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2447: reward: 200.00, mean_100: 162.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2448: reward:  19.00, mean_100: 160.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2449: reward:  12.00, mean_100: 158.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2450: reward: 200.00, mean_100: 158.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2451: reward:  30.00, mean_100: 156.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2452: reward: 200.00, mean_100: 156.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2453: reward: 200.00, mean_100: 156.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2454: reward: 200.00, mean_100: 156.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2455: reward:  24.00, mean_100: 155.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2456: reward: 200.00, mean_100: 155.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2457: reward: 200.00, mean_100: 155.20, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2458: reward: 200.00, mean_100: 156.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2459: reward:  23.00, mean_100: 155.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2460: reward: 200.00, mean_100: 155.00, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 2461: reward: 200.00, mean_100: 155.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2462: reward: 200.00, mean_100: 155.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2463: reward: 200.00, mean_100: 155.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2464: reward: 200.00, mean_100: 156.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2465: reward: 200.00, mean_100: 156.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2466: reward: 200.00, mean_100: 156.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2467: reward: 200.00, mean_100: 156.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2468: reward: 200.00, mean_100: 156.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2469: reward: 200.00, mean_100: 156.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2470: reward: 200.00, mean_100: 156.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2471: reward: 200.00, mean_100: 156.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2472: reward: 200.00, mean_100: 156.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2473: reward:  17.00, mean_100: 155.06, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2474: reward: 200.00, mean_100: 156.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2475: reward: 200.00, mean_100: 156.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2476: reward:  28.00, mean_100: 156.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2477: reward: 200.00, mean_100: 156.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2478: reward: 200.00, mean_100: 156.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2479: reward: 200.00, mean_100: 156.93, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2480: reward: 170.00, mean_100: 156.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2481: reward:  33.00, mean_100: 156.81, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2482: reward: 134.00, mean_100: 156.15, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2483: reward: 158.00, mean_100: 155.73, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2484: reward: 125.00, mean_100: 154.98, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2485: reward: 127.00, mean_100: 156.09, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2486: reward: 153.00, mean_100: 155.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2487: reward: 143.00, mean_100: 156.78, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2488: reward:  35.00, mean_100: 155.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2489: reward:  20.00, mean_100: 153.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2490: reward: 200.00, mean_100: 153.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2491: reward:  23.00, mean_100: 153.43, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2492: reward: 120.00, mean_100: 152.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2493: reward: 128.00, mean_100: 151.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2494: reward: 175.00, mean_100: 151.66, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2495: reward: 125.00, mean_100: 150.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2496: reward:  33.00, mean_100: 151.08, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2497: reward: 133.00, mean_100: 152.23, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2498: reward: 137.00, mean_100: 153.35, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2499: reward: 147.00, mean_100: 152.82, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2500: reward: 175.00, mean_100: 154.44, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2501: reward: 119.00, mean_100: 153.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2502: reward: 123.00, mean_100: 152.86, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2503: reward: 129.00, mean_100: 153.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2504: reward: 131.00, mean_100: 154.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2505: reward:  25.00, mean_100: 155.05, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2506: reward:  12.00, mean_100: 153.17, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2507: reward: 123.00, mean_100: 152.40, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2508: reward:  32.00, mean_100: 150.72, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2509: reward: 131.00, mean_100: 150.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2510: reward: 123.00, mean_100: 149.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2511: reward: 200.00, mean_100: 149.26, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2512: reward: 200.00, mean_100: 151.02, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2513: reward: 157.00, mean_100: 150.59, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2514: reward:  28.00, mean_100: 148.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2515: reward: 200.00, mean_100: 148.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2516: reward: 200.00, mean_100: 148.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2517: reward: 200.00, mean_100: 148.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2518: reward: 200.00, mean_100: 148.87, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2519: reward:  50.00, mean_100: 147.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2520: reward: 200.00, mean_100: 149.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2521: reward: 200.00, mean_100: 149.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2522: reward: 200.00, mean_100: 149.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2523: reward: 200.00, mean_100: 149.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2524: reward: 200.00, mean_100: 149.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2525: reward: 200.00, mean_100: 149.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2526: reward: 200.00, mean_100: 151.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2527: reward: 200.00, mean_100: 151.03, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2528: reward: 200.00, mean_100: 152.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2529: reward: 200.00, mean_100: 152.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2530: reward: 200.00, mean_100: 154.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2531: reward: 200.00, mean_100: 154.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2532: reward: 200.00, mean_100: 154.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2533: reward: 200.00, mean_100: 154.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2534: reward: 200.00, mean_100: 154.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2535: reward: 200.00, mean_100: 154.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2536: reward: 200.00, mean_100: 154.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2537: reward: 200.00, mean_100: 154.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2538: reward: 200.00, mean_100: 154.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2539: reward: 200.00, mean_100: 154.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2540: reward: 200.00, mean_100: 154.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2541: reward: 200.00, mean_100: 154.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2542: reward:  69.00, mean_100: 153.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2543: reward: 200.00, mean_100: 153.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2544: reward: 200.00, mean_100: 153.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2545: reward: 200.00, mean_100: 153.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2546: reward: 200.00, mean_100: 154.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2547: reward: 200.00, mean_100: 154.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2548: reward: 200.00, mean_100: 156.80, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2549: reward: 200.00, mean_100: 158.68, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2550: reward:  86.00, mean_100: 157.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2551: reward: 200.00, mean_100: 159.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2552: reward: 200.00, mean_100: 159.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2553: reward: 200.00, mean_100: 159.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2554: reward: 200.00, mean_100: 159.24, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2555: reward: 200.00, mean_100: 161.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2556: reward: 200.00, mean_100: 161.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2557: reward: 200.00, mean_100: 161.00, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2558: reward: 200.00, mean_100: 161.00, epsilon: 0.05\n",
      "training started ...\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "episode: 2559: reward: 200.00, mean_100: 162.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2560: reward: 200.00, mean_100: 162.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2561: reward: 200.00, mean_100: 162.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2562: reward: 200.00, mean_100: 162.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2563: reward: 200.00, mean_100: 162.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2564: reward: 200.00, mean_100: 162.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2565: reward: 200.00, mean_100: 162.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2566: reward: 200.00, mean_100: 162.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2567: reward: 200.00, mean_100: 162.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2568: reward: 200.00, mean_100: 162.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2569: reward: 200.00, mean_100: 162.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2570: reward: 200.00, mean_100: 162.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2571: reward: 200.00, mean_100: 162.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2572: reward: 200.00, mean_100: 162.77, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2573: reward: 200.00, mean_100: 164.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2574: reward: 200.00, mean_100: 164.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2575: reward: 200.00, mean_100: 164.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2576: reward: 200.00, mean_100: 166.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2577: reward: 200.00, mean_100: 166.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2578: reward: 200.00, mean_100: 166.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2579: reward: 200.00, mean_100: 166.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2580: reward: 200.00, mean_100: 166.62, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2581: reward: 200.00, mean_100: 168.29, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2582: reward: 200.00, mean_100: 168.95, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2583: reward: 200.00, mean_100: 169.37, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2584: reward: 200.00, mean_100: 170.12, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2585: reward: 200.00, mean_100: 170.85, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2586: reward: 200.00, mean_100: 171.32, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2587: reward: 200.00, mean_100: 171.89, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2588: reward: 200.00, mean_100: 173.54, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2589: reward: 200.00, mean_100: 175.34, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2590: reward: 200.00, mean_100: 175.34, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2591: reward: 200.00, mean_100: 177.11, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2592: reward: 200.00, mean_100: 177.91, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2593: reward: 200.00, mean_100: 178.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2594: reward: 200.00, mean_100: 178.88, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2595: reward: 200.00, mean_100: 179.63, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2596: reward: 200.00, mean_100: 181.30, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2597: reward: 200.00, mean_100: 181.97, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2598: reward: 200.00, mean_100: 182.60, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2599: reward: 200.00, mean_100: 183.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2600: reward: 200.00, mean_100: 183.38, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2601: reward: 200.00, mean_100: 184.19, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2602: reward: 200.00, mean_100: 184.96, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2603: reward: 200.00, mean_100: 185.67, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2604: reward: 200.00, mean_100: 186.36, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2605: reward: 200.00, mean_100: 188.11, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2606: reward: 200.00, mean_100: 189.99, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2607: reward: 200.00, mean_100: 190.76, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2608: reward: 200.00, mean_100: 192.44, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2609: reward: 200.00, mean_100: 193.13, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2610: reward: 200.00, mean_100: 193.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2611: reward: 200.00, mean_100: 193.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2612: reward: 200.00, mean_100: 193.90, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2613: reward: 200.00, mean_100: 194.33, epsilon: 0.05\n",
      "training started ...\n",
      "episode: 2614: reward: 200.00, mean_100: 196.05, epsilon: 0.05\n",
      "Solved in ep : 2614 and break\n",
      "Complete\n"
     ]
    }
   ],
   "source": [
    "# Training loop\n",
    "cumulative_rewards = []\n",
    "for ep in range(num_episodes):\n",
    "    # Initialize the environment and state\n",
    "    print('training started ...')\n",
    "    state = env.reset()\n",
    "    done = False\n",
    "    eps = max(eps_stop , glie_a/(glie_a+ep))\n",
    "    cum_reward = 0\n",
    "    while not done:\n",
    "        # Select and perform an action\n",
    "        action = agent.get_action(state, eps)\n",
    "        next_state, reward, done, _ = env.step(action)\n",
    "        cum_reward += reward\n",
    "\n",
    "        agent.store_transition(state, action, next_state, reward, done)\n",
    "        agent.update_network()\n",
    "\n",
    "        # Move to the next state\n",
    "        state = next_state\n",
    "\n",
    "    cumulative_rewards.append(cum_reward)\n",
    "\n",
    "    print(\"episode: %d: reward: %6.2f, mean_100: %6.2f, epsilon: %.2f\" % (\n",
    "        ep, cum_reward, np.mean(cumulative_rewards[-100:]), eps))\n",
    "\n",
    "    if np.mean(cumulative_rewards[-100:]) > 195.0:\n",
    "        print(\"Solved in ep : {} and break\".format(ep))\n",
    "        break\n",
    "\n",
    "    # Update the target network, copying all weights and biases in DQN\n",
    "    if ep % TARGET_UPDATE == 0:\n",
    "        agent.update_target_network()\n",
    "\n",
    "\n",
    "print('Complete')\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAYgAAAEWCAYAAAB8LwAVAAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAALEgAACxIB0t1+/AAAADl0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uIDMuMC4zLCBodHRwOi8vbWF0cGxvdGxpYi5vcmcvnQurowAAIABJREFUeJzsnXecXFXZ+L/PzGzvu9ndlE3vCYRAAgmQhKVJV1FfFUUFC80CgoL+FHwFfMVXRQEVRCkinReRJj1sCpBAEtJI73177zNzfn/cO7NT7szcmZ22yf1+PvvZmXPPvffMLec55zlPEaUUFhYWFhYWgdhS3QALCwsLi/TEEhAWFhYWFoZYAsLCwsLCwhBLQFhYWFhYGGIJCAsLCwsLQywBYWFhYWFhiCUgLCyiQETsItIhImPiWdfCIh0Ryw/C4mhGRDp8vuYCvYBL/361UuqJ5LfKwmJoYAkIi2MGEdkDfFsp9XaYOg6llDN5rbKwSF8sFZPFMY2I3Ckiz4jIUyLSDlwuIqeKyAoRaRGRwyJyr4hk6PUdIqJEZJz+/XF9+2si0i4iH4jI+Gjr6tsvEJFtItIqIveJyHsickVyr4iFxQCWgLCwgEuBJ4Ei4BnACVwPDANOB84Hrg6z/1eAW4FSYB9wR7R1RaQCeBb4sX7e3cApsf4gC4t4YAkICwtYrpR6WSnlVkp1K6U+UkqtVEo5lVK7gAeBM8Ls/39KqVVKqX7gCWB2DHUvBtYqpV7Ut/0BaBj8T7OwiB1HqhtgYZEG7Pf9IiLTgN8Dc9AWth3AyjD7H/H53AXkx1B3pG87lFJKRA5EbLmFRQKxZhAWFhBoqfFXYCMwSSlVCNwGSILbcBio8nwREQFGJficFhZhsQSEhUUwBUAr0Cki0wm//hAvXgFOEpFLRMSBtgZSnoTzWliExBIQFhbB3AR8A2hHm008k+gTKqVqgS8BdwONwETgYzS/DUSkWkRaPPVF5FYRednn+5sicnOi22lxbGH5QVhYpCEiYgcOAV9QSi1LdXssjk2sGYSFRZogIueLSLGIZKGZwvYDH6a4WRbHMJaAsLBIHxYAu4B64DzgUqVUb2qbZHEsY6mYLCwsLCwMsWYQFhYWFhaGDGlHuWHDhqlx48bFvH9nZyd5eXnxa1CaYv3Oowvrdx59JPu3rl69ukEpFdGMekgLiHHjxrFq1aqY96+pqaG6ujp+DUpTrN95dGH9zqOPZP9WEdlrpp6lYrKwsLCwMMQSEBYWFhYWhlgCwsLCwsLCEEtAWFhYWFgYYgkICwsLCwtDEiYgRGS0iLwrIptE5BMRuV4vLxWRt0Rku/6/RC8XPR3jDhFZLyInJaptFhYWFhaRSeQMwgncpJSaAcwHvisiM4CfAO8opSYD7+jfAS4AJut/VwH3J7BtFhYWFhYRSJgfhFLqMFoSFJRS7SKyGS0BymeAar3aP4Aa4Ba9/DGlxf5YoQctG6EfJ2ms3ttEpt3O35bt4qV1hwDIdNj4yiljqNlax57GLi44bjiTK/I50NLNv9YcBOCSE0Zy32UnUrO1jj++vZ27v3gCE8q1ZGFLttWT7bAxb0KZ9zy9ThePvLeHmq11rNjVxKNXnkz11AoA2nv6WbyljtK8TP6+bDd//upJ5Gc5aO/p58fPrWdYQSbPrTpAr9MNwFnTKli8pc577Nmji1l3oAWloCDbwbAsNxNndTG6NNf0dVBK8eP/W883Th3H6r1NfGb2KEryMv3q1Lf3cu872/n3xwdp73Xyg7MmselwG7saOunsdZLlsHP8qCI+3NNEfftASKGKgiwmlOdRmJ1Bv8uN3Wbj7c21VJXkkJNhRwROGlPCwZZucjLsFOVk8NxqLbnawsnDOHF0MQp4fMVemrv6WTSlnKXb6lkwysGHPVt4a1MtTrdidGku588cTnNXHyePKyXLYWP6iELm/c/bNHf1c131RNbsa2bFriZv286bWclfvzbX+/1QSzdbjrSxfHsjD7+3m5PHlTCyOIetR9rZcqQdgK+fOpbinAz/a9PRy1Mf7ufzJ1VxwzmTvdf+5XWHWDS5nKJc//rJ5OV1h3jsgz0U52bS2evkvJnDOdjSzebDbQzLz+LUiWV8ce7opLVn8+E2Xl53iG+cNo7KwmxT+7y1qZZZVUVUFmZzpLWHG575mH6XYnttO209TgDGlOayr6nLb7+yvEwaO/sAGFWcw8GWbkTAE3FoSmU+xTmZfLiniQuPH05bt5OTxhTz2sYjKGBHXQcA04YX8KkZlexv7ubVDYcZVZzD7oZO73nKC7LIzrCxv6kbgGvOmMgDS3YC8PmTqnh+zQF+duF0inIz+MJJVaw87OS6217n4lkjqCzM5pX1h7EJXHT8iJDXYMrwAi6eNdLU9YqVpMRiEpFxwFLgOGCfUqpYLxegWSlVLCKvAHcppZbr294BblFKrQo41lVoMwwqKyvnPP300zG3q6Ojg/x8/+yQV7zeGaJ2wG8iOA3Z/y7K4eal2gNRkAn3nZXnd8xHzx/wlNzc6OI3H/X47e/Z/ue1PXx0xOUt/9LUTC4Yn0HN/n4e/aTPVPuM8D1/JFYcdvLAuoFO/byxDi6bnuVX57b3utnX7o65PbFidO3NUj3aQc1+Z9g6v12UQ3muNrn+3juddPSba5Mvvu2zCTx8Xh51XW5uXtrN8cPs3DTXXEdohNFzGw1mnvH7zsqlIDPRSfQ0PO0pyxZ+Xz0wiAn1O5VSXPlGFxW5wv8uyuWmmi4ae4ZuTLnvHJ/J3zaEfq9D3YVThtu5dnZsz9GZZ565Wik1N1K9hHtSi0g+8Dxwg1KqTZMJGnre3ajurFLqQbQk8sydO1cNxvvQ0Hvx9VdN7bv7rosY9xP/uifOORmWLgWgvY+BY+vH9D2XbVs9fOQfydmz/b7N7wPN3vLi4VVUV09n65Kd8MkWU+0zIpprtX/FXli3caC9BcOorp7jV6f53TeAAQFx+2dmctuLn8TcPrPsvusifvDUx94Zni8XzxrBK+vDTDpzS9CCpYbmpJNPYaI+++uI4nnwxffZcCvt2m+vbYelS+m25VBdfYap4xoxaK9bE7/plPmnmh7NDxq9PY09yu93hfqdSil44z/UdWn1G03eo1i558uzuf7ptUHlb/5wEZ/6w9JBH3/E2EmwYZP3+08vmMavX9Pe8zs/exyXzx876HPESkKtmEQkA004PKGU+pdeXCsiI/TtIwCPbuQg4DuvrdLLhgxhO6YAXG5/uVhVkuP9bAsxZHC6UzdKsoL+Dh7P4MidwvtoFut+W0BirZgEeAjYrJS622fTS2jpHNH/v+hT/nXdmmk+0Jrs9YfBcs87203XDezsM+wDt8J3luVLvyv56hyL+LC9tp2ardpYaFeDOTWmhTGW8AIW3wmrHkn4aRI5gzgd+Bpwlois1f8uBO4CzhWR7cA5+neA/6AlS9kB/A24LoFti5obzpkc1+MFziDsPtOGkDMIVwpnEDFr/S0Azv3DUu58dXOqm2Ea636nDlNXfv0zsG9FopuSUCum5YReXznboL4Cvpuo9gyWL8yp4o9vm58hROLxFf7BFB0+UkFCXLZ+d+pmEGZGbckc2YWYZFlYHP24XdCyD6ZemPBTWZ7UJrGF6ZHOtH3Mnuyv8AP7vzAj//c3dbF8R4Nfmb+KyXi/oaC7ThaWmuHY5Wi/9RHHPrtqtP9lkxLcEktAmCacgPicfRkAN2b8H5fYPvDbtsdA32y02LzhYCs9/a6I50oVR8tL6Xtl0/Aypw2WAI5Myh6f/R9qZz/hywk/lSUgTGILc6UmyUG2uDUDrFszHqeUNu82p4FaaKfubBPI/TWaI006dlzp1mGk4zWysIgHEV+19kOQXwlZBQlviyUgTBJqVF8l9Uy37edV1zy+3PdzKqSFC+wfGtb18O3HjLPgdfY6Dc8Vak0i3UiG06VFckjnO3nMP2ddTZBbFrleHLAExCD5ov1dAFarKaxyTwHgDscjZBDeW9cIz2MfyooptRzjL+UxxjHfCaeQiK9/VyPkliajKZaAMMPYstyQKpaposUIet89EycO1ronYBPFjxzPRH0ezznScg3CjBVT4pvhJZ2u0LzxyXlZLY5Owr03htu6Gq0ZRDohgDtEDzlGannLNQdPl/XZvjsAmCBHTB177tgS7+eWLi0eSyj5YA3qBkinS/GZ2aNS3YS4k87PWho3LTlYAiK9sIkwLD8ruBw302372asqfEqFN11zGC/mnMAfufJk72dPdNBQntSpxMxLmX6tDk+82hvqdtlx8WvH31hoWx+nM1mkE/F6TcMdJmibywndzZaASCvE39PZwxzZBsAG93i/8rXuiUyyHdIWkyLge9xNhzXrp0Av66HCsapiMsKOiwW2jVzmeJd/Zt6FDStMikUcaN4Nyg2l4yPXjQMJj+Z6NDPLtguA99zH+5Wvck/VPuz7AEoXhT2GkeDxze1gkf4YjfJWZn2XYTJg7jxa6tirhie1XUcr6az+Sjh1eriW8mlJOZ01gxgEo6SBNpVDA0V+5WvVJLpU1oDHYxgcBg4WX5hTFa8mxg0zVi1D4cVNivru4Go/4QBQRluIysmlu88VuRJD414ek9Tr4f7LpybldJaAGASfGp9Bswp2Vukjg3XuiXDo44jHMDJpLS8IXu+A1C7OmTl3UlVMabROE9SUVQ8F1SmS9IjgGsrYwiJ1BN6RsHeofgsUj4FM88m/BoMlIAZBVWYnzRh7Mx6iFNojWzIZdXT2NOr80oUTZTt5aNn6aD3At/fdwq8cD4XV7Z9q+4Ri2pPUQh962zmoyvif/sv4ef+VABRj7D2frqRzNNd0blvCqdsC5dOTdjpLQAyGrkaaDGYQAAfVMFTbIW571nxI3kw9YF86OsqlcuA5UQ7yQtYvuCfjT1rB3g+Y2bmCrzreYazUBtUvoY1/ZNzFU5m/4rnM20MeV0S47JTB514O8nTvbmG/quBB1yW84poPQLEMMQFxDPfB5onPixp4lJBHdTmhcTtUJGf9ASwBYYqQN6yriSYKDTe95zoeUS4KDi33lv11yU4Wbwnu0DyMLdPy8doCJEQ6TCiWbKtnxa7GlJz7OsdLAJxj/5h8umDt495t72bdRCUD1mKTutby84zHOcOumZZOtoVPSnjjuQnQ5XbW06o0FUAb2v/iNFExWf3+EKZpF7j6rBnEkKGr0XANAmC1mkyPvYDvOl70qkF+/doWvvmocRwmGHh5HQECIvB7qvjyg4NLUHKm7WOeybydaLupg2rA5nu8HIG+TlzYvWXfc/wbgBx6uOHAD/m8fXnAERLcLfrensad0Lid1W4twZQbG60ql6I0UTEdDSE00vEnlNOCHXMGAJEI+fOSvEANiU05+rCI1InIRp+yZ3yyy+0RkbV6+TgR6fbZ9kCi2hULhguifV3Q3xVyDcKJg6bc8cyy7eZWxz9Nncfz8gbOINIx9IYRkTqfRzJ/yzzbFmbLzqiOW+azjvBy1s+hYRsfFp/PA85LADheNzceKf4znDv6LwdgFAO5NxJ+JfUsX2+753iLWlT+0FMxpboBQ4hyWvgo+zpudzya2BO16EnGSick9jw+JHIG8Shwvm+BUupLSqnZSqnZwPPAv3w27/RsU0pdk8B2RY1hx9eldUYtIQQEwO6S0wC40vGGqfN4/OMCBYLHVyKdRk7battp7zUfkNB3dFUmrVGdq0za2OEeOVDQ08q+nJnc5byMNe5JzLbt4vnMX/Bf9iXeKn91XsRqPXjiOfY13vJEXEK/u9W8B8TGfh/v+hbyKSI9VEwW8WekaAOQrzreicvxQg5iWg+CPROyi0LViDsJExBKqaWAoSuxaEPyLwJPJer8CUcXEE3KeA0CYOWor9OqculTdrLoi3hIjwlioCmikTNdqrnx2bVR1fddTD7FtiWqfcuklVpVwiuueVrBd95lRfFFgK5yAubYtnON4xVc2Jnbcz+/dn6VzWoMMODQaETcJ2fthyGvgn4fH9RWlTfk1iCOBlVUshjsvb39lU3mKu56F7IKk7oomSpP6oVArVLKN8nzeBH5GGgDfq6UWma0o4hcBVwFUFlZSU1NTcyN6OjoMLV/d1dXUL11K97lBKBJ5Yfcb/32A1zXfz1PZP6aq+yvcJ/rc0F1fI/b1dVNTU0NR/b1+9XZvXsXNXKAAwd6I7Y1HNFcq+0BbQg8Rnt7d9C2nTtDq44WZ/3I+/lqx6v82vlV020po42NjOfm/qv4g/ML3Lq9jSO1PYAW5mSRfYO37jWFf6GhR5vV9ZLJYtdsjpPd3u2NjT5qKKV4/733g8734coP2Z9vfuy0desWajq0337cvi1kqxy/7S3kU0W9X1kynlsjuvrNdfwrV37IviiuQbzw/V2hfmefSxnWTxSbN202LP/oQy3vi+/60n/Za3jOVT2o8+3cNfAebdu2jZoe7fmd29WNshWyOgm/2UOqBMRl+M8eDgNjlFKNIjIH+LeIzFRKBbmfKqUeBB4EmDt3rqquro65ETU1NQTt//qrQfXy8/Oorj7Db9sJk0bBemiV0NO94SNG8NyBXppVPt9x/IeHXBfSRbZfnerqanj9VW50PMsP1L/BfhsHpnwBNnmXbhg/fgLV1ZNY2r4J9u7GLDbcuH0midFcq/0r9vq1IfAYhRuWQ5u/qmjixImwJfhlyqUnqOwC20pec88z1ZZh0kaju5AestipRlFdXc1LtWvh0EH+n/NbLHJv4H8yNOe0rOFToG4gUOIGNYGz7Gsppp0WChhWVgb1WigTEeG000+Dd9/2O98p805hYrku+A2eh0CmTZtOtcf7ffvtUDwefORQi8qn2Oa/BhH359YkbT398M6bEev5XYNE43ONfX9XqN/Z0++Ct14fqG/iHg2G6TOmw/rgGfMp806B5UuYYBt43m52PD1oATFxwkTYqs2yp0yZQvX8sdqGVb0w+ZxBPTvRkvQhgog4gM8B3oQJSqlepVSj/nk1sBOYkuy2hcJwkVhXMYVapAZtzcCFne/3f59C6eJk21a/7Z87UQsTnYGTH+iWOLxzO2WtWscsuLnZ8TSz9z2m2UBHwVm2NezKvpw92V/RTENTyGjROuRHnOdxbd/1ANyfeY+pfYfTSKF0Ua+MBfEBVcGTrrNZ6Z7G864FQdvfc80E4Iv2mhhabg6/p6PtMOSV+21vIY8iOpE0CNhnVnOUzhqmVLWtjFaMlHQeNeffnRdQLm0xJQuLSH83dByB4nHxP3YYUmHmeg6wRSl1wFMgIuUiYtc/TwAmA6EVx0nG0IqpqxHERquEdnn3rCWscU/GqWycHKB7P75K6/S0Bw/etC8CsXHa+p8BcKZtLdc5XuL03ffAij9H1earHa94P3/RZ/HWNBHewmjUoGN0AfFv1+kBs4bw5xgjtazI/j4Ah1X48MZf6ruNm/qvDSr/UE1nn7ucs+2Rw54MmqZdWr7gUXP9iltVPnZRFBCslrMYGlRJPauzr+Xb9v94yzKatnO9/Xk+Y38ftxLaVa63btxp3qP9T1IUVw+JNHN9CvgAmCoiB0TkW/qmLxO8OL0IWK+bvf4fcI1SKnKs7CRhN7pKXU2QXUy4S+ixSuoim41qfNAMwtPHXmL/AIBtE6+Ec35JUeduKmjmOsdLHFDDOFJwHKz5Z1RDJ0/6U9CCCiaDUM0brb8w+/zyZkBhBMueqbLf+/kIAVnbDAWUsdT6j3se82xb2JF1edjzxYpXWDbquuORs/22t+jrVEVDzNTVYoCr7S8D8G3HgIAo++BX/DDjeQBsolijNN+Xb9jNWS1GhefZOloEhFLqMqXUCKVUhlKqSin1kF5+hVLqgYC6zyulZuomricppV5OVLtiYVyZwSyhpxVyisOOpH1jxqx0T2O27PCzZvLMTD5nX8Yq9xRqc6fA+IUA/C7jAebatvGA8xI+qbgEGrdT1mN+/aGUdupVEQfUMIolhnhEcbSUGC11dKhsrzrO459QKS1h9yvR292pstjsHuO/MQo1w3vu4wBwiJtMt/8oPq72ILraMTCZS4vHmzodTF1NX7f01TGlIhZTtW0dAE7sgOIk2Ubenrf86nzgngGEt5ozg+GvO7IBxJa0MN8eLE9qExiamfa06DOI0PxrzUCYhw/cM8gSJ3Ns27xlNgF6Wplu28+7rtnagz98Fi7JYJF9A6vcU3jCdbbXn2JS20rTbS6VdhpVIc0qn5IEePFG07GOljrdL0Dba71bc/SplOaQ+2TgZJxuGntS71/D+ptEYp17wLFoau+AxVPcMoJ5jhNKQOgziKHmLGehUV73PqNt2iy4Shr4gn0pVzq0RfJ3XScA8IO+7+LEwV53BSfZdjCKOKuZmvdA4aikRXH1YAkIExguUve0QnZRcKC2EHzknka/snOObcBpS1Cw7G4A6rNGayoamx270kxMf+/8LxQ22jIrYdgUxrd9FPL4gQugw6WJOlVMsyoI8jBONqOlnv1qYOG2Fi0PdyWhBcQ/Mu7iOsdLtKsceskMrhBF597GgDXOBS1Pm98xWroaQexBjkwt+vmHUkTXdF6kTjYzNv3B7/u19peYb9tMT8WJXNl/C+N6nuQl9+kA/Mn1WSD84CcSQY+2UlrqgIIRMR8zViwBYQLDkWZ3S0QVky+d5PCWew6X2D/wehVXNbwH7/0RgC0y0Tu1XHrCb9ntruRDtzadVMCarkpo2Wd47MWZN7I7+3JG+zijjZRGDqphdJLNNNv+iPr+ICL1EKaH30oXEAPrD3VKm3mNkEa+a/83P3Q8x6dsH/ntc5pdcx7qwjg3RrR8uvcOAKb2xj8/tHeQ4EkmH3BtWr1rEKlXMZlVz6SzfEi28Mpv91cZTdTNWkUFx17a4dYsEwulEzsu/ppxN5+1BcYGi5IDH0HDVsiviFw3zlgCwgSeGcRz15w6UKjPIKLhJddplEsrF9g0B5vcXj216Jef4rCt0uu9unfEeZzZ9wdvQLr7Fu9gU1smZWKclWyCTTOzq8m8kSmyn3JaKJdWOshhha4XHZ0Iy4oAjDqfYbSRK71+C9Q9ZNGqcqm2r+PHGc9yveMFHszURmn/4/g7e7IHnOjKiS4sRyjWq4nez45EmCECdDYYJpNv1dcgZsqexJzXIqG0FB8XVFYurXSPOi2o3HOvC+lihDRxnn0Vv8uILrRc0Fu0c7H2//TrozpOPLAEhAmKcjIAOHmcx5JGedcgolFjv+ueTY/K4OsOzVGpsm09OLJh0tkI4UdGjRRRQkeQjbVvZ2cXxZtZt/BR9nUATJe9WmY7oFKiNAqLQUFv1P45uuWWr4oJoFaVBHWYI2jkK47FfmWecBlBzYthefnOfk3wDB/E9N+wLZ6m1H4CwyYFbfeE3ZgUIfR4MrBUR9GT3VPHy675XNb3M7/y9mlfCKrrCfNeJJ3e+FsOcbM+61v8I+Ou2BrQoAecqEhemG8PloAwwY8+5R9eN4t+LS57dlFUqS97yeSfrnOZK9uYKvsYc+g1OOHL4MhCJPjl/eWnZ3o/71fl2ER5A4N5OEm2+33vVRnez8+4zuSI0vT9C20bSAV/zdRUaLuUv/70iColRzSLrkec5wFwe8YjQfvvVCODyiA2S5YdSpv+v5B5q7csbqlLO+qheTdUnWK4eanr+IQYC0SL+VhMCW3GoEhu0xTZPXXUqhI+cM9kYa82013smk1/WXCH7cn/cUfGo8y3feItL5RuzrCvJxPjEDa+eJ7IQjpYuPZHsHsJDJ8FWbEbasSKJSAi8MYNi8jJtPuVeSNz5oS3YjLicdc52ETxRtZPEGcPnPxtQFNjeTs9/e288PiBTrVBDwpYGpBCc5F9PU5lY27P/bzsmk+WDDyAL7tP8/oPlMRi6hqGaLvVvarS7/ujrvN4xTWfh53n8xfnpwE4V4+6ekf/V/ls7+3c4/wcP+//ZjyaC+DN/leuq+pimYWExOPIFCJW/1Y1WvdHSeOe14djOq2nD+W04HB1U6sPtParSq7ou5mb+682HFz4Bmm8xRFsEDFd9po+90m2HYw98qamtpz1xRhaP3hSFYtpyDB1eLDULvQsNmYXxdBRDueAGkaVNMDo+TD8eABcbsWqvf6qD9/nzxM1tlTa/PqYhbYNrFGTaaCIBbaB2EkX997pOQrvu2ZEvwYRgyd14B5Vugf17f1fQwWMRRa7T2Kx+yTDYz/k0iK1rnUGq2u854+hc9+iq6ucKgHjIq+J6zDDzXtVJTnSRwUt1OlWXKnAbJTWdJ5BJJNJtkOAf9TmGvfsUNX9yBQX/3ItoMZ1Ak7s/CXzXs1QweS1vdKumdLypcdh2OSo2h0vrBlEDHhnENnFMXland37O7Z8aztcOeCVWdfey676Tsb95FWWbg/2fG7S/QBKfWYCJbRxvOxmmUsTMttUlXfbRjVg+79fVSRlkTqQU0QLLbLMfXzEumf2/p4a1wl8pe//Jaw9fWSwLP+CkGliB0WXfs/yjEOCeBbpjXJoJ5OjQsWUxMada1sNhF4LM+Ie50DU5s3uMbzkPp2tSst9XhhFXLSJunCiLPRAKdFYAiIGCkW/yREc5ULRSyaOrByw2Q23v7UpuBPxjGCGMWDJtNC2EZsolrpnAfCDvu8B8B+Xvx58vyqnQlq0gF9miYNufpLtEH3Kzm41PGLd3WoEV/TfwvvuYIuReNLiKKNCWrxpYOOBiGgWTBB2BgFwVjJiQsUBS8UEn7Mt5Zu6Q9yWKATEYtfADMPjA9Omx2ky62V9qu0TqqSBQ2WnpTQpvSUgYsB3DSLWW2e3RXfpu8imQ2VT7hOeYqFtPS0qnw36bKGWUsb3PM51/f7mcF4LohB+FIlimuxjjxqOMwGazFjfmR7RXtRodMGmaDsImfkhPV0PKk1wXOtIbRSZoyGaa6Kx46KUNu7O1MxTO/LG+oXNj0SDT+Rhjxe9Z9ZqFPreiKcyfwVAo4GJbTKxBEQM+K1BxNhTOWLIElerSqjwMdE8zraHjooTmVw58EBqun7/Y3ud1Jrj1ymaaf102z42qMQEF4u1A9ueram7FulWXfEYmwnAkY1QOTOk5PIVkjkmO4lEcDTMDBL9C37qeJI12QNZj3dNjC7IYy0lrHNPoF4VeVVTLuzscVdyueMd9mR/xft3m+Mxw2O84zoRgB31rmEQAAAgAElEQVRVwUnGkoklIGJgYA2iiPHDYouN4rBH3zXVqRIutq9kluzkZsfTTLfto71gEr/49Iyw+3lnEB5LGzNEXKQObr/vLoV0MkKa2O6uCqqXSnZnad7pt2Q8DQKZHz/Cq5k/5TgZRIA1paB2I1SGH+39b79miTKYMAwWiSWXHr7teM2vbO/YzxvWDfUGO3Hwmb47Obn3fg74OIgGRjMGdBWWIlDs7VfltKlcOnOMzbyThSUgYqBQuiAjD+wZPHzFyYwry436GHYTM4/AGkv0tYaXsm7lOsdLAByoPCuiRU89xTSoQta8HzmTWLyYJJpTmMf3IN7EqmJSMvDIz2UzeW/fzEzbXuZFmSfbF4e7G3rboHh02HrrdG/uaHNyxxVLxRSWapt/5rhf91+G254donZ0/Nt1umH52qyrvNEDzrR9zAXrvscVjjfpx3iNMplYAiIGiuj0+kCU5mVy5rToY6TYYlAxPeD6NDvd/g5njSVmTO6ETe6xSLP5cOGDXRjzWGDsCOHolg486fil9/OCQTgSZvTp60IGYTZ82eDW1G1n21K3UG3aiimNVVGJFF4zbP5q2IYQmQxj4UX36fy+/wv8uP8qruj7sdeYpFhXWWfRx+fsyxjTpOVJL4uz71IsWAIiBgqlyy8OUywPrJkZhBH/1fcLPtf733zonsqC3j+a3q+eIr8F7kQzQQ7Tp+x+QfrShTddcwC43/1ZOi55EIBc6fVuP/v3S3C7FT953lxgv6xe/brmlIat10Y+Na4TGJHi6LpmOFZnEDk++VoAGuNoEu3Czn2uz/Gcq5oa94k84Trbb3sZbZxu20ivQzNpf8h5QdzOHSuJzCj3sIjUichGn7L/FpGDIrJW/7vQZ9tPRWSHiGwVkfMS1a54UESnn4lrLHbZmQ7/S//8tcGBv4xoopA1agpf7PuFn34zEg2qiGG0xs2MxUi8+Y46J8oh9qrh3oCD6YQngdCL7oX0T7uUTe6xzJYdfnUU8PRH+w32DqapQU9aH2EGAZo/SypDbpi+/YltRtpymm0jh9WAoN/kHpuwc73vnun3vVxasKFozh3PjJ6HucOZmAyI0ZDIGcSjwPkG5X/QM8fNVkr9B0BEZqClIp2p7/MXT47qdKRQOv1nEBHqX3HaOO/nGSMKefLb88jL8jf9rCgwDmv97o+qwx7b7ESkXhWTLf3QG59pq6Entc+FmCiHQsZRSjX/cH2KU3r+zC5GIaKpFbLEyak+sXOi4chh3aEpN/wMAqBZFaQ0cZDpcN8pmkK0dkWOVZQo6WXHRbF04sLGbf3f4HnXQuqJn4opEIUNlxp4kV7Muo1i6aS+cCZdZBPnfIcxkciUo0sBsyFEPwM8rZTqVUrtBnYAxlHP0oAi6fSLw+TWX6YTqowfpi+fMrB4WZafyWmTgp2pQnX0sVpJBeLVpXbUxeV4Rnh+gwMnY6SOnSr5CU7MIdRR4n39/qzHgpousfmJ5Ln0kOQRVEygxYMqkG5w9kasmwjSfQZxqDUKZ84485uMvzFCmtjsHstjrvO4qf/aoBAxvsTDf+3Svtu9Dq4e2rITY9gRC6mIxfQ9Efk6sAq4SSnVDIwCVvjUOaCXBSEiVwFXAVRWVlJTUxNzQzo6OiLub7S9kC4ONLSzQ9928KD2sk/I7mKdwTHWrFrl/dza3Gx4zIbuYM/e999/n4LM8E/hlq1bac6NLOcb9JHQx8vfoLX4QMT62/cZj+Q8bW81eJF37dJMRcdIHRniYqc7MTOImpoajhwx7mDr6sILwIaGgTAmbreb5cvf47fOL/Et+2t+kXKXLKkx3R5bRy0KYemH61EhvOM9ePJyf/D2y/RmG3tdR8LMcxuKRoPnzIg1a9bQtiv5k/hVq1ZRW6A9z6F+Z2f/gPgazPsfyBfsSwH8VEwAmzZtNqy/cqX5FMChWK8msl5N5F7+5C3b0D6QAXHbtm3URJGLPt4kW0DcD9yBNkC5A/g9EFW4TqXUg8CDAHPnzlXV1dUxN6ampoag/V9/1e9r4Hbb6y9TKF0UTjqOKn3bm80bYP8+JowfDzu2EcgZC06F5Vqeg/JhZVRXnxxU50BzFyx516/s9NNPpzQvM6hNvkybOpWxZXnw4YqQdQDq9RnEiZNHwczqsHUB9q/YC5s2BpV7rseft7wPzf72/BMmTIBtW5komsplV4JUTNXV1bxavw4OBgu6iooKOHI45L5lZWVQrwkRm83GggWnw+K3aKCIbzte417npbSRz6JFZ8Abr4U8ji/lWX2Io5gzzvJZdAxxzw4pbZ3i1BmjYcw8U8cPxPC5NcnBlm5YsjhivRNPPIk5Y5MUVNDnWs2ZM5cZI7WF4VC/s6WrD955C9CfxzDvRyy85DrV7/uMGdNh/dqgevPmzYOlNXE551m9v2Nx1o8AkOmXwF4tj8qUKVOonp+4dZBIJNWKSSlVq5RyKaXcwN8YUCMdBHyNyKv0srQj3xNsy2cNYoKuBhpVkmO4T07GwEgsFvPWeBC1iiniInXo33G5/W0gOAdEOhDqV1Xps4fnM38ZokZoClytptRL4Bv2JM6hPkxifm3h2FumXuWewlZ3FavUtKSfe5caSZ0q5m/OC1MaeymQkDMIETGOxayjlFoT7clEZIRSyjO8uxTwDFFfAp4UkbuBkcBk4MNoj58MvHmFfdYgvnn6eI4bVcQ0g9Dg4C8gQt36WNcEze7XTAEuJdg7E7cG4eEMu2Ye6kmekk6E6iAfcZ7HlY43mGw7SAbOqLrHQnez6XzB9UlYC4oHqTJzTaX/RRGdKfXbOaX3LwD8NGUtCCaciun3+v9sYC6wDq1/m4W2fnBqiP0AEJGngGpgmIgcAH4BVIvIbLThyR7gagCl1Cci8iywCXAC31XKICN4GlBoMIOw2YT5E8q0qa8BvgmHMhypcT1xY6ORIirMdkyRRjERNm9NsxAbHgK7H89M6A7n17jS8QZAUNa+SBS6WiBvnKm6beTRqxxkJUFQG5Hui9Rm2pcI4fXnjD8y2XaQ1c7U5F1IV0L2VkqpM5VSZwKHgZOUUnOVUnOAEzGh/lFKXaaUGqGUylBKVSmlHlJKfU0pdbxSapZS6tM+swmUUr9SSk1USk1VSplT/qYA7wwiylDfP79IS09YmJ0RoWbiaFBFibViQryB6F5wLUjYeQZDqM7FjY2b+rQAbdH6KRS5miGvPHJFAIQjqhRaIxsKpJJjzVHuIrumsGiNYtYb14yEaYqZ4exUpZQ3DoFSaiOQ/OzZaYLRDMIMWbqaKRr1opmqIuatpRtUISR45OoJDxBPD9R40uccsOIJvBce9UKptJnuIG24yVMdppzkPByhFNpTmzgoEqnyg0gF42TAqEEdA51+NJixYtogIn8HHte/fxUwF4PgKMRoDSIaUvn41VMMHSYXR2P0pC5D8wnw5H9OFLGu432wayDMReAI0CPUyqQNl9tcB1lIJzaUKSc5D02qYCADXZIZ6v2+0+WmrceEM10UnCA7vZ+zMVYTp4pUr1ebERBXANcCniw0S9HMVY9JCn1CfQcSdsoZ4c3Mz0q8xXG9KoKOWq0tCXjy7K5eXsy6DYDGOAY5SxSBC6IeS69yWrjx2WCzRiNKPF7RJq2YQM8O2Jka23bTntQJbkfI80Y48Q+fXcfL6w7F9ZxzbNu9nz9R4+J67MGSaoEetlfSw108pJT6KvCH5DQpvSmSTpzKhiMzP3JlA0L1yyV5mTG3yewz1KgKwdWrhdvIjqACiiBAjDYX9A6or7zmnEOIHrJoUXkMl2b+svGIqX1K0EOXRDGDaKQAupvA7QqZdjbVpKsVU7yFA8CZtrXUqmKu7Ls5qtSixwJh1yB0S6KxIhJ773WUUUgXbeSmfu4XA416Xms66xNy/LzeAb16YwJj2MSVgNt4WJUxQsxGiGEgrlIUM4g6VQLKnRJTV/NWTENcF2UKxadt71MhLfTjYJMaF1Vq0cS1Kn0wo9fYBbwnIi+BR78CSqm7E9aqNGFUcbDjW5F00qryMN8daKTDTffkxaWrEcomxv34Bb3aqPuS3jtZc+u5nHTHW3E/RzwxUgkeVqVRheP2Wjzlmvc6PuDrLFeYXGdC089hqmYQSTzv4xn/wwK7FqDxeefCqPdPxhgx1eNQM+JyJ/CKXrfA5++opzAn2CS1iM7QDmAmliBSaRrX4JlBRBi51rX30NMX3g3F6Hfk92gCYqsaTWleJqt/fk5sDU0h+1U54+QIgrmYRaM8PhOF5gOsDXhTxxYcMBmkbA0iiefyCAeANpU+Tp2+b1Zar0EAKKWijz0wROkO6BSNTP3Gy+FBpdGMysxVr3vxrBG8sj50fCGz1Cvd8qojvH79lF+9E9Px83uPUK+K6EMTrGX5WRRmO2jrccZ0vHAkStDuVCPJlx5KaTelJquQZpzZZTgcxuHajfDOIJqTH27DrPlqqjumRGMLGAAk2upuqBJRQIhIOXAzWq4Gb3JWpdRZCWxXSujpj+y8XSZtvO2eY/qYq/RR9GDsyguy42PhVE8x2BzQOvgwV0aCLq+3jiPKX9Uy1PqZWj2S53BpMmWJVS6tuHLLo4p62Usm5FemJB7T0ZByNB4U6arBDe5xrHDP4HV3cADNVJFOV96MiukJYAswHvglWoiMjxLYpvTF5SRfemiNYjo6LF8bWXpuerhxb2CWOe9pI9jkm5U9bmxQMBLaEhMHMa+vQVuAHcJ4BNxIk+sQFdKCMzeGtKrFY1IWsC+dSZaDnicP9N+dF/Ir5+V0D4x904qhsAZRppR6COhXSi1RSn0TOOpmD6bo0ZzAonHHD0RiuOOnjDfvpRuRolEJC/OQ29dAnYrNgTBeRHN9RYJfQE8WvBlirvMulxZcuTGY9BaPTckaRJwyziaMZJ3WY57cSmzm6okkndYgzAgIj9viYRG5SEROhKiNeIYEEfuWHi05fZvKjXr/wdzoz580ionlxkJp6vAoQ1oUxkdABP5WOy5y+pqoI7UziMGOQDvIpUEVUinNkSujKKcVZ0wCYox2H9zJjkk5tB3l4oXHPLlZpZ+ASCfMCIg7RaQIuAn4EfB34IcJbVW6oguIWGYQs/R0pPMnRC9bRYQCgyB/P7twOrNHRzliL6qCtkPgNmelY5Yy2hBUymcQ8aBeFVMuLRHrFdJFlvTHpmIqGQtup3Yv0hB3qoeuCWahTQsv13xsGGTGjJm1tbeVUj1AK3BmgtuTVgS9I7qKKdQMIhxzx5Xy8a3nRuUx7Wup4xtkzkNZfgz+i0VV4O7XnOUKKqPf36BtAHNtWgasZFmDJFI3W6tKqDAhIDxCxBXrGgRo6xDFo8PXjSNm+32XKzUCotfpYvPhNqaPSGywR09o95Y0n0EMhTWIjSLynojcpauYhoiL7OAJujndnhlEbA/VYMJp2OLl4Omx14/zOoRn0W+DmuC/IY0HoqHevTpVzAm2XRF9IcpFGzDEpmLS00gmeR3C7O1wxnmGaZafvbCRC+5ZRn17cM5xswEUI+Fr4pqOSa18SfVELmK3o5SaBFwGbAAuAtaJSMRIZiLysIjUichGn7LfisgWEVkvIi+ISLFePk5EukVkrf73QOw/KXYCR8XRziASKezD2f1HZZJYpCfyaYuvgBgjWpiNdFQxPfWd+Ybloa5aG9r9HU74dYhxovmTxDSDKBoNSEp8IczQn6IZxO4GbaARGLF165F2fvvG1ric46nMO+NynGOBiAJCRKqA04GFaMmCPgGeMXHsR4HzA8reAo5TSs0CtuGfXW+nUmq2/neNieMnnKCO1yMgiF7FlDZ4BMQgfSECZ1fHixad1OMklyqMrJhK8kK3yUjsLnXPAiJnljtO/82uvOHmG+jBkQmFI5M/gzDZ7/e7UjOD8LBuv7+K77w/LuWBJTtD1DZPJv3Ms20Z9HGSxVBQMe0DbgBeU0qdqpS6SCn160g7KaWWAk0BZW8qpTxutSuA9MxLqRM0au9poU/Z6ca812zc2hKvByWnBDJy465iypR+GvMmxfWYsWBkxZRhN37MQ13Sg2oYAKMi+ELkSi8NqhB3ZozrLsVjk+4LYXa26UzRDMLDjc+u897LeAqrUT5C/+ze3w7qWKnuvJOBmUXqE4EFwFdE5CfAdmCJ7hsxGL6J/0xkvIh8DLQBP1dKLTPaSUSuAq4CqKyspKamJuYGdHR0+O3f2e//UnR2+m+fvGszWeQBYnjebmfwSxVN+9wBet/l7y0nL0N7Ctvbu4Pqb968mZq2HWxuNG8qWbNkCac4iunYuY5NMVw7z+9pburxKy+lnQM+sfQ99Zyu+IfZqKmp4dDhYB01QF2df5ypv38ql5UrPzSs63K5WL58eVD5YaX5nUSaQcyRbRxUw9j40UcczI9ukaimpoZpvZkUt3zCiijvQ+BzGw372811tpu2bKGmc/Aj9sFwsKmTmpoaOvpCC6tor8No0Z6PJ5xns9NkyJxNmzYblq9YsSKqc5tl566B67516zZqulOTOwTMxWJaJyI70YL2LQQuB84AYhYQIvIzwInmpQ1a3usxSqlGEZkD/FtEZiql2gza8yDwIMDcuXNVdXV1rM2gpqYG3/1bu/vhnTe933Pz8qiuPmNgh/p/sPOAtqhldN72nn54+02/smjaZ3v7NT/z0wULFlCkBwy8a+1SaG33qz9jxnSqT6wic2cDfLTS1Dmqq6thrYPc+uVUVL9qXOn1EOUM/J6Hdq6ExoEOtFTa6S6p8s4ZPfUc774BzvgKierqat5oWg8H9gdtq6iogCMDcavOOetMdtR1wPIlQXUdDgcLFiwIumddZNOi8rze1CW0Mcu2myXuE/zqlUg7PSqTeaeczKSKgFlEmGvo+Q2o92HpUqoXng5286q5wOc2GjYfboP3DMdefkyZMpXqeUnKjRDiWv1ilbDz19XsqGuHxUsN61RXV0e81r6M0QXEvc5LTe8zY8Z0WB+87Dp//nxY8q7p45hl4oSJsFVTg02ZMoXq+WPjfg6zmInFtArIAt4HlgGLlFIxz4tF5ArgYuBspc8hlVK9QK/+ebUukKYAq2I9T0LoaaU9zPpDLF7SZtlypD1yJbN49N49bZETB5nAjosS6WBnRrCTXBobMYV1qjusyvi64y2+7hgIWT6151EtjhKQQw+F0s2TrtnEHLO2eIyWF6L1AJSOj/UoUZFqq5hocCntHp1zt7FwiIUqqadXZVBH+hlTGJFqNZaZefEFSqnjlVJXK6UeH6RwOB8t8N+nlVJdPuXlevY6RGQCMBktD0VKCbZiaokqDlPSiPald+h5Ll7+QVxOX6wHPuvOSNeXLvpecbotePG4cCAdijdNZf1gUqt6fSGSt1BtPuVoekiSf62Jb9ywr9nfwoETlQaJgULhe+VTLdDNXCWbiDwkIq8BiMgMEflWpJ1E5CngA2CqiBzQ9/kTWi6JtwLMWRcB63Xz2f8DrlFKmU/rFS8i3Yye1qFtweThGl3FUBS7g5bvbKlEtNlNj8EMInEYD62incWFqn9L/3eCyopkQEA8nqnZaSwNUDtFRYEW94l2c+lNj0Xuej28xVG0oVXypBe7pIfwGwqYERCPAm8A+tPMNjSrprAopS5TSo1QSmUopaqUUg8ppSYppUYHmrMqpZ5XSs3Uy05SSr0c6w9KKN1pOoOIlmGTIbsInD2R64Zg5a4BC59TdC/qvozEer/6Y/ySG3UYofqQcMLkGZcWNGCHe6S37AbHvwAoZkDdF+vzsPVIO//YoBseRMjPEU9SPSKNFiOHuVixoxlzPOI8Ly7HS5RKOZ2Mo8xYMQ1TSj0rIj8FUEo5RSTZEcaSQthptVL6DOIoEBCgh/2OPQ5Qr0/oj3w0bWFtwXFAYkKJp4ITex6gkxy+bX+VmzOe5Xzbh8yTzfRj99Zp1a3aouW8P2p69S/m5JBjzSCSgkdFuEfF4LeSIobCGkSniJShD9lEZD5aXKajHj9x0d8N7v6wcZjifS8jPRyDyqpWGFteiN0NnUGj9GHSRo/KoM+RzLg24X97YRySLDVTSB8Z/MX1WZ50nolD3DyTdQefsmu2E7/q/4p30TpW6ilOSxXTUJtpmKFEj+DaMoS0AKm+D2YExI3AS8BEEXkPeAz4fkJblSLC3oxBRHI1S1IHC4UjoS36NKbXPr46KCbOMGmlgSJDiZasBDCB3Hnp8ey56yKtDXE43q3Ob/Lz/iuBAa/xd9wnDfq4h1zJFRCp7nBSiceYosWK4GqasAJCRGxoaUbPAE4DrgZmKqXWJ6Ft6YU3DlPiBESs725M+xWOgo5acPVHruvDliPtOAMFBK00DMaaJwGYEUzRCGQXdl5wLQBgrE2LOxWP9ag6VZzcNYg0sU6KF9EIPCsHRPSEFRBKKTfwZ6WUUyn1iVJqo1Iquh5lCBH4rPl1Mt2Jn0EklcKRgIKN/4p61/9s8J95DJO2wZl7xkAo9VvUVkxR1O0kG6eyUaV7WMfjWahVJdoMIs2G9unVmvjgcZJrScMscqEYCmsQ74jI5yWRXmBDARO5IIbUFfKE/X7hqqh3vfHZdX7fh0krjSqZFkzR9afx63vFr3Nx6jYeg7nvdaoY+rugN46OkGFIMzk0aKJJbPTfGY8B8csBkYzXPdX3y4yAuBp4DugVkTYRaReRoBAYRwNh1RJJWINIKtk+I/5BPIWCm1LatDWINCDRax7dSgvU+IDz4rgcr8kjWLvCBwaMF2auzk8cT/GVN+cmTWgNhhfXRm+J105OAlpydGImH0SBUsqmlMpUShXq35M7XEwRfi/TILLJmSVwRBJphDKoGcvIE0H02z+IzqmMdhzipj7JeSAiWnj5VAipd4/h+rn0Vyaf4OCJsdDkWTDtSr5fqBHltHCN42Xs7j7408kJP19r1+A01o2d5vwkStDGtM85F6W1F3UgqdZKDJ0rlQQCu5FxZT6zBX0NIlwspiGF3QFf/Kf2uXUg6F20I/AqqQfggB4iO5B00GiMKY3fPfunS4u8tFONjFDTHM16ita62uTkpo50f6fYfAIgtkdv5RYtg81c19VnziWrVPf29+T6sDCHJSDCkJs54BBFTytk5nv1zkcFRZ70o7E7t3kW/vapypTrS33x7QhzMx188NOzDCpFf9yHXRdwQ991POb6lLdsMIO8Zn1N4+4X3x/EUcwT6SdPFE1QbR57uVbQGT7keaLbEwmzsZpKdO/35iFm4prqd8oSED6E94No9dfbGzAoxzUGYeYa646eWEw+DnPRHqtKFxChZhDJJpQtRah7E+0UXmHj3+4FuHy8qQeDZw2i0BU+vWmymCiHaFM57Ks8Wys48NGgj/nEyr1xDZnhS2u3ORWVJ2f6UHCSS6NxljkBISILRORK/XO5iCQnNnE60dMC2ekarTRGcsvAke2nYoqWMVJHp6OEbrJTri8Nh82obWnQ3nZy6FJZVEhLUB7mRBBpADBRDrFLjaSxYJq2RnVwzaDOt7+pi5+9sJFrHl9tuH2wt8C8gPA4ycXPxDUZz3uq3ykzOal/AdzCQP7oDODxRDYqVQQuZvqNRk3MIIYcIpo/hI+KKdrRywn5rbRkmcvMlQxC6tgNXrQ0kA+AUKuKqZAWfvHiJ0k4X/g7PNF2mJ1qJE5HLlTMgIPGHbtZPGaooWYQyRotF+le1K1DwEkuPZ5LDTMziEuBT4MW6UopdQiGmCIvBjIdNq5eNGGgoLsFco6uGcSOunZqpdybn/qR93ZzsDk665xhziO0ZMVnwTaeBKqabKkeioWhjhIqpIUXPj6YMFWMGfLoZoQ0sdMTwXbkbDi8blCKcM91DwzPkmyKpROnsg05E9ehsAbRp2d+8wTrS38lXqz43Iw1t57LcaN8ZgxJmEEEmbkmuFM75+6lLKvLgraDNHT08suXN7Hot+ZTKNpxUeqspSVb61CMHuZEPeDRXpninOCUnvFq2mDvU6MqpFQ3w7zhmY/j0aSQhLsfHou0fapCqzdiNnQ1xBTU0YNN1+1F49CWCL7v+DcOcZNe4/P0x4yAeFZE/goUi8h3gLeBvyW2WanHEai07mmJvEg9BJ69QBXMIVUK7Yfp6IqcG+Ll7y3w+z5CGrHjTssZRODvdNjT1x6jReV7ky6198Q3f3cg4bppjyloI7qb0wg9GdLh2EOvee7DYGcQg3m3PHkghiKp7lPMOMr9Di3L2/PAVOA2pdR9Zg4uIg+LSJ2IbPQpKxWRt0Rku/6/RC8XEblXRHaIyHoRGXyozCjxfYQzfTsUtwt629J2kTqaAGyB72mDKgLl5sDhyHb4Drv/0+oxcW1NIwERzWheGLzlWTxoooASOojHnGbrkXYeeW93TPuW6qag3rAp5dO0//Xhs7qFwyOn61KoOrvD8QgAq9xTUtaGoYqZReobgU1KqR8rpX6klHor0j4+PAqcH1D2E+AdpdRk4B39O8AFaLmoJwNXAfdHcZ64Y7MFLFBDwlVMyZiE31+zg90NA6kzi/UkKnv/9YuI+04sz2fe+FKev/ZU1v/3p1hYpHlgN2Vp5rKpHu1E4uunjk11EwxpVgU4xE0hXaw/0Mp7O2L3Pfjq31fyy5c30dNvPGoOp+nxzGKaVQFvb66F7EItsVT9VlPnfvaj/Vz/9MdsOjQQiSfSzKGrN/Gj+684FgOw2DU7rsdNh8FFojEz7y4A3hSRZSLyPRGpNHtwpdRSIDCGwGeAf+if/wF81qf8MaWxAk2lNcLsuRKKR0AcBYvUv3tzG2f+rsYrJPaqCgBGuSOHnM502Hjm6lOZM7aUwuwMrq34BIrG0J6pHSPVC2paG0I3YuHk8oScc7DdhCf8tKeD/urfV8Z8rH6X5pncZmD++cmhVh5eHnp2Uep1Jstn2XZdSJVPNT2DuPn59by49hAX3ruMu9/cyuHW7ohrD39+d4epYw+GRt1b/VX3/ISf62gjoluwUuqXwC9FZBbwJWCJiBxQSp0T4zkrlVIeH/4jgEfgjAJ8DfIP6GV+/v4icuuetw8AACAASURBVBXaDIPKykpqampibAZ0dHT47d/cM+D271ue376TucCGHftBD0pndN4+V/DLEE37VEDYgWXLlpHjCN39bN68maKW7WxsiH4UdubvtHa97D6Ne/gLa9XEiPv4/paK2hpm7F3OvtGXsv+AZgW1a9fOoLoud/xHiDU1NRw6ZKyyqKvT1F6ea+PLxjp//b7T6WTpsqWDbs/KlSvZkxf7GocnHlMZbexFS4cZ+NzUd7lZetDJ5yZl0NnZafhcvbOv3+sX8N7771OS7d+mK17vDNrHl1Jpo1XleqMF1NTUMKk3jxG177Ps3XejmiLeu3gHr3+8iytmZnnLjNq875DJvOiDGHysc0+kQlrYG2Oq0c2bNhuWf/BBYrzfd/q8R9u2bqOmOzaVYTyIJm5EHVqH3ghUxOPkSiklIlHdeqXUg8CDAHPnzlXV1dUxn7+mpgbf/Y+09kDNOwB+5ewCVsPxcxfAqpbg7To9/S5463W/smjaZ3v7NfAREosWLiQvS79Fr78aVH/GjBlUnzAS+/Z6WPWh6fP44sZGq8r1ZtsKh/e3uN1w91WQkceYy//E6MX7YfcuJkyYCNu2+NW1vfMauAYXb8eoHW+3bID9+4K2VVRUwJHD3mvji2tzLaxZ5f2ekZHBooWLgu5ZtMybN49xwwKM+wzuVyj2KW2MNF6OsEZpevLA5+aie5fxyaFurv/MqRzYtNrwubriJwPnPO2006gszI6qTaXSTpMasGCvrq6GzI1w8BWq558YeQYdcPzc/ELmnjwLlmtCeOGiM7DbBsxe73ptM7bcNrQuJTwisc9QK6V5UOHop8+YDuvXBpWfeupp3v4inkycMBG2au/RlKlTqJ6XOtWomTWI60SkBm29oAz4jlJqMBGvaj2qI/1/nV5+EBjtU69KL0saIRd7k7QGkSqaVYHX09QU7Ye0bHRn/Qyy0tPxyEjVlK5rJHtVJb3KwWTbwON+12tb/H5Dd4g1BYB3t9bxzEf+wjKWzrSEdpoI6EjzdLVcDDGZ7DbxW4No6erzfl6+o4G/LdvNezsSG+Y8iz5m2vYy7OjMUJBwzMyLRwM3KKVmKqX+Wym1aZDnfAn4hv75G8CLPuVf162Z5gOtPqqo1KJHck3XNYjB6v6zpY8LbFHE3GnYpv0fro8T0mDtwUM4K6bARUWlVFoIDRd2dqmRzJA93rIHluxkl48xwa567bPR77vykY+45fkNfmWxpBYtC5hBbKtthzw9xlZnfdTHs4m//8M/3t/j/dwbRuAZEauvSZnuX/K+e0ZM+x/rhBQQIuIZSvwW2Kebp3r/zBxcRJ4CPgCmisgBEfkWcBdwrohsB87RvwP8B02ZswPNz+K6mH7RIAjZ0R7lM4jh0kyW9GO6p2/QFxaHTU5YmxJCQB8TL0fEeBxmuxrFaKkz3OYbo8l3FB4NkcJ8Z9HHDNteTrDt8pZd+uf3fGYQxm27v2YnK3YZzwI+2tPM/TUD+vR7F+/ghY+19arAvOaJYqZtDwAb3cde+Lh4EG4N4kngYmA1Ws/h+xooYILRTr4opS4Lselsg7oK+G6kY6aEnhYQO2SGV6cMtqNI1UB8g3scx9v2UEB35HwXSsG6JyGnFPJ1+4I0GIV7CNcRBnuqJ7Yt0dCi8im2GS8i+zrP3fXaFr47LfLxfC/Dw8t3M6wgK3RlYKRonXyFtHjLOvtcUKq/5vXbDPf7zevhLZxeWe+vBPjhM+s4oaqY656ILgjgbz4/ix89t45M+plv26TndYh8A8dKLQDrTBhhWAQTUkAopS7W/x8zotfzTl0SsLjpDbORTj0K8euX/+68kHsy/0KFNNMeKWNeyz449DGce3vaXQ9fhloK9RbyKKQTwR0249lHe5phmrYg/tyq/d5F30B8xeTtr0TWChfq/jBX993gvyErXxsMBCQP+kvNDo4fFduMOlrhADCuLJdS2liTfQ0A1/ddx4vuBRH2glGirZ0cUSVRn9PChBWTiLyjlDo7UtnRxMJJAbkNkhTJNVUj3Dq0l6dcWtmpIkRmrdNN/kabsylPXCym8BfHeJE6fYVGq8rHLooCumkLyHse+FsOd7j54TNreeHj+NlwlOhGCoapYwuGBwmI/33dnPOcEYEe+WYQwSscACbYjkAE47hnMm9nnm0LW9yj6SY7fGULQ0IKCBHJBnKBYXo4DM9dLUTzTzjqCKme6O+GjPRJNVpVksOBKKOuhqNeacKvnJYINYE9y7T/FcF6jlgWRpNJYLcUL+EVD4/aFt1Zrkg6aNOT2tS29TCxPJ+/L/O3g//p8m4iGfidftdiinIyuO1ic4uzNzmeBUJkXCseC817TB3HDBsPxmBR5Pb3YZkqkXOYzLNp6q9dKj38bYci4ayYrkZbf5im//f8vQj8KfFNSyGGyWUidwLJcr0/YbT/KG+w/ZzHRrwskimg2wXbXodRc9N2wT6dZwnhaNFnDZ7QJwB3v7mNxz7Yw6M+1j/R0Nrdz03PrYtYr5xmjtcXcxuVgYAomwhNu8DtZvn2Bm57cWNwnQST3aYJyRv7tFnE+faP+I3jQVP7bnKnZ4iVoUC4NYh7gHtE5Ptmg/MNddIhVEQq8Kg0CukKX3Hrf6BxB1xyj+HmdI9NEyg70kmWDMwgOv0k/m1JSCI0wzbgQ9FmlHGtbCI4e6DtIJc/FHtk18GQ06SptLaoMd6yLzlquMV5VVDdL9nf9S66A/zNdVHiG3iUYibUxn0ichwwAwYUeUqpxxLZsFQS1G+km+SIc3Nc2OlQ2VrnFI4PH4SiMTDrS/FtQBwJb8UkAd/Th1bvDGLAYXHV3uTkqZ4kmunp9X0hLMtLdQugpp3G25NA8b436FEZ7FQj2equYqpNa/NkOcB2VeVX9zcZA9kIvtf3fXrJTGpbjybMphy9T/87E/hftAxzxxjp1J1oxHME3Kpb0YRioW097F4Gx10KGemflctI1RRYlE5i35MKMyqP9jhxom0Hdao4tFVQ2STtf2PiA+sZUUgnJXte5wnXOfSSyT9d53q3LbL5q9CK9YCDHg6psqS08WjFjCf1F9D8Fo4opa4ETsATse4oJV302MlU2YySRv7LsRQJYRpyrf0lKBkLZ9wS8hhGi9SJ6oQj3SJDK6YUtcUMnhlEURghnShOtO3gPffM0BUKRoAjBxp3ha6TQE61bUKUk/+4TgHgRdfpPO9agEsJs2z+C/gPZ/7W7/tBFWCROMQISlyWZMwIiG6llBtw6t7VdfjHTDpqCK2dMNfNpYlcGRTTJTgAHsAk2yEYezpkBmecTfe1By+BaxCkzz3rI4M2lcMwaU3qeW24qaSZAypMKHSbDUrGwdonktYuXyaKlszKs/7QTi439V/HMvcs7zYPPcpfnVRPeobHMculJ1ZFrpRAzAiIVSJSjBb+YjWwBi18xlGLYZ+RJh2JEZHCKJjhPqeWlsOog7ov417NwzZEaI10Mm9Nl9lfLNSqUoZLYPqUxFJBMw5xcziSKiYjB5crselQA6mkiavtLzPNto/+nHI68Vdt7lQjmSCH/Wa9OdLHZvcYxvc8zviex3Gb6uLSk6sWTSDTkdr2m0k5ep1SqkUp9QBwLvANXdV01JFOHV2yedKp+T16PE895NDDJfYV2pdxi8IeI91nEuneviOqhEpJzsK0B4+1zyEVIbza5HOR/k5skbzT4oZiZfb3+GnGU3za/gGtVWcG1dimqsiVXm52POMtO05200YuCltYj3QLc4QL1ndS4B9QCjhSkS86mQQNQpNkxVSUk2GqXiIEWa3uTf1F+xK/cr8ZhSeJfZzaleWw8cDl8X2Uwloxpbd8oJbSpAuIGba9AOyO5EyWW4YNRZGJvCHxYIbs9fveMfK0oDqeFKLXOl6mJvOH5NFNhrhYbeWejhvhzFx/H2abAs6Kc1tSTng5kPje5blrTmXptnpuNWn7Hs8RsWcqfqJtByNp4BDa4l6F7l39zb4f8bDd+HGJtR3nzRzO+ceNYExpLvuaIvhgRIkZVVO6qaNqVTEVtJBFHz90PM/9zktoNfJLiBMnyxbuzHgE0HJShCVXU0GVSjvNg0i+Y5ZJonmK16siyqWVrmHHA7V+deoZiK80zlZLtW7RNNQXptOJkDMIpdSZYf6OOuHgS6z9xmC7m7Flef+/vTOPj7I6F//3mSSTBEKAsIQdwh4wLCEskW3YROBW6nLd+Il1o95qq1bbYvVarb29/vzUVv1drxarrba21ttWr9a91Ygoi7ixBJAdjEDYBAOGLHN+f7xvklnemXlnMss7yfnyGTJz3uU8513Oc5bnPA9XlA9qtRyx0hQb+bfu+5vT/pp9DwD7VVyCCFoSSzkjHZJMK6Z4cVrlkCWN/DzrN1yf+RI3Z/41ofmNMV17/6NxPBGvTp5x/329vSaSUa59nFGZlJ/5f4yvfYwzna29sV545ifN3x9xPwy0PMea1mNnHcRSq08yhEs2oTsQ7WNu4tXGiQD0l+DgMDG3ysJcumRb8FmujXCQ2sgTw7/WhRmrABgkBxOaXx85ymmVzbX1t0Xe2XT7XZRAmVx4edF9B1dnvMr1mS+xW/WmgUyOkx+yt/ehGsHsM7/wS7P0J6WJCTuzOBN9PtOBu2njC+UsKw2HDUckgocbLgCgg5wBFHNcHzZvOx3GG2ascyKuBGiIsBHlAhfKOWyF/C8aLvb7PSsjsh+l1tBXjpiK38Z96NSHM5JNkcQnyGN3TnBr5nMU0OL/a6zsZIxrN3dl/R7AtkXXLuXvnr818ac1/thxtfFd39+myeuzsWYoIiOAP/skDQbuAroA1wFNzdcfK6VeiTWf9kS8qrmDtJg6Puf+KZNchv+bm0O5YGglGUlWuk5eKAeGyxNfjiV4qGSU7GFHJPfuTbhcVGf2oaihdQpiiquSh7P+q3moqkFl8FDjhXSgluezf+K37/+pu932ectqH2V9zr8BevV0PInFDuwUEHMQIaXUNqXUOKXUOGACcBp43tz8q6ZtqVAOIVuUNluayZr0TGTD96GG8wGY5NrGSdWBkyqXFyIEZol1mCZUsJvWEI0Vk9MmqaFlPcom7yAKpIYO1CYkn0wa6CdH2KwG2T7mSGYvJri2x5Tfea732ZNzOc+6f+Y3j/GvmYbVXGXO1UHHbFIRg1a2yEZnflC/jLcbx1ITKSqixjZ2Aga9REsj1YXhtO+5OOU/B9iplNrrpJfVWhTnyNdEIi7ZVm+Lt8x8Oc0D9RfFPxOTJgWRiCtry4opAfm2lgcaLuaBhou5PfMZznLt4RzX+ogKOhbKXJ/hEhVVa/tA1gDGy2qKZS9blH0X2tnU8bDbOkJAPznCsoyXmn+PqX2c/nKYTPwX5dm5V//T6OF/Gj225dJEJqKCAHxngBqAvUqpz+OU/6XAn3x+32hOgK8HblVKBRmFi8gyYBlAYWEhFRUVMWdeU1Pjd/yBGmMRUGXlFjp/2dJSKjl6FHfdV3zos69Vvl6L1mtr5Fu5ciVui+hbhw8bo3CbN2+mw9FtbDwcvxWu//SWst/bg/4uI49tqsWrSqiy7NtXB8CuXbuC9vV6Qy+sOnjgCyoqjvL119EFP6qoqKCq6ozlturqagAqN1eSf9w/jvKO441+v+vq61i50n/dRyysWbOG7rnxXZT1q4aL+Hbmy8zO+DghCuJZ988AyKUu7H6+9/yNhvEs5M/McG1gS6N9BdFkfrrGW8x7jaN5qnE+J+lIuWszf3L/Bz/OMqqAtd6RnKQjm1WwO5cPP/owKC1ZbKncYpm+evX7Cclv5y7Da+6+ffupqDgUYe/EYmcO4h0A0w9Tpvm9QCnVKp8AIuLGmOxuGmh8FLgXo7dyL8Y6jKB+p1JqBbACoKysTHk8nphlqKiowPf4nYdrYNU7jBpVjGecz9hs1SNQ02Ds+9rLAFjl2+hV8Lr/yFhM8pl5zJgxg5ysDL80gB49esChg4wePRpPSW/Utmr48IPo87GgjizOr/tp83iur318qLKs+Xor7N5JUdFg+Gyb377y5ivQaD3s079fPzye0eR+8Dactr8OwuPxUHFyM+zbE7StZ8+ecPAAxYH3EMjfdxzWtrzU7iw3M2fOhDdetZ23FeXl5fTtEuDh1ud+xUIt2QCcl7Ga79V/N8Le0dJyP/63MXgBmi++9/zp3R34eo+b/lIdVW6lrs+oVxlcWfcjP9fbq73+0e4ur7sj5DkmlE6A1e9FlW+8KB5VDBs+CUovLz8bKv4Z9/yGDB4C27YyYEB/PJ7iuJ8/GuyYuS4TkYPABoyW/Yfm39ayAPhIKXUIQCl1SCnVaDoGfByYFIc8oiLs2L6DhsASzRE683zjVGpVVpCv/XiSiDmIcENLHd12OszOYYM35qm+sJS7KgF4p3EMR6NxzCzCJjWIYa7oYmFPdW1mvXeERVwGYVjt0zzb4GHRmZ8HTdIHZK1JAXb6xT8AzlJKDVJKDVZKFSkVxexRaC7DZ3hJRHzX+p8PJD+uYYsssR0XZzlsk4BJ61vqb2DkmaeicnYW7WVrnoNI0ts/old62ce/0jgZIO4T1We7jJX6gWa1kRBgu7cfw8T+CLObeobLfj5WQy2315PJ8oZlUU2Wa5KHnbd/J0SKRRkdItIRw/Hf33yS7xeRjSKyASMw0S3xzNMerbNiShYOEydmEtGDaEscUoYriZ5x9s80QvZzXOWxMcp2ngI+V90pkBqyI8xd+ObllkY2eQdFL6gm5djpc98OvC8ia4HmmUGl1PdizVQpdQroFpB2RaznixcvfmL4lj9x2urhd15l5jyJoiMR6yCiWfzWr6uzI+NVm7EMBssB9kRyphcFI2Uf73nPiunYpiGpbpxs9tcVjusyjbmYjSoxw2VtkW55xvxTD/NvKrGjIH4NvAVshKT5+k0Jv1llRKfaezS+juPaC9H2bBKxkjoa7lkcWyUZSKJKcUQZlfGT7l8wqPaPcTlnBo30kaO86A0/OW3FsVN1iLlKubuc4IsI7lc6UMt5GUbomNb68nKSS5REc2FpX7IzXSwsiV+jIFbsKIgspdT3Ey6JA2jwGjVcRpBpaWoiyqXLxFw4OZuUxp+XTeHP6/fzt49aJjgT0YOIZj4jNysjLtVOokb89qheAbm0XtrecoxM8cZUYe8+cgpMpdVDvoxY8Mkuwzx0h7cP6d/fTR4iwjfG9om8YxKwMwfxqmnJ1FtECpo+CZcsBTSaCsIyDmy61NYpwE7PobhPPrfM9ffTn2E+ffrKWnMGN2u9IwGCQmvGStME874YFIRIi9PGfgGBpax4NOtBABbV/TzqvDTOwI6CuAxzHgLDxDVeZq6Oo0lBZLjSKxKVUyLhRW/FZFznYYXaPXMofl5/OQDPuONTyTZV2p96rd1nh+PL0/UcpjOnVDYDJfwCrm6cIEfq2eMttDBvjR7dPksNdkKOFll84mHm6liyAnsQDjMbcopCCCTSZQp8yZt6EL+8eFxiBLLgH9+fmbS84sGnyqjIe0VhyTTL9THPu+/y85QKUCK7yJF69np7hvXOGx5hnyqMqCAec/8KgNsbro0xH40TsOOLyTL2g1Lq6fiL4wyC5yDAiQMhTmlV2ZFDCJ4fcJm/O2bHbwFbJCumoT1beitOuX7hER5vWMg1Ga+STV3E1vg813oed/8SgI9yrueiM3fxo6xn2e3tzcWmY7wl9T/2O6ZzbhYnvq63LdEeVcgwCb9YrhOG+5Q13tSuBNa0Dh0PwoJYJ0+TseCrfHD6ujIOvDp6HYQ9VntH4RJFqQ1Pqg9lPeL3+y/ZP2Wi67Nm5fCFKuDzgPmHQd2DfR+F47DqwlDXFwwJoSRyqWWkaz9/bJiNislhtMYp2Bli+q7P5zqgFBIYKNcBBNfzqRnSsTLt820BpwO+Vy7wurosFGpHd2h3C76E0sXRKul4KPVEBx5a5x1Jg3IxzbUx7H7jZIcZ7Cl0DI8764PdakfLVxjrR5Zn/slye7HsA2Crj6NHTXqS9HgQaUt6jEekBDv1o4gEKTzdgbBHDR34WA3lhswXGRzCmimbOl7IvguARiW84J3GUw3zABhTu4JBtX9kUO0fectb2mp5Hmq4EICcEKuph7sMS6m3vONbnZcmtdhx1veSiLxofv4ObKMlwI/GAThsDj0kQT2INqIhkjG0+JoZL/y3Wfdbbl+V3eLYYMoZI/bCTxquYlDtHzkZ5w5/HVm82VhKgXxluX24fM5plR17HHONY0h1PIj0wGE1sMPEsd25CtzNaogpHUlGbOsnGhfy71nPMNBVTT41nCSP81zvc03mK7zeWEYPMSyWJtY+wmG6Jlye46oTo117LLctyljDXlUY1/mHNvKopB0hFYSIDAUKm+JB+KRPFZFspdTOhEvnKJz4hDpRJmuk+b8WUu2LKX2uHoDwQP1F3Jr1F67OfI2HGi5ojtI21mUEarq17vqkKAeALGmgjxwLsqzK4zSF8iUdExQqVZNcwqn4ByHAkNrgpLlNo4mKoDmINjLElCyeaFwIwM2Zf+Pj7G8HbX/JW27rPE9fPYnpw1o3/DPfZayVneP6yC99qDlHcn/DJa06v8YZhFMQhUqpILMJM21QwiRyJCmyYmoD9adviz7Yiin284Zy3ha1FVPsIiQd38VtXeQUAH9vnMzldT9mdO0T1JFl6zzd8tz069qhVbL8W/3NAEF5DjWDCb3rHdOq82ucQTgF0SXMNmf7SU4EbaG2TiEieh1EPFhSd7vf7xvrb+J971mciuKVjIdnVMMBHxSI/yDDUPmCMyozJl9P4WhP3lydRLhJ6vUicp1S6nHfRBG5FsMfU6sQkT3AV0Aj0KCUKjOdAP4Zo4eyB7hYKRXfaCltEKdNWoci1EpqjX3e85bw3bobKXdV8lyjJ+bzRHvpA+d2jmK6/Q4YhR4iVexRvcKGD9WkD+EUxM3A8yKyhBaFUAa4MUKCxoNZSilft5DLgX8qpe4TkeXm7x/FKa/YcVgN7Cxp7NN2rZiSm99L3rN5KYZ4Dk3EctkDy1hLNqdUNt2CehBVVKqBMcumcRYhFYRS6hBwtojMApoiq7yslHorgfIsBjzm96eACpygIAAnjlanU/0qSEhnffEkKiumNLp+qcZrcV2Pqny/IaZs6hgg1TEFI4qEvlepIeI6CKXU28DbCchbAW+IiAJ+rZRagTExfsDcfhAoDDxIRJYBywAKCwupqKiIWYCamhrL43fu3EWFd3/z77HHj+Py1vOxz752822NfO+8805QbIqqL6o4Xmu8rJs2bSL78FY2VjfEnEc0hCrLvr3Gitpdu3YF7dtUr6x8dyUNAfEIN2/eTM6RbX5pjY2Nzd/vn5HLD1d+bSnH55+fCUoHqK6uBmBL5RY6fxned9HadR+wr2Pra561a9ewMzd9fA6tX7+eL75occ731UkrY0WDpvvYFEzLl2Pk081niKlIDpIhiu3efvET1mT9+tRFGKis3GKZvnr1+3HPq3dHaVWdEW/i50YzeqYppapEpCfwpohs9d2olFKm8iAgfQWwAqCsrEx5PJ6YBaioqMDv+NeM+LlDhgzGM8PHX/7eLtBQZ+xr7hMyX3N7EzHJ15THzJlkNjWzzbS+ffqScbIWqg9x1lln4Rndi4bKQ/BR4l+gUGVZV7sVdu9k8ODBsH2b/76vvwwKZkyfQV2jF/75RvNxY0tK8Iwy2wBm+TIyMsBUEhcvnM0PV/pfz6Zzv1tTCXt3B20rLCyEg19QPKoYz7i+1gUx85o0caLh2+r1VyIVPSyTJ0+hf0GAVdBrwXI7hYkTy9jasBf2Gz6TOuXnw4kvLfdtuo9nGhrhjdf8th1R+fSWY82/h5vBiLarENe9FZSVlcF778b9vHYYNaoYNnwSlF5efjZU/DOueb122zw659qzRksGKWv2KKWqzL/VGK47JgGHRKQ3gPm3OlXyBaH7uCGxM6gjYhUPQl/TVBCtRdCpMw1UHQ/uyR1Vnf3mIIa6PqdBudit4h9Lub28frlZzprcT4mCEJGOItKp6TtwDrAJeBG40tztSuB/UyGfk7EKFpTIOdJOcYzVEPiOt5eX3on4XvtIt+GSFauZ/cA7QelHyaeAk2RhDHEOlyr2qkLb6zE0zidVPYhCYJWIfAqsw5j8fg24D5gnItuBuebv1OM0K6YkitMhO34tmkAzV92DSA2BijnS47SpynqOYqu3P25pbPYwO9W1iV2qTxwk1DiFlMxBKKV2AWMt0o8Cc5IvkR2cUZn5Dg84QyL7ciTDzFVbMSWPpqGkYtnHCdWRTvI1h1XnFEuliSepnKTWtDPsBAxKJg7rGKaMWO9CpRrIUdWJqa5N9BdjutCuP6hoaS8rqZ3WaEkf2zwNYD0H4WR8K+HAl3xAt9j9AYV6j1IRUa690kgGu1Rv+rsOM8q1FzDCo7YnhhemV4THaNEKwi4pqEicUHnZaWXHasXUt0v7c+nlBIT4tcjrVBZTXFtYkPEBLzSejXMGPpPD3787PdUiJJR2qyA+3necusb0ao1D++lqa9KDPtLiKeegKkhYPg5oK1nizmzbVWjbLl0IPj9+mvP/+32ermyJqXvgRLCddzMOGqw2hpj85UlGRLNw2J6kbsVLfuu84bEfrPGjR6fsuFW4S+uXN3//TcOi+JxU4xjapYI4+bVht733ZIvvh5raSO4qnNeEccIQlF3E/Bct2ZkuBhR0IMfmAqJEWjHduag4ugMcxq3zhrP13nPp0sEdeWeT7Yes4043sV8VMr72McbV/pojaAum1uK0N7pdKgirid40qmvTlliuceVPz6XiNk/cZYHoO4bxXrfx4CXj4nq+SOS6M2wr2ibm/WplxH2Ok8+XdIpVLI2DaZcKwppwL79zhpicPAcRqfUei1lrhkssQ5OGOlUie1XxPrMOuWqfdL9Sc0baC6DknJrGQCsIk4jvaiqsmCzSkm3mGq/cRPTK6UCG9mjbJpKa9EcrCJN0Gs93Km39Gsa7fIX52XE9XzS06e7mWAAAFYdJREFU7TuliRdaQZiEfWEcZMUkSJA4zpGu9Xx75pDIO7UROsbREWJbJ93bHukqv1YQFjhIH4QlnZ45u7J+b86wVuWTTr6Yop0w1miSTbtUEFZ1iFVIRSfiZFcbdirn66YXATCiMPVWL2lyyzUOYXSf/FSLkHTadR/XtwFpEVHRB12ThCOalvgdi0Zxx6LW++sJNR/Q1udB4oW+Tho7tMsehBURW78p8cVkkZbkgSVbvphs7NMWKqRQRdA9kWQg/Jun/cxPOQWtIEzC9yCcg5OHmNqCEghHupfPM8KeLb5TuXzSgFSL0O5IuoIQkf4i8raIVIrIZhG5yUy/W0SqROQT87Mw0bLs+6rF1UbYOQiHNREDpXGYeG2WdF/GMbRneq+7SJd5QmvsPTwZDmuEpGIOogG4VSn1kRmX+kMRedPc9iul1C9SIJONh8+4cVOHdiM3yxlTNw57lsIO00UStVN2Jt+eOTi+AkUg2usXzUrwm+YM46nVe/jydH10mWgsEUmfXn6svHXrTMetrk96TaeUOgAcML9/JSJbgL7JliMQu42TZ66dEnZ7fk4mN8wayn++ujUOUgXjRFcb8VBUG++Z3/qTREm0DdJoinnLvOHcMm84g5a/HF0mmpCkdw8iPUlpU1hEBgHjgbXAVOBGEVkKrMfoZRy3OGYZsAygsLCQioqKqPPdc6Kx+XtFRQVKKR7f2OL6e+eunVSo/c2/x5/4Eq/Lzac28nrYkw0+x8Yin++xgePeVVVVHK01XpSNGzeScWgLmw9F8kQbO3V1LdclVFn27jX22bV7d8h9K96piNoXk+85duyu90vfv7/O4gioPnQIgC2VW+j85faw51/3wQdU5dkfZf3ss22W6WvWrmFXh+hHa1vzbNjl/KFZPL+jPii/qqozzd+/Onky4XLEwqiuisrjxjOzbu26lM2+bancAkBNTY1f+urV79M1x959P3r0SMR91q1bx76OzpoWTpmCEJE84K/AzUqpkyLyKHAvxhD7vcADwNWBxymlVgArAMrKypTH44k6701VJ2D1KgA8Hg8bPz/B+6+vat4+ZPAQPL4rend2hqxcosrrtZebzx815rGzZs0KSuvTtw98WQuHqykpKcFTXEjtpoPw8YfR52MDtzsLTCURqizrarfCrp0MLiqC7Z/579tUFo/H/iSvxbXb7toF27Y0p68+vQV27wo6tGdhIRz8guJRxXjGheiYmuefNHEiwwo7Nf+ORPHIkbBpQ1D6lMlTQodPDXNuj8djO+9YKSoqgh0B9wR456vNsHcPAPmd8+HElwmVIxYyMzMBozFXMn4COVkuWBXZu2xrycvOpOZMS6OreFQxbPiEvLw88FGm5eVn06tzjq172K1bd6g+FHafiZMmMcRh/rlSoq5EJAtDOTyjlPobgFLqkFKqUSnlBR4HJiVPnmTlpElnYvFGm2pSMSpT3Dv+C8oavarNz0E4kVRYMQnwBLBFKfVLn/TePrudD2xKhjxKKeoavZF2SoYotgmeDE5xRLn0qzdjwhXHt+XqqUXxO1kMJHIu69Wb4h+nuVEpp72GMVE6oEtaredIRQ9iKnAFMDvApPV+EdkoIhuAWcAtiRLA90HzKvh4n53utfNqwWRUzD/75llxOU+81hBcOy1+FWu8rJhiWZuyaEzvyDuFoLRn+/Dh5OfpwKuSNkmtJ8NbSLqCUEqtUkqJUmqMUmqc+XlFKXWFUqrETD/PtHZKOF6luPfvlcnIqlX07ZIb03G3LxgZ1f7dOvqHozz3rNgrslRw/czBdM9zM21o94j7NkQ5ZuGEIaYBBR34XmlOqsVIOo1JVBDRPhexMm1od/p0zqF3Z+feT2dNmaeAvUdP29gr9S2KJid3LhFumTecPp1zmDCwIO75PHzZ+LifM5mM7tOZ9XfOo1te5FgLDY3R3ddU64fBPTry08Wjozom1TIHYjU/sWhMb4YXhp+cbfAqhvTIo3ue/XjasdIQYsi5X9dcBvfoGNM5m+6Dr+4pH9KN92+fQ66Dvfq2ewVxxRNr7e2Y4jet3qzMsjJcjOnXhfdvn0Pn3Ky45zPVRss7kEsnDqBvl1wuKO0XFxlmDO/Bf15QEn6nVtyOcf27AESeewrAtweRipf6rVs9UbvLCNXo9n2c71hY3AqpDLIzjarEnWG/ShnZqxP9C3L52eKzeOOWmWH3bfAqcrIyeCsO8ckfutSIBT5rRA/L7aE6EO7MDN661cPvrprIyF6d6BZBWfXKb+kZZJoL4BrD9E6cOLLV7hVEuqx0rfcalVlWFC9grHzr7EFR7d+/oAPvLZ9NnxiHwQJ5+upJXBbgd2fx+D4Ude/I0vLoZLOiqRKrb4hWQbQ66yAuKLU2xb0wTso2UrvmjoXFlA2KvSeaZwY9uusb0XvoHdGrE+/+cDZdzWHN/zg/9HzXhIFdgfjMBH5jTB/23LeI314Vm6GkZ0RPXrt5RsR38ewh3Zq/Z5r7NngVSyYPoKh7x5Z77LBeni/tUkH4TiraakXGoNrv/sYoLi6Lz0sOUN9gyODOCH6a4t3ymFPsPKduPTvl8PZtnub1BkvLBzG8MI97F4/GE6IlGIqsTOMaNvXKbpg1hBtmDaGDO3yvICOeZkxhcGe4eODisX4T2X+4ZnJM5woVBzxeddJ/Lyll4qCuXDDe+ln/5rg+zPV5nkr6tgwxBcqwZPJAv98XDW9poefFMfpeshrqN8we2vy9pQfhpV/XDrx9m8dYQ+Fw2qeC8HlCwnX5/InulfrW1CLuv2hsVMeEo74xfj2I/gW5nDu6F5D4ICi/WVoWsivfGvp2yeWNW2ZyRfkgfhdlS/DORaMYP6ALpQONoaYfzB/JD+aP5F9CWBZNHWq0BN2ZyXldOncwhg4fuby0OW3asOiH/qClYrLLo0tK6V9g3RP80bnBBg8zhvfgf64/O6QJ8IOXjufyyS29wdysDB74V+O9CGfZ9uiSUvp3iu/1/u23JjJ7ZM+IPcFnl7W402lNI29Ij7xm/2JNijraea9U0y4VRHaWdbHjaUIZb5aWD6R0QBcujYPL41vmDuexKyaw575FvPy9YJv1soDJ71vmDue2c4bHlNfcUYUxd+UTRXHvfJ7/zlQ6uP1bpd+dHRzu9NElpfz7v4xiUlEBkyyGYkoHdInZwgwMp37jB3TxS7NTpV9Y2q95LN2XK8v9W+GZIRoU10wvYlz/LkFDXAtKenPV2a1/D84d3YsnriwDYMrgbgztmUdedibXzRjc3IIPV84FJfat5+xaAc0a2ZMnvzXRTzEFzpncsbC4+X5kZUhUjbw99y0KuS3L7PmHt5BynvJolwpiZC/rVnPoBk3qb1zP/Bz+9p2p9OgU2TqniUmDCvjXsv5B6XUhxt5/eO4IAHIDhlpumjuMGy0qz7ZG/4JgdxkLSnozslc+z327POi6APzh2skhK2GAZTOCPdROH9ads8yhloHdOvL8d6aGPP53V03km+P6BKU/cPFYFvu4Emkaow/EYkQSgN6dc3nhhqmW1l6dcloUZ2mA8rLLY1dMYE5xIQAd3Jn84/sz2XTPfPp17cD80YVMGVzALfOib3R4LR5dr1LsuW8RP5g/guumF1kq8mhwZ7hYWNIr6p4pwI2zhtKzUzbLA8zLM8JMUjt4CqJ9hxyNiiRaMT1z7WT+8uHntvefOaIH04d1593t/g7Bnru+HIClo9w8Xdni3M7Xz4wv3/G0jJn+6NyREcfkrVgyeQDTh8V/SCnZDO2Zx1yzgrPid1dN5Pdr9ka0ZvrxwmIWj+vDlU9+wJEaw0He76OYT/CM6GnLcunn55dw36tbGNOvC7C3OT3D5pDkdzxDmk1QF5T05tVNB7nnvNH0L+jQ7JH20on9WbXjMLlZGfxjS7Xf8e4MF+eN7cOlk4IbJIF0ysni2WXltuR6dEkpa3cfa/5tNWf430smAHDDrJbn94lVu/3WN624YkLYfJaWD+Tp1cZ1E5HmcwLMLS5k+rDu/OCcERHlvW3+CG6b37LfNdOK2FR1gpvnDufYqTqumx7cYHjwkvHc9dxqBnWLzYQ2kWgF4UCmDu0elblpB3cmv79mMu9uP8xbW6v57Xt7/LbPHpDVrCDmFhcG9SqWLxhJfo6/yWys7gD+4/wI5qkJ4tszB5NxoqrV5/nwzrl8/7lPefCScc3WNb5cPbWIs4d0Y/Jg42MHY23GXP7zlS0hW/q+Cj6WtsiIXp347VWTeOnTL/zSM13CZZP6s6gkuBfiyw995hfysjN58lsTm3/ff9EYqk/W0rWju9ndfaAbcxFJyBqaBSW9/YabunV0c8H4vlw0oR+X/2YtPz+/xPKaXjOtiLH9OnPRY6t59abpIf1D/eHayTz7wb6wc3sdszPDKvUrpgxkdgjDjp6dcpqvma/S8aWkX2duKs0J2xNNFe1WQUwb2p1VO/xb3CEnzZxooGzB9GE9mD6sB3275AZZfTx06Tj2HzttOVR0/cz08Q0TitsXFFNREd5bph265WXz1NWhhxZiMeds4vYw6w0eWVLKrc99Sn2jl1vnRW6pNnHNtCJmDG/psc0tLmT+6EKunzmEX7+zi/PG9gkyGY6Wiy2GKZ+6ehIrPzvcqvNa8ftrJvHW1uqQ210u4ZeXGHMv4cb8AcoGFUTcZ1JRAZOKCjhac4Z9x05ziY0eUCD3xskdjRNptwriD9dOZuI9r3D4a6Pyf+LKMsYP6ErV8a+5bLLVC+XkkUJ/rrXoxi4O5fpa4wjyc7J4fGlZ1Mf9+7/4K6xcdwa/vsI4z2MRhlVaw8zhPZg5PP5DiU2NnGTTLS87puvf1nFenyaJ3Dg+m+552SwtH8ic4kIKOrp5ZElp0HCLRqPRtEfabQ8CYGB+Buvv9NjYMz2GmDQajSaetOseRFQ4zeuZRqPRJBitIDQajUZjiVYQdkgTKyaNRqOJJ45TECJyrohsE5EdIrI81fK0oIeYNBpN+8JRCkJEMoBHgAXAKOAyEYnd8Fyj0Wg0MeM0K6ZJwA6l1C4AEXkWWAzENybooc3wl6uZeOoUbLaxvP3YbsgL7XZBo9Fo2iJOUxB9gf0+vz8H/Na4i8gyYBlAYWEhFRUVUWeSe/oARRTQkJ3PKTuXoKCAQ9kTOBpDXk6gpqYmpuuUbuhyti3aSznBuWV1moKIiFJqBbACoKysTHk8nhjPdBkVFRXYPd55IXTsE0050xldzrZFeyknOLesjpqDAKoAX2co/cw0jUaj0SQZpymID4BhIlIkIm7gUuDFFMuk0Wg07RJHDTEppRpE5EbgdSADeFIptTnFYmk0Gk27xFEKAkAp9QrwSqrl0Gg0mvaO04aYNBqNRuMQtILQaDQajSVaQWg0Go3GEq0gNBqNRmOJqDT2VCoih4G9rThFd+BIxL3SH13OtoUuZ9sj2WUdqJSKGNs1rRVEaxGR9UqpNh+IVpezbaHL2fZwaln1EJNGo9FoLNEKQqPRaDSWtHcFsSLVAiQJXc62hS5n28ORZW3XcxAajUajCU1770FoNBqNJgRaQWg0Go3GknapIETkXBHZJiI7RGR5quVpLSKyR0Q2isgnIrLeTCsQkTdFZLv5t6uZLiLysFn2DSJSmlrpwyMiT4pItYhs8kmLumwicqW5/3YRuTIVZQlHiHLeLSJV5n39REQW+my73SznNhGZ75Pu6GdbRPqLyNsiUikim0XkJjO9Td3TMOVMr3uqlGpXHww34juBwYAb+BQYlWq5WlmmPUD3gLT7geXm9+XA/zW/LwReBQSYAqxNtfwRyjYDKAU2xVo2oADYZf7tan7vmuqy2Sjn3cBtFvuOMp/bbKDIfJ4z0uHZBnoDpeb3TsBnZnna1D0NU860uqftsQcxCdihlNqllKoDngUWp1imRLAYeMr8/hTwTZ/0p5XBGqCLiPROhYB2UEqtBI4FJEdbtvnAm0qpY0qp48CbwLmJl94+IcoZisXAs0qpM0qp3cAOjOfa8c+2UuqAUuoj8/tXwBaMWPRt6p6GKWcoHHlP26OC6Avs9/n9OeFvXDqggDdE5EMRWWamFSqlDpjfDwKF5ve2UP5oy5bOZb7RHFp5smnYhTZSThEZBIwH1tKG72lAOSGN7ml7VBBtkWlKqVJgAXCDiMzw3aiMPmybtGduy2UDHgWGAOOAA8ADqRUnfohIHvBX4Gal1EnfbW3pnlqUM63uaXtUEFVAf5/f/cy0tEUpVWX+rQaex+iWHmoaOjL/Vpu7t4XyR1u2tCyzUuqQUqpRKeUFHse4r5Dm5RSRLIxK8xml1N/M5DZ3T63KmW73tD0qiA+AYSJSJCJu4FLgxRTLFDMi0lFEOjV9B84BNmGUqcmy40rgf83vLwJLTeuQKcAJn659uhBt2V4HzhGRrmaX/hwzzdEEzA2dj3FfwSjnpSKSLSJFwDBgHWnwbIuIAE8AW5RSv/TZ1Kbuaahypt09TfVsfyo+GJYRn2FYB9yRanlaWZbBGJYNnwKbm8oDdAP+CWwH/gEUmOkCPGKWfSNQluoyRCjfnzC64vUY46/XxFI24GqMib8dwFWpLpfNcv7eLMcGjEqht8/+d5jl3AYs8El39LMNTMMYPtoAfGJ+Fra1exqmnGl1T7WrDY1Go9FY0h6HmDQajUZjA60gNBqNRmOJVhAajUajsUQrCI1Go9FYohWERqPRaCzRCkKj8UFEGn08bX4SyXumiFwvIkvjkO8eEene2vNoNPFEm7lqND6ISI1SKi8F+e7BsPE/kuy8NZpQ6B6ERmMDs4V/vxhxN9aJyFAz/W4Ruc38/j3T//8GEXnWTCsQkRfMtDUiMsZM7yYib5ixAn6DsSCsKa//Y+bxiYj8WkQyUlBkjUYrCI0mgNyAIaZLfLadUEqVAP8FPGhx7HJgvFJqDHC9mXYP8LGZ9mPgaTP9J8AqpdRoDP9ZAwBEpBi4BJiqlBoHNAJL4ltEjcYemakWQKNxGF+bFbMVf/L5+yuL7RuAZ0TkBeAFM20acCGAUuots+eQjxEg6AIz/WUROW7uPweYAHxguPMhlxbHdRpNUtEKQqOxjwrxvYlFGBX/N4A7RKQkhjwEeEopdXsMx2o0cUUPMWk09rnE5+9q3w0i4gL6K6XeBn4EdAbygHcxh4hExAMcUUZcgJXA5Wb6AoywmWA4rLtIRHqa2wpEZGACy6TRhET3IDQaf3JF5BOf368ppZpMXbuKyAbgDHBZwHEZwB9EpDNGL+BhpdSXInI38KR53GlaXFrfA/xJRDYD7wP7AJRSlSJyJ0aEQBeGd9cbgL3xLqhGEwlt5qrR2ECboWraI3qISaPRaDSW6B6ERqPRaCzRPQiNRqPRWKIVhEaj0Wgs0QpCo9FoNJZoBaHRaDQaS7SC0Gg0Go0l/x9QW57s6TpQDgAAAABJRU5ErkJggg==\n",
      "text/plain": [
       "<Figure size 432x288 with 1 Axes>"
      ]
     },
     "metadata": {
      "needs_background": "light"
     },
     "output_type": "display_data"
    }
   ],
   "source": [
    "plot_rewards(cumulative_rewards)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.6.9"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}