d0znpp/gist:35989385d1db1fa2a7215a00cdd07589

## gistfile1.txt
    def store_rollout(self, state, reward):
        self.reward_buffer.append(reward)
        self.state_buffer.append(state[0])

    def train_step(self, steps_count):
         states = np.array(self.state_buffer[-steps_count:])/self.division_rate
        rewars = self.reward_buffer[-steps_count:]
        _, ls = self.sess.run([self.train_op, self.loss],
                     {self.states: states,
                      self.discounted_rewards: rewars})
        return ls
	def store_rollout(self, state, reward):
	self.reward_buffer.append(reward)
	self.state_buffer.append(state[0])

	def train_step(self, steps_count):
	states = np.array(self.state_buffer[-steps_count:])/self.division_rate
	rewars = self.reward_buffer[-steps_count:]
	_, ls = self.sess.run([self.train_op, self.loss],
	{self.states: states,
	self.discounted_rewards: rewars})
	return ls