tpott/value_iteration

## value_iteration
def value_iteration_A(probs, gamma, rewards, oldV):
   newV = oldV.copy()
   nstates, nactions = probs.shape[0], probs.shape[-1]
   for s in range(nstates):
      weightedV = np.zeros([nactions], dtype='float64')
      for a in range(nactions):
         weightedV[a] = np.dot(probs[s,:,a], oldV)
      newV[s] = rewards[s] + gamma * weightedV.max()
   return newV

def value_iteration_B(probs, gamma, rewards, oldV):
   newV = oldV.copy()
   nstates, nactions = probs.shape[0], probs.shape[-1]
   for s in range(nstates):
      weightedV = np.zeros([nactions], dtype='float64')
      for a in range(nactions):
         weightedV = np.dot(probs[s,:,a], oldV)
      newV[s] = rewards[s] + gamma * weightedV.max()
   return newV
	def value_iteration_A(probs, gamma, rewards, oldV):
	newV = oldV.copy()
	nstates, nactions = probs.shape[0], probs.shape[-1]
	for s in range(nstates):
	weightedV = np.zeros([nactions], dtype='float64')
	for a in range(nactions):
	weightedV[a] = np.dot(probs[s,:,a], oldV)
	newV[s] = rewards[s] + gamma * weightedV.max()
	return newV

	def value_iteration_B(probs, gamma, rewards, oldV):
	newV = oldV.copy()
	nstates, nactions = probs.shape[0], probs.shape[-1]
	for s in range(nstates):
	weightedV = np.zeros([nactions], dtype='float64')
	for a in range(nactions):
	weightedV = np.dot(probs[s,:,a], oldV)
	newV[s] = rewards[s] + gamma * weightedV.max()
	return newV