thomasahle/cfr.py

## cfr.py
def update(state, t):
  pi = compute_policy(state, t)
  score = 0
  for i in actions(state):
    score_i = update(state + i)
    score += pi[i] * score_i
  state.mean_score = (state.mean_score * t + score)/(t + 1)
  return score

def compute_policy(state):
  pi = []
  for i in actions(state):
    regret = (state + i).mean_score - state.mean_score
    pi.append(max(regret, 0))
  return [p/sum(pi) for p in pi]
	def update(state, t):
	pi = compute_policy(state, t)
	score = 0
	for i in actions(state):
	score_i = update(state + i)
	score += pi[i] * score_i
	state.mean_score = (state.mean_score * t + score)/(t + 1)
	return score

	def compute_policy(state):
	pi = []
	for i in actions(state):
	regret = (state + i).mean_score - state.mean_score
	pi.append(max(regret, 0))
	return [p/sum(pi) for p in pi]