tokoroten/reinforcement_slot_machine.py

## reinforcement_slot_machine.py
#coding:utf-8

# ε-Greedy base multi-armed bandit

import random

slotmachine_rate = [3, 5, 10, 20, 16, 15, 21, 22, 6]
score_map = [[0.0, 0] for i in xrange(len(slotmachine_rate))]
search_rate = 0.1

def try_slot(i):
    return random.random() * slotmachine_rate[i]

# first_try
for i in xrange(len(slotmachine_rate)):
    score = try_slot(i)
    score_map[i][0] += score
    score_map[i][1] += 1

def get_most_good_slot():
    score = -1
    ret = -1
    for i in xrange(len(slotmachine_rate)):
        t_score = score_map[i][0] / score_map[i][1]
        if score < t_score:
            score = t_score
            ret = i
    return ret

# 試行
total_score = 0
for i in xrange(1000):
    target_slot = get_most_good_slot()
    if random.random() <  search_rate:
        target_slot = random.randrange(0, len(slotmachine_rate))

    score = try_slot(target_slot)
    score_map[target_slot][0] += score
    score_map[target_slot][1] += 1

    total_score += score

print total_score / 1000 # 期待値
print score_map
print [a[0]/a[1] for a in score_map]
	#coding:utf-8

	# ε-Greedy base multi-armed bandit

	import random

	slotmachine_rate = [3, 5, 10, 20, 16, 15, 21, 22, 6]
	score_map = [[0.0, 0] for i in xrange(len(slotmachine_rate))]
	search_rate = 0.1

	def try_slot(i):
	return random.random() * slotmachine_rate[i]

	# first_try
	for i in xrange(len(slotmachine_rate)):
	score = try_slot(i)
	score_map[i][0] += score
	score_map[i][1] += 1

	def get_most_good_slot():
	score = -1
	ret = -1
	for i in xrange(len(slotmachine_rate)):
	t_score = score_map[i][0] / score_map[i][1]
	if score < t_score:
	score = t_score
	ret = i
	return ret

	# 試行
	total_score = 0
	for i in xrange(1000):
	target_slot = get_most_good_slot()
	if random.random() < search_rate:
	target_slot = random.randrange(0, len(slotmachine_rate))

	score = try_slot(target_slot)
	score_map[target_slot][0] += score
	score_map[target_slot][1] += 1

	total_score += score

	print total_score / 1000 # 期待値
	print score_map
	print [a[0]/a[1] for a in score_map]