se4u/effective_sample_size.py

## effective_sample_size.py
import numpy as np
k = 20
eps = 0.1
eps2 = 0.5
w = []
n = 100000
for i in range(n):
    rule = np.random.choice(k)

    eps_greedy_action = rule if np.random.rand() > eps else np.random.choice(k)
    mu = (1 - eps + eps/k) if rule == eps_greedy_action else eps/k

    pi_action = eps_greedy_action if np.random.rand() > eps2 else np.random.choice(k)
    pi = (1 - eps2 + eps2/k) if pi_action == eps_greedy_action else eps2/k

    w.append(pi/mu)

w = np.array(w)
print((w.sum() ** 2) / (w * w).sum() / n)
# 0.0594
	import numpy as np
	k = 20
	eps = 0.1
	eps2 = 0.5
	w = []
	n = 100000
	for i in range(n):
	rule = np.random.choice(k)

	eps_greedy_action = rule if np.random.rand() > eps else np.random.choice(k)
	mu = (1 - eps + eps/k) if rule == eps_greedy_action else eps/k

	pi_action = eps_greedy_action if np.random.rand() > eps2 else np.random.choice(k)
	pi = (1 - eps2 + eps2/k) if pi_action == eps_greedy_action else eps2/k

	w.append(pi/mu)

	w = np.array(w)
	print((w.sum() ** 2) / (w * w).sum() / n)
	# 0.0594