pragatibaheti/train.py

## train.py
scores = []
for i in range(700):
    current_state = np.random.randint(0, int(Q.shape[0]))
    available_act = available_actions(current_state)
    action = sample_next_action(available_act)
    score = update(current_state,action,gamma)
    scores.append(score)
	scores = []
	for i in range(700):
	current_state = np.random.randint(0, int(Q.shape[0]))
	available_act = available_actions(current_state)
	action = sample_next_action(available_act)
	score = update(current_state,action,gamma)
	scores.append(score)