sasaco/Reversi.py

## dqn_agent.py
    def Q_values(self, state):
        # Q(state, action) of all actions
        return self.sess.run(self.y, feed_dict={self.x: [state]})[0]

    def select_action(self, state, targets, epsilon):

        if np.random.rand() <= epsilon:
            # random
            return np.random.choice(targets)
        else:
            # max_action Q(state, action)
            qvalue, action = self.select_enable_action(state, targets)
            return action

    #その盤面(state)で, 置いていい場所(targets)からＱ値が最大となるＱ値と番号を返す
    def select_enable_action(self, state, targets):
        Qs = self.Q_values(state)
        #descend = np.sort(Qs)
        index = np.argsort(Qs)
        for action in reversed(index):
            if action in targets:
                break
        # max_action Q(state, action)
        qvalue = Qs[action]

        return qvalue, action

## file10.txt

    # 保存は後攻のplayer2 を保存する。
    players[1].save_model()

## file12.txt

                # 行動を実行した結果
                terminal = env.isEnd()

        w = env.winner()
        print("EPOCH: {:03d}/{:03d} | WIN: player{:1d}".format(
                         e, n_epochs, w))


    # 保存は後攻のplayer2 を保存する。
    players[1].save_model()


## file5.txt
    for e in range(n_epochs):
        # reset
        env.reset()
        terminal = False

## file6.txt
    for e in range(n_epochs):
        # reset
        env.reset()
        terminal = False

## file7.txt
        while terminal == False: # 1エピソードが終わるまでループ

            for i in range(0, len(players)):

                state = env.screen
                targets = env.get_enables(playerID[i])

                if len(targets) > 0:
                    # どこかに置く場所がある場合

#← ここで、前述のすべての手を「Dに保存」しています

                    # 行動を選択
                    action = players[i].select_action(state, targets, players[i].exploration)
                    # 行動を実行
                    env.update(action, playerID[i])

## file8.txt

                # 行動を実行した結果
                terminal = env.isEnd()

        w = env.winner()
        print("EPOCH: {:03d}/{:03d} | WIN: player{:1d}".format(
                         e, n_epochs, w))


    # 保存は後攻のplayer2 を保存する。
    players[1].save_model()


## file9.txt

                # 行動を実行した結果
                terminal = env.isEnd()

        w = env.winner()
        print("EPOCH: {:03d}/{:03d} | WIN: player{:1d}".format(
                         e, n_epochs, w))


    # 保存は後攻のplayer2 を保存する。
    players[1].save_model()


## Reversi.py
self.enable_actions[0～63]

## train.py
   # parameters
    n_epochs = 1000
    # environment, agent
    env = Reversi()

    # playerID
    playerID = [env.Black, env.White, env.Black]

    # player agent
    players = []
    # player[0]= env.Black
    players.append(DQNAgent(env.enable_actions, env.name, env.screen_n_rows, env.screen_n_cols))
    # player[1]= env.White
    players.append(DQNAgent(env.enable_actions, env.name, env.screen_n_rows, env.screen_n_cols))
	def Q_values(self, state):
	# Q(state, action) of all actions
	return self.sess.run(self.y, feed_dict={self.x: [state]})[0]

	def select_action(self, state, targets, epsilon):

	if np.random.rand() <= epsilon:
	# random
	return np.random.choice(targets)
	else:
	# max_action Q(state, action)
	qvalue, action = self.select_enable_action(state, targets)
	return action

	#その盤面(state)で, 置いていい場所(targets)からＱ値が最大となるＱ値と番号を返す
	def select_enable_action(self, state, targets):
	Qs = self.Q_values(state)
	#descend = np.sort(Qs)
	index = np.argsort(Qs)
	for action in reversed(index):
	if action in targets:
	break
	# max_action Q(state, action)
	qvalue = Qs[action]

	return qvalue, action

	# 保存は後攻のplayer2 を保存する。
	players[1].save_model()

	# 行動を実行した結果
	terminal = env.isEnd()

	w = env.winner()
	print("EPOCH: {:03d}/{:03d} \| WIN: player{:1d}".format(
	e, n_epochs, w))


	# 保存は後攻のplayer2 を保存する。
	players[1].save_model()
	while terminal == False: # 1エピソードが終わるまでループ

	for i in range(0, len(players)):

	state = env.screen
	targets = env.get_enables(playerID[i])

	if len(targets) > 0:
	# どこかに置く場所がある場合

	#← ここで、前述のすべての手を「Dに保存」しています

	# 行動を選択
	action = players[i].select_action(state, targets, players[i].exploration)
	# 行動を実行
	env.update(action, playerID[i])
	# parameters
	n_epochs = 1000
	# environment, agent
	env = Reversi()

	# playerID
	playerID = [env.Black, env.White, env.Black]

	# player agent
	players = []
	# player[0]= env.Black
	players.append(DQNAgent(env.enable_actions, env.name, env.screen_n_rows, env.screen_n_cols))
	# player[1]= env.White
	players.append(DQNAgent(env.enable_actions, env.name, env.screen_n_rows, env.screen_n_cols))