Skip to content

Instantly share code, notes, and snippets.

Embed
What would you like to do?
Reinforcement learning example for mini-max method Reversi.
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
@yaneurao
Copy link

yaneurao commented Nov 16, 2016

× シュミレーション
○ シミュレーション

興味深いことに、単純なミニマックス法に対する場合より勝率が下がりました。

ランダムプレイヤーより、「自分のコマ数 - 相手のコマ数」の評価関数を持つプレイヤーのほうが強い前提で議論が進んでいますが、それは自明ではありません。

実際、リバーシにおいて、序盤は自分の駒は少ないほうが中終盤で石の置ける升が増えるため良いとされることが多く、序盤の打ち方については、「自分のコマ数 - 相手のコマ数」の評価関数よりは、ランダムプレイヤーの打ち方のほうがはるかにマシだからです。

なので、ランダムプレイヤーと「自分のコマ数 - 相手のコマ数」の評価関数を持つプレイヤーとの勝率を先に検証しないと、上記引用部分が本当に「興味深い」かどうかは、言えません。

@enakai00
Copy link
Author

enakai00 commented Nov 20, 2016

なるほど。ありがとうございます。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment