Reinforcement learning example for mini-max method Reversi.
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
× シュミレーション
○ シミュレーション
ランダムプレイヤーより、「自分のコマ数 - 相手のコマ数」の評価関数を持つプレイヤーのほうが強い前提で議論が進んでいますが、それは自明ではありません。
実際、リバーシにおいて、序盤は自分の駒は少ないほうが中終盤で石の置ける升が増えるため良いとされることが多く、序盤の打ち方については、「自分のコマ数 - 相手のコマ数」の評価関数よりは、ランダムプレイヤーの打ち方のほうがはるかにマシだからです。
なので、ランダムプレイヤーと「自分のコマ数 - 相手のコマ数」の評価関数を持つプレイヤーとの勝率を先に検証しないと、上記引用部分が本当に「興味深い」かどうかは、言えません。