kanachan の基本思想は
- 麻雀に関する事前知識は最低限のルールを除いて明示的には一切与えない.
- 特徴量は局面に関する情報を完全に取り出せる簡潔な表現を使う.
- それ以外は何も工夫せず,とにかくモデルの表現力と学習量で殴り倒す.
まずモデルの構造は図のとおり(図は behavioral cloning の場合のものだけれど, transformer 以下の encoder 部分は一切変わらず,それより上の decoder 部分が例えば強化学習では dueling network になったりするだけ).入力の "Sparse", "Numeric", "Progression", "Possible Actions" は kanachan のドキュメントに書いてある通り.