majiang/gist:2093683

## gistfile1.txt
伊藤毅志 電気通信大学助教: 座長
・完全情報ゲームの研究は区切りが見えてきた: 将棋や囲碁ではトッププロに迫るレベル。
・これからは不完全情報ゲームの研究へシフトしていくであろう。

松原仁 公立はこだて未来大学教授 (完全情報ゲーム)「完全情報ゲームから不完全情報ゲームへ」
・ゲームは人工知能の課題として適している
- ルール (∋評価) が明確で人間の専門家もいる。
●完全情報ゲーム
・必勝法
- 二人零和有限確定完全情報ゲームには、いずれかのプレイヤーに必勝法が存在するか、または、双方が最善をつくすと引き分けになることが証明可能である。
- 簡単なモノ (6×6-オセロなど) については解けている。そうでないものについて、局面すべてを読み切るのは難しい。そうではない効率的な探索や学習で解決しなければならない。
・チェス
- ほとんど終わってしまった。今ではPCでも世界チャンピオンに勝てる。そろそろスマホでも。
- コンピュータと人間とが敵対し、人間が打ち負かされてしまった感じで悲しい終焉だった。他のゲームはそうならないといいな。
・将棋
- 2010あから、2011-2012ボンクラーズ: それぞれ勝ったので時間の問題だろう。コンピュータ側の希望的観測としては 2012-2016 の電脳戦でトッププロに勝つ予定。
・囲碁
- 将棋より (日本国外でも広くプレイされているという意味で) メジャーだからか歴史は長い。1969年のアマ38級レベル (ルールがわかるとアマ20級くらい) から始まり、2001年にようやくアマ初段 (お情け?) 認定。ここ10年くらいの間にモンテカルロ+UCTで強くなった。前日のイベントでは、9路盤でプロと1勝1敗。19路盤は4子ハンディで勝利を納めることができた。
- 余談。難しいゲームのベスト2は囲碁、将棋であると言われている。これらを好き好んでプレイしたがる日本人はマゾである。
●不完全情報ゲーム
- AIを人間の生活に役立てるという観点からすると、ゲームだけでなく現実世界の問題を解いていかねばならない。不完全情報ゲームは現実世界の問題に近いという意味で、完全情報ゲームより1歩すすんだ段階であるといえる。
・コントラクトブリッジ
- 松原: ブリッジの研究をモンテカルロ法でやっていたことがある。不完全情報ゲームにモンテカルロ法を用いることは、ごく自然な発想である。これを囲碁に応用することに早く気付いていればよかったのに・・・ｗ
・バックギャモン
- 強化学習 (Tesauro) が便利 (TD-Gammon でググりましょう)。結果が偶然に左右されるゲームであってもルールのみの知識から自己対戦の勝敗のみをもとに学習できる。
- 偶然性によるゲームなので確かなことは言えないが、トップ人間を超えたと考えられている。
・大貧民
- 日本でメジャーですね
- 1960年代に学生の間で「階級闘争」という名前で始まったらしい。高校の数だけルールがあるが、電通大ルールを使って強いプログラムを探す試みがある (詳しくは西野に譲る)。
・ポーカー
- トップ人間なみに強いプログラムはできている。
・麻雀
- ギャンブルっぽいので論文が少ない。ルールの多様性が (社会学的には興味深いが) ネックである。
・花札
- 日本の伝統ゲームであるし、もっと注目されてほしい。プログラムはあるけど研究は少ない。ローカルルールも多少ある。

谷岡一郎 大阪商業大学学長 (ギャンブル)「不完全情報ゲームとギャンブル」
[字の細かい表を映し、流していたのであんまりメモは取れなかった]
・いろいろなギャンブルの控除率など
・ブラックジャック
- basic strategy だけではなくカウンティングを行うことでカジノに勝つことができる。
・実はブリッジの学生チャンピオンだった。すでにプレイされたカードは全部覚えられるもんね。
・デックの最後まで使い切るブラックジャックをやったとき、最後の1枚が3であることを知っていて、26Jの18から1枚引くことを選択した。
・スポーツブック
- 完全情報であっても知っている人とそうでない人とはいる。たとえばチームの重要なプレイヤーが昨晩は飲み過ぎたとかいう情報は、ホームタウンの人にしか出回らない。
- リーグ戦の結果など、途中経過が判るにつれてオッズが変わる長期予想もある。
- オッズの設定は勝率ではなくて買われる数が均衡するように調整する。大都市のチームと地方のチームとが対戦する場合は前者が買われやすいことを考慮する。
・麻雀
- セオリーを順守しているプレイヤーは相手しやすい。たとえば 23456p456m567777s からは 7s ダマが確率プレイであるが、たまには 3p リーチ してみるべきである。
- 他のゲームにおいても、相手をミスリードするためのイレギュラーな戦略は有効となる。cf: ブリッジにおけるサイキックビッド/ディセプション
[コントラクトブリッジのディセプションは普通のプレイでコントラクトを作られてしまうようなカード配置であるとき、それを隠すことによって他のプレイを選択させるために行うプレイである。ディセプションが失敗した時に与える代償は高々オーバートリック程度であり、成功した時に得る報酬はコントラクトのダウンである。麻雀において例の牌姿はそもそも打7sのリーチが正着であるし、代わりに 3p を切ってリーチすることによってリーチ棒 (以上) を失うのは十分に大きな代償であるであろう。相手に与える情報が自分の手に関する (比較的重大な) 情報であるか、それともプレイの方針に関する情報であるかという点でも差異がある。]
・ソーシャルゲーム
- 運営側はうまくパラメータを調整して課金させる。
・株取引
- ソーシャルゲームが規制され株価が下がるのはいつかを考える。

とつげき東北 (麻雀)「麻雀の競技性等について」
・統計によって自明な部分 (正着打を明らかに出来ると考えられる部分) と非自明な部分 (対人戦略や読みが必要となりうる部分) とを分ける。
- 自明な部分から先に攻めよう。谷岡の主張したようなことが成り立つ例は存在するかもしれないが、大部分は自明であろう。特に、不特定多数とランダムにプレイするインターネット麻雀においてはそうである。
・統計データ+数値計算/シミュレーション → 実測と照合
・実力分布は正規分布に近い
・ジニ係数とかで実力差があるのかどうかを確かめてみる
・成績の変動
[ここまで凸本にない話はなかったと思う。]
・競技性を高めるには?
- 点数計算を倍々でないものにする
- 偶然役・ドラ類をなくす
- 親子を平等にする
- 同程度の評価を持つ配牌からスタート (コンピュータを使って全員が2向聴以上の配牌からスタートしよう)
- 打牌の良し悪しや和牌率などの指標を評価
- 試行回数を増やす
- 結果を量子化 (順位のみの評価など) しない
- いずれにしても「麻雀」ではなく「とつげき東北が一人で遊んでる怪しいゲーム」にしかならない
[これらが競技性を高める根拠は特に述べられていないが、まあ納得できるであろう。]

西野哲朗 電気通信大学教授 (大貧民)「コンピュータ大貧民」
・競技性/ギャンブル性はあるのか?
- 大貧民というと勝つことを目的として真剣にプレイするというより、プレイヤー間の親睦を深めることが目的となる。
- 賭博大貧民というのも聞いたことがない。
・UECコンピュータ大貧民大会
- 高校生向けの啓蒙のために始めたが高校生の参加は少ない。初代チャンピオンは電通大の教員。その後、フリーターや院生 (修論でモンテカルロ法) などが優勝。
- プレイ回数は1000のオーダー。固定順位点 [54321] の合計で評価。[最初のゲームで配られた手札が1000回先まで影響する (だんだん小さくなっていくにしても) というのは競技的でない。手札をデュプリケートでプレイすることもできるし、改善の余地があると感じた。]
・わざわざ不平等な状況を作り出してからプレイするゲームであり、とても珍しい。
・ローカルルールが死ぬほどあり、人数なども固定されていない。
・UECルール: 研究室の全メンバーが異なるルールを主張したので、最大公約数的なものを採用した。
・サーバ/クライアント モデルを使う。クライアントとサーバをつないで対戦する。
・飛び入り参加: プレイ方針のアンケートに答え、それをもとにデフォルトクライアントのパラメータを調整するだけで参加可能とした。
・普通に人間がプレイする部門も開催した。人の方が強そう。コンピュータと人とを対戦させてみると、最初のうちはコンピュータが強いが、その後は人間が勝つようになった。人間は「相手の癖がわかってくる」と主張。

西野「コンピュータ大貧民に対する差分学習法の適用」(TD learning)
・モンテカルロ法が有効になるゲーム: 場況評価が難しいもの。
・大貧民はオポーネントの手の内 (手札だけでなく判断も) がわかりにくい。
・単純なモンテカルロ法だけでなく、プレイの流れを評価する学習である。
・第1回UECコンピュータ大貧民大会で優勝。決勝の500ゲームで次点と100点差。[順位の標準偏差は √2 くらいであろう。500ゲーム平均順位が0.2の差であれば、明確な差がついているといえる。]
・他のプレイヤーとは終盤の挙動が異なる。[なるほど、探索が短くなるにつれてキチンとした評価ができているということか。]
・今後の課題: オポーネントの戦略を学習 / 裏をかく / レーティングをつける (グリコレーティング) [レーティング自体は割と雑でもいい気がする。基本的に運ゲーで、プレイヤーがコンピュータなら Volatility とかを考慮する必要はないだろう。]

伊藤「不完全情報ゲームの競技性について」
話題が発散した。
・評価をするための競技性: 遊戯性とのトレードオフ, ゲーム回数など
- オーディエンスにも楽しませるには対戦の形にすることが必要
- (西野) 大貧民: モンテカルロ法はプログラマでも着手の予測が難しくなる。競技性は生まれたがプレイヤーの個性などからくる遊戯性は損なわれた。
- (凸) 麻雀: 強いプレイヤーの打ち手が似て来ているというのは競技性の萌芽である。プレイヤーは遊戯としてプレイし、着手の評価という試みで実力も求めるという2面性。
- (谷岡): ギャンブルはプロセスが面白い。
- (松原): 同じプレイヤーで1万回くらい大富豪やった。有意に差はついたので競技性はあるだろう。プレイヤーのランダムネスは統計に有利、固定プレイヤーでは遊戯性が現れるであろう。
・ディセプションは機能するのか
・メンタルファクタ
- 谷岡: コンピュータは冷静に勝機をうかがうことができる。たまには手を抜いてくれｗ
- 松原: あからの擬人化とか面白い。どんなプレイヤーとも名勝負を演じることのできるAIがゴールではないか。
- 凸: プレイヤー3人というより山との戦い。しかしプロと対局したら震えたわｗ
・教育に生かすには?
- 遊戯性が高いゲームの方がとっつきやすくて教育に生かすことができるのではないか。
- 西野: 大貧民はプログラミングの初学者がAIを作るには複雑すぎる。もっと簡単なのから始めたい。個性を出すにはモンテカルロ法などでは難しく、ロジックで組み込まなければならない。このような方向性の課題として非常に有効だろう。
- 谷岡: 青野滋氏によれば「プロは相手のアガリ逃しなどがわかるので、そういう落ち目の奴を叩いて-1から逃げることができる (101競技連盟はラス回避が重要である)」
	伊藤毅志電気通信大学助教: 座長
	・完全情報ゲームの研究は区切りが見えてきた: 将棋や囲碁ではトッププロに迫るレベル。
	・これからは不完全情報ゲームの研究へシフトしていくであろう。

	松原仁公立はこだて未来大学教授 (完全情報ゲーム)「完全情報ゲームから不完全情報ゲームへ」
	・ゲームは人工知能の課題として適している
	- ルール (∋評価) が明確で人間の専門家もいる。
	●完全情報ゲーム
	・必勝法
	- 二人零和有限確定完全情報ゲームには、いずれかのプレイヤーに必勝法が存在するか、または、双方が最善をつくすと引き分けになることが証明可能である。
	- 簡単なモノ (6×6-オセロなど) については解けている。そうでないものについて、局面すべてを読み切るのは難しい。そうではない効率的な探索や学習で解決しなければならない。
	・チェス
	- ほとんど終わってしまった。今ではPCでも世界チャンピオンに勝てる。そろそろスマホでも。
	- コンピュータと人間とが敵対し、人間が打ち負かされてしまった感じで悲しい終焉だった。他のゲームはそうならないといいな。
	・将棋
	- 2010あから、2011-2012ボンクラーズ: それぞれ勝ったので時間の問題だろう。コンピュータ側の希望的観測としては 2012-2016 の電脳戦でトッププロに勝つ予定。
	・囲碁
	- 将棋より (日本国外でも広くプレイされているという意味で) メジャーだからか歴史は長い。1969年のアマ38級レベル (ルールがわかるとアマ20級くらい) から始まり、2001年にようやくアマ初段 (お情け?) 認定。ここ10年くらいの間にモンテカルロ+UCTで強くなった。前日のイベントでは、9路盤でプロと1勝1敗。19路盤は4子ハンディで勝利を納めることができた。
	- 余談。難しいゲームのベスト2は囲碁、将棋であると言われている。これらを好き好んでプレイしたがる日本人はマゾである。
	●不完全情報ゲーム
	- AIを人間の生活に役立てるという観点からすると、ゲームだけでなく現実世界の問題を解いていかねばならない。不完全情報ゲームは現実世界の問題に近いという意味で、完全情報ゲームより1歩すすんだ段階であるといえる。
	・コントラクトブリッジ
	- 松原: ブリッジの研究をモンテカルロ法でやっていたことがある。不完全情報ゲームにモンテカルロ法を用いることは、ごく自然な発想である。これを囲碁に応用することに早く気付いていればよかったのに・・・ｗ
	・バックギャモン
	- 強化学習 (Tesauro) が便利 (TD-Gammon でググりましょう)。結果が偶然に左右されるゲームであってもルールのみの知識から自己対戦の勝敗のみをもとに学習できる。
	- 偶然性によるゲームなので確かなことは言えないが、トップ人間を超えたと考えられている。
	・大貧民
	- 日本でメジャーですね
	- 1960年代に学生の間で「階級闘争」という名前で始まったらしい。高校の数だけルールがあるが、電通大ルールを使って強いプログラムを探す試みがある (詳しくは西野に譲る)。
	・ポーカー
	- トップ人間なみに強いプログラムはできている。
	・麻雀
	- ギャンブルっぽいので論文が少ない。ルールの多様性が (社会学的には興味深いが) ネックである。
	・花札
	- 日本の伝統ゲームであるし、もっと注目されてほしい。プログラムはあるけど研究は少ない。ローカルルールも多少ある。

	谷岡一郎大阪商業大学学長 (ギャンブル)「不完全情報ゲームとギャンブル」
	[字の細かい表を映し、流していたのであんまりメモは取れなかった]
	・いろいろなギャンブルの控除率など
	・ブラックジャック
	- basic strategy だけではなくカウンティングを行うことでカジノに勝つことができる。
	・実はブリッジの学生チャンピオンだった。すでにプレイされたカードは全部覚えられるもんね。
	・デックの最後まで使い切るブラックジャックをやったとき、最後の1枚が3であることを知っていて、26Jの18から1枚引くことを選択した。
	・スポーツブック
	- 完全情報であっても知っている人とそうでない人とはいる。たとえばチームの重要なプレイヤーが昨晩は飲み過ぎたとかいう情報は、ホームタウンの人にしか出回らない。
	- リーグ戦の結果など、途中経過が判るにつれてオッズが変わる長期予想もある。
	- オッズの設定は勝率ではなくて買われる数が均衡するように調整する。大都市のチームと地方のチームとが対戦する場合は前者が買われやすいことを考慮する。
	・麻雀
	- セオリーを順守しているプレイヤーは相手しやすい。たとえば 23456p456m567777s からは 7s ダマが確率プレイであるが、たまには 3p リーチしてみるべきである。
	- 他のゲームにおいても、相手をミスリードするためのイレギュラーな戦略は有効となる。cf: ブリッジにおけるサイキックビッド/ディセプション
	[コントラクトブリッジのディセプションは普通のプレイでコントラクトを作られてしまうようなカード配置であるとき、それを隠すことによって他のプレイを選択させるために行うプレイである。ディセプションが失敗した時に与える代償は高々オーバートリック程度であり、成功した時に得る報酬はコントラクトのダウンである。麻雀において例の牌姿はそもそも打7sのリーチが正着であるし、代わりに 3p を切ってリーチすることによってリーチ棒 (以上) を失うのは十分に大きな代償であるであろう。相手に与える情報が自分の手に関する (比較的重大な) 情報であるか、それともプレイの方針に関する情報であるかという点でも差異がある。]
	・ソーシャルゲーム
	- 運営側はうまくパラメータを調整して課金させる。
	・株取引
	- ソーシャルゲームが規制され株価が下がるのはいつかを考える。

	とつげき東北 (麻雀)「麻雀の競技性等について」
	・統計によって自明な部分 (正着打を明らかに出来ると考えられる部分) と非自明な部分 (対人戦略や読みが必要となりうる部分) とを分ける。
	- 自明な部分から先に攻めよう。谷岡の主張したようなことが成り立つ例は存在するかもしれないが、大部分は自明であろう。特に、不特定多数とランダムにプレイするインターネット麻雀においてはそうである。
	・統計データ+数値計算/シミュレーション → 実測と照合
	・実力分布は正規分布に近い
	・ジニ係数とかで実力差があるのかどうかを確かめてみる
	・成績の変動
	[ここまで凸本にない話はなかったと思う。]
	・競技性を高めるには?
	- 点数計算を倍々でないものにする
	- 偶然役・ドラ類をなくす
	- 親子を平等にする
	- 同程度の評価を持つ配牌からスタート (コンピュータを使って全員が2向聴以上の配牌からスタートしよう)
	- 打牌の良し悪しや和牌率などの指標を評価
	- 試行回数を増やす
	- 結果を量子化 (順位のみの評価など) しない
	- いずれにしても「麻雀」ではなく「とつげき東北が一人で遊んでる怪しいゲーム」にしかならない
	[これらが競技性を高める根拠は特に述べられていないが、まあ納得できるであろう。]

	西野哲朗電気通信大学教授 (大貧民)「コンピュータ大貧民」
	・競技性/ギャンブル性はあるのか?
	- 大貧民というと勝つことを目的として真剣にプレイするというより、プレイヤー間の親睦を深めることが目的となる。
	- 賭博大貧民というのも聞いたことがない。
	・UECコンピュータ大貧民大会
	- 高校生向けの啓蒙のために始めたが高校生の参加は少ない。初代チャンピオンは電通大の教員。その後、フリーターや院生 (修論でモンテカルロ法) などが優勝。
	- プレイ回数は1000のオーダー。固定順位点 [54321] の合計で評価。[最初のゲームで配られた手札が1000回先まで影響する (だんだん小さくなっていくにしても) というのは競技的でない。手札をデュプリケートでプレイすることもできるし、改善の余地があると感じた。]
	・わざわざ不平等な状況を作り出してからプレイするゲームであり、とても珍しい。
	・ローカルルールが死ぬほどあり、人数なども固定されていない。
	・UECルール: 研究室の全メンバーが異なるルールを主張したので、最大公約数的なものを採用した。
	・サーバ/クライアントモデルを使う。クライアントとサーバをつないで対戦する。
	・飛び入り参加: プレイ方針のアンケートに答え、それをもとにデフォルトクライアントのパラメータを調整するだけで参加可能とした。
	・普通に人間がプレイする部門も開催した。人の方が強そう。コンピュータと人とを対戦させてみると、最初のうちはコンピュータが強いが、その後は人間が勝つようになった。人間は「相手の癖がわかってくる」と主張。

	西野「コンピュータ大貧民に対する差分学習法の適用」(TD learning)
	・モンテカルロ法が有効になるゲーム: 場況評価が難しいもの。
	・大貧民はオポーネントの手の内 (手札だけでなく判断も) がわかりにくい。
	・単純なモンテカルロ法だけでなく、プレイの流れを評価する学習である。
	・第1回UECコンピュータ大貧民大会で優勝。決勝の500ゲームで次点と100点差。[順位の標準偏差は √2 くらいであろう。500ゲーム平均順位が0.2の差であれば、明確な差がついているといえる。]
	・他のプレイヤーとは終盤の挙動が異なる。[なるほど、探索が短くなるにつれてキチンとした評価ができているということか。]
	・今後の課題: オポーネントの戦略を学習 / 裏をかく / レーティングをつける (グリコレーティング) [レーティング自体は割と雑でもいい気がする。基本的に運ゲーで、プレイヤーがコンピュータなら Volatility とかを考慮する必要はないだろう。]

	伊藤「不完全情報ゲームの競技性について」
	話題が発散した。
	・評価をするための競技性: 遊戯性とのトレードオフ, ゲーム回数など
	- オーディエンスにも楽しませるには対戦の形にすることが必要
	- (西野) 大貧民: モンテカルロ法はプログラマでも着手の予測が難しくなる。競技性は生まれたがプレイヤーの個性などからくる遊戯性は損なわれた。
	- (凸) 麻雀: 強いプレイヤーの打ち手が似て来ているというのは競技性の萌芽である。プレイヤーは遊戯としてプレイし、着手の評価という試みで実力も求めるという2面性。
	- (谷岡): ギャンブルはプロセスが面白い。
	- (松原): 同じプレイヤーで1万回くらい大富豪やった。有意に差はついたので競技性はあるだろう。プレイヤーのランダムネスは統計に有利、固定プレイヤーでは遊戯性が現れるであろう。
	・ディセプションは機能するのか
	・メンタルファクタ
	- 谷岡: コンピュータは冷静に勝機をうかがうことができる。たまには手を抜いてくれｗ
	- 松原: あからの擬人化とか面白い。どんなプレイヤーとも名勝負を演じることのできるAIがゴールではないか。
	- 凸: プレイヤー3人というより山との戦い。しかしプロと対局したら震えたわｗ
	・教育に生かすには?
	- 遊戯性が高いゲームの方がとっつきやすくて教育に生かすことができるのではないか。
	- 西野: 大貧民はプログラミングの初学者がAIを作るには複雑すぎる。もっと簡単なのから始めたい。個性を出すにはモンテカルロ法などでは難しく、ロジックで組み込まなければならない。このような方向性の課題として非常に有効だろう。
	- 谷岡: 青野滋氏によれば「プロは相手のアガリ逃しなどがわかるので、そういう落ち目の奴を叩いて-1から逃げることができる (101競技連盟はラス回避が重要である)」