野球好き生徒三人が次のデータを見ながら話し合っています.
学校 | 被安打 | 奪三振 | 与四死球 | 失点 | 得点 | 安打 | 本塁打 | 打率 | 盗塁 | 失策 | 完封率 | 7点差率 | 勝率 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
山田高校 | 150 | 80 | 30 | 50 | 100 | 200 | 20 | 0.300 | 50 | 10 | 0.200 | 0.100 | 0.600 |
橋下高校 | 160 | 70 | 40 | 60 | 90 | 180 | 15 | 0.280 | 40 | 20 | 0.180 | 0.090 | 0.550 |
車谷高校 | 140 | 90 | 20 | 40 | 110 | 210 | 25 | 0.310 | 60 | 5 | 0.220 | 0.110 | 0.650 |
... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
生徒A: 「このデータを使って、回帰分析を行ってみよう。」
生徒B: 「そうだね。各変数が勝率にどれくらい影響を与えているか見れるね。」
生徒C: 「でも、どの変数を使うべきか悩むな。全ての変数を使うとモデルが複雑になりすぎるかもしれない。」
生徒A: 「それなら、重要そうな変数だけを使ってモデルを作るのはどうかな?得点、失点、打率、本塁打は重要そうだね。」
生徒B: 「それに、変数間の相関もチェックする必要があるよ。相関が高い変数があると、多重共線性の問題が起きるから。」
生徒C: 「うん、だから各変数のペアに対する相関係数を計算して、相関が高すぎる変数は除外しよう。」
生徒A: 「それで、私は得点、失点、打率を使ってモデルを作ってみた。これらの変数は勝率と高い相関があるみたいだよ。」
生徒B: 「僕は得点、失点、打率、盗塁を使って別のモデルを作ったんだ。盗塁はチームの速さと攻撃力を示すから重要だと思う。」
生徒C: 「私は得点、失点、打率、本塁打、奪三振を使ってモデルを作成したよ。本塁打と奪三振はチームの攻撃力と守備力を示すから、これらの変数も重要だと思う。」
生徒A: 「それぞれのモデルの良い点を見つけたいね。」
生徒B: 「うん、それに各モデルの予測精度も比較しよう。」
生徒C: 「そうだね、それで最も良いモデルを選べるね。」
生徒たちはそれぞれのモデルを作成し、どの変数が勝率に最も影響を与えるか、どのモデルが最も予測精度が高いかを議論しました。
生徒A: 「まずは各変数のペア間の相関係数を計算しよう。それで、多重共線性の問題があるかどうかを確認できるね。」
生徒B: 「そうだね、そしてその結果に基づいて、どの変数をモデルに含めるかを決定しよう。」
生徒たちはExcelを使用して相関行列を計算し、以下のような結果を得ました。
被安打 | 奪三振 | 与四死球 | 失点 | 得点 | 安打 | 本塁打 | 打率 | 盗塁 | 失策 | 完封率 | 7点差率 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
被安打 | 1.0 | -0.2 | 0.3 | 0.8 | -0.5 | -0.3 | -0.4 | -0.3 | -0.2 | 0.1 | -0.6 | -0.5 |
... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
生徒C: 「見て、失点と被安打の相関が0.8で、かなり高いね。多重共線性が問題になりそうだ。」
生徒A: 「うん、それなら失点をモデルから除外しよう。そして、得点、打率、本塁打を使ってモデルを作成するのはどうだろう?」
生徒B: 「それがいいと思う。私は得点、打率、盗塁でモデルを作るよ。」
生徒C: 「私は得点、打率、本塁打、奪三振でモデルを作るね。」
それから、生徒たちはそれぞれのモデルに回帰分析を適用し、以下の結果を得ました。
生徒Aのモデル | 生徒Bのモデル | 生徒Cのモデル | |
---|---|---|---|
R^2 | 0.75 | 0.72 | 0.78 |
得点 | 0.40 | 0.35 | 0.30 |
打率 | 0.25 | 0.20 | 0.25 |
本塁打 | 0.10 | -- | 0.15 |
奪三振 | -- | -- | 0.10 |
盗塁 | -- | 0.15 | -- |
生徒A: 「うーん、私のモデルのR^2値は0.75だ。それなりに良い予測精度だと思う。」
生徒B: 「でも、生徒CのモデルのR^2値は0.78で、少し高いね。」
生徒C: 「そうだね。でも、モデルが複雑になると、過学習のリスクがあるから、シンプルなモデルの方が実際には良いかもしれない。」
生徒A: 「それは確かに。でも、どのモデルもかなり良い予測精度を示しているね。」
生徒B: 「うん、でもこれらのモデルをさらに改善する方法はあるのかな?」
生徒C: 「もっとデータを集めたり、他の変数を考慮したりすることで、モデルを改善することができるかもしれないね。」