Skip to content

Instantly share code, notes, and snippets.

@yakimelon
Last active September 24, 2019 12:40
Show Gist options
  • Save yakimelon/3789b28cbf1a49ff45b66f9421f50190 to your computer and use it in GitHub Desktop.
Save yakimelon/3789b28cbf1a49ff45b66f9421f50190 to your computer and use it in GitHub Desktop.
toukei

機械学習 統計

機械学習と統計

統計とは
データを分析して性質を調べて推測する。
また統計は大きく分けて推測統計と記述統計の二つがある
推測統計
全データからサンプルをとり、サンプルの特性から全データの特性を推測する
記述統計
全データから表・グラフを作り平均・傾向などを分析してデータの特徴を把握する

機械学習とは
元々人工知能の分野として研究されていた。
近年ではタスクを解決するツールとして使われている。
ラベルの付いたデータセットを用いて予測する・

機械学習と統計の違いはいまだに明確な答えはない。

機械学習は本質的には統計の応用。
基本的に違いはなく、ほとんど被っている。

実際は統計は知らなくても機械学習は可能だが、
統計の知識は機械学習で使われているので知っておくとよい。

ドットプロットとヒストグラム

説明するにあたり度数分布表を説明する。
度数分布表とはデータを階級に分け、各階級ごとの度数を表現した表
ドットプロットとは各変数ごとにデータの値を点で表現したグラフ
ヒストグラムとは度数分布表をグラフにしたもの

ヒストグラム例
ドットプロット例

平均値・中央値・最頻値

平均値(mean)
全データをすべて足し合わせて、全体の個数で割ったもの
中央値(median)
あるデータを大きさ順に並べたときの中央の値
中央の値が二つの時はその二つの平均が中央値となる
最頻値(mode)
データの中で最も頻繁にでてくる値
四分位範囲(IQR:interquarite range)
データの散らばりの具合を表している。
求め方はデータを中央値で分けた際の二つのデータ群からさらにそれぞれの中央値を求める。
そして求めた二つの中央値の差が四分位範囲という。
外れ値を求めるときなどに用いる

正規分布(normal distribution)

平均付近が一番高く左右対称の釣り鐘型の分布
68-95-99.7ルール
正規分布のときに中央からの標準偏差に収まる確率(だいたい)

Zテーブル(標準正規分布表)
まずZスコアを使うことでZスコアが全体で見てどれくらいの割合に位置しているのかを見れる

分散・標準偏差

それぞれデータの散らばり具合をあらわしているもの。
母集団、標本

分散(variance)
平均から各データがどれくらい離れているか

求め方
平均を求める。
全データと平均との差を二乗する。
それらの平均を求めたものが分散。

標準偏差
分散の平方根

データのばらつきの範囲は「(平均値 - 標準偏差)〜(平均値 + 標準偏差)」です。
この範囲に、およそ7割のデータが含まれると言われています。

共分散
2 種類のデータの関係を示す指標
片方が増えたらもう片方も増える、または減ったらもう片方も減るようなイメージ
XとYの共分散を求めたいとなった場合
「X の偏差 × Y の偏差」の平均
で求められる

標本標準偏差

標本分散(sample variance)
標本から計算した分散
不偏分散(unbiased variance)
標本分散から母分散を推測するための分散
標本分散求めるときの個数で割るところを1引いたもので割る
標本標準偏差(sample standard deviation)
不偏分散の平方根
母集団の標準偏差の不偏推定量

外れ値(outlier)

他の値とは大きく外れた値のこと。
一般的な外れ値の求め方は

  • 外れ値<第一四分位点-1.5×IQR
  • 第三四分位点+1.5×IQR<外れ値

の二つとなる

Zスコア

Zスコアとは平均から標準偏差何個分離れているか
(データ - 平均)÷(標準偏差)
機械学習ではあまりでてこない

相対度数

相対度数とは全体で見たときの割合のこと。
度数を全体の個数で割って求められる

密度曲線(density curve)

連続する確率分布をグラフ化したもの
データの分布の可視化
密度曲線はマイナスは存在しない
密度曲線の見方は面積を見る

相関関係

相関関係とは一方が変化すれば他方も変化する関係
相関関係には正か負、強いか弱いなどの種類がある。

相関係数(correlation coefficient)

相関関係の強い弱いというのを判断するために相関関係を数値化したものが相関係数
相関係数の求め方はまず比べるデータ同士の共分散をまず求める。
その共分散をそれぞれのデータの標準偏差をかけたもので割ると求められる。
-1<=相関係数=>1

線形回帰(linear regression)

統計学の回帰分析の一種。
回帰分析とはある値xが与えられたときにそれと相関関係のあるyの値を説明・予測すること。
線形回帰では線形モデルから予測を行う。
予測の仕方は線形モデル表す数式(例えばy = 2x + 3)に求めたいyに対するxを埋め込むことでyを求めることができる

残差・最小二乗法

これらはデータに最適な線形モデルを求めるのに使う。
実際のデータと線形モデルで予測した値との差が残差。
最適なモデルの求め方は二つあり、

  1. 残差の絶対値の合計が最小になる(絶対値法)
  2. 残差の二乗の合計が最小になる(最小二乗法)

ただし最小二乗法は値を二乗する関係上、異常値に引っ張られやすくなるため、異常値をきちんと排除しておく必要がある。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment