kamatari/online_machine_learning.markdown

## online_machine_learning.markdown

      
    Raw
  

              online_machine_learning.markdown
            
          
    【第一章】導入の話


オンライン機械学習の特徴
良い点
学習データを捨てられる、学習速度が速い、学習結果がいつでも使える、実装が簡単、性能解析しやすい
悪い点
学習するデータの順番に結果が大きく依存する
　+ ノイズに弱い
　+ しかし、この本を読めばこれらの解決方法が書いてある…!らしい。

#【第二章】数学の話

偏微分・・・多変数関数を注目している変数以外は定数だとみなして微分すること
勾配・・・関数の勾配とは、関数を変数で偏微分した結果を並べてベクトルにしたもの

#【第三章】

二値分類
線形分類器
パーセプトロン
目的関数と最適化手法
パーセプトロン、サポートベクトルマシン、ロジスティック回帰の目的関数を説明する。最適化に関しては、すべての場合で、確率的勾配降下法を前提とする。
目的関数の表記
オンライン学習と収束
確率的勾配降下法
勾配法とは
勾配降下法
確率的勾配降下法
パーセプトロンの目的関数
パーセプトロンの学習アルゴリズムの導出
サポートベクトルマシン
線形分離可能とは
ハードマージン SVMの導出
ソフトマージン SVMの導出
SVMの目的関数の解釈
確率的勾配降下法によるSVMの学習
ロジスティク回帰
ロジスティック回帰のパラメータ推定
ロジスティック回帰の解釈
正則化の効果
過学習を防ぐ
疎な解を作る正則化
正則化と事前分布
二値分類器の性能評価の方法
二値分類のまとめ
多クラス分類
どのような考え方があるのか
「二値分類としての組み合わせとして解く」-> 1対他法、1対1法
「多クラス分類のまま解く」-> 決定木、k最近傍法、単純ベイズ法
1対他法
1対1法
誤り訂正出力符号法
多クラスSVM
対数線形モデル
対数線形モデルの学習
自然言語への応用例
文書分類
単語分割


#【単語帳】


ノルム


距離を一般化した概念。”絶対値"や”長さ"という概念と近いが、定義される空間が違う。


「絶対値」は、実数や複素数といった「数」に対して定義


「長さ」というのは、空間にある「線」に対して定義


「ノルム」は、線形空間に対して定義できます。（もちろん実数、複素数やベクトルも線形空間）


って知恵袋に書いてあった http://oshiete.goo.ne.jp/qa/1530413.html


L1ノルム


L1ノルム = ||x1|| = |x1| + |x2| + ......


L1ノルム => マンハッタン距離


各座標の差（の絶対値）の総和を2点間の距離とする


L2ノルム


L2ノルム = ||x2|| = √x1^2 + x2^2+ ......


L2ノルム => ユークリッド距離


「座標の差の二乗」の「ｎ個の和」の平方根


凸関数


を満たすもの


グラフ上の2点を結んだ時、常に線分がグラフの上にあるグラフを下に凸な関数という


ヒューリスティクス


必ず正しい答えを導けるわけではないが、ある程度のレベルで正解に近い解を得ることができる方法


パーセプトロン


単純パーセプトロン


入力層と出力層の2層からなる。線形非分離な問題を解けない。


多層パーセプトロン


パーセプトロンを多層にし、誤差逆伝播法(バックプロパゲーション)で学習、線形非分離な問題が解ける。


誤差逆伝播法


ニューラルネットワークを学習させるための"教師あり学習”のアルゴリズム。


ネットワーク上の変更可能な重みについて、誤差の傾斜を計算するものである。


この傾斜はほとんどの場合、誤差を最小にする単純なアルゴリズムである確率的最急降下法で使われる


目的関数


達成したい目的を表した関数


最適化手法


目的を達成するための方法


勾配法


パラメータwを引数としてとる目的関数 L(w)の値を最小化するための手法


下に凸のグラフをある点から、凸の場所へ少しずつ移動していくイメージ


確率的勾配降下法


勾配降下法で時間がかかるので、近似をとりながら降下する？


http://qiita.com/kenmatsu4/items/d282054ddedbd68fecb0


損失項 、損失関数、正則化項


SVMでは最小化するべき目的関数が、「損失関数+正則化項」という形をしている。


局所最適解


大域最適解


ロジスティック回帰


サポートベクトルマシン


パターン識別用の教師あり機械学習方法。


サポートベクターマシンで眼鏡っ娘分類システム構築


SVM実践ガイド


サポートベクトルマシン入門 http://home.hiroshima-u.ac.jp/tkurita/lecture/svm.pdf


目的関数と最適化手法がはっきり分かれている


非線形分離に対して、カーネルトリックで、分類する。 カーネルトリックは、別の特徴空間に写像して、線形分離可能にすること。カーネル関数を取り入れた一連の手法では、どのような写像が行われるか知らずに計算できることから、カーネルトリックと呼ばれているらしい。


+サポートベクトル

「+1クラス」と「-1クラス」を分離する平面をひいた時、平面から一番近い各クラスのデータ点をサポートベクトルという。
マージン
サポートベクトルから、分離超平面までの距離のこと。
ハードマージン SVM
1/w を最大化するのがハードSVM。
分離不可能なデータには、制約を満たす解が存在しないため、分離超平面を計算することができない。
ソフトマージン SVM
ハードマージンSVMであった制約を持つ代わりに、分類に失敗した時にペナルティを与える。
ペナルティを目的関数に組み込む。
ヒンジ損失
SVMの損失項をそう呼ぶ、グラフにすると、ヒンジみたいになってる
過学習
オーバーフィッティング。汎化能力がひくくなる
ロジスティック回帰
標準的シグモイド関数
ヒンジ損失とロジスティック損失が似ている
ロジスティック回帰は、回帰分析の分野からやってきて、シグモイド関数を使ったら
なんか似てるぞこれみたいな話？
精度をはかる
正解率、適合率、再現率、F値の例
誤り訂正出力符号法 (ECOC法)
あらかじめ定められた個数の二値分類器を並べ、分類時にはそれらの出力結果から最終的な分類クラスを定める手法
stop word
助詞や代名詞など出現頻度が高く、分類に寄与しないkとおが事前に予想される単語。