Skip to content

Instantly share code, notes, and snippets.

@relax-more
Created May 31, 2018 10:49
Show Gist options
  • Save relax-more/315e1bdc9135e8a7243e33d0a3dbc97a to your computer and use it in GitHub Desktop.
Save relax-more/315e1bdc9135e8a7243e33d0a3dbc97a to your computer and use it in GitHub Desktop.
prml 1.2.6
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# 1.2.6 ガウス曲線フィッティング"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## ベイズ確率からおさらい\n",
"\n",
"加法定理・乗法定理をすっ飛ばして、ベイズの定理はこんな感じ\n",
"\n",
"$$ p(w | D) = \\frac{p(D|w)p(w)}{p(D)} \\tag{1.43}$$\n",
"\n",
"このとき右辺の \n",
"$$ p(D|w) $$ \n",
"は これを尤度関数と呼ぶ\n",
"\n",
"...結局尤度ってなんやねん良うわからんわ。\n",
"\n",
"ってなるけど一旦保留。\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"----\n",
"## ガウス分布 (正規分布) のおさらい。\n",
"\n",
"ガウス分布 式\n",
"$$ N(x | μ, σ^2) = \\frac{1}{(2πσ^2)^{1/2}} \\exp\\{ -\\frac{1}{2σ^2}(x - μ)^2 \\}\\\\ \\tag{1.46}$$\n"
]
},
{
"cell_type": "code",
"execution_count": 17,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<matplotlib.figure.Figure at 0x7fe5a99f5828>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"%matplotlib inline\n",
"import matplotlib.pyplot as plt\n",
"import numpy as np\n",
"\n",
"plt.figure(figsize=(10,5))\n",
"\n",
"pow_sigmas = [0.5,1.0,2.0]\n",
"mus = [0,4,0]\n",
"\n",
"x = np.arange(-8., 8., 0.01)\n",
"\n",
"for powsigma, mu in zip(pow_sigmas,mus):\n",
" N = (1 / np.sqrt(2 * np.pi * powsigma ) ) * np.exp(-pow((x-mu), 2) / (2 * powsigma) )\n",
"\n",
" plt.plot(x, N)\n",
" plt.grid()\n",
" plt.xlabel('x')\n",
" plt.ylabel('N')\n",
" plt.legend([\"σ=0.2 μ=0\", \"σ=1.0 μ=4\",\"σ=5.0 μ=0\"],loc=\"upper left\")\n",
"\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"D次元ベクトルの連続変数に対するガウス分布\n",
"$$ N(x | \\mathbf{μ}, \\sum_{}) = \\frac{1}{(2π)^{\\mathbf{D}/2}} \\frac{1}{|\\sum_{}|^{(1/2)}} \\exp\\{ -\\frac{1}{2}(x - \\mathbf{μ})^\\mathbf{T}\\sum_{}^{-1}(x-\\mathbf{μ}) \\}\\\\ \\tag{1.52}$$\n",
"\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"未知の μ と σ をもつガウス分布から 同じ正規分布から独立で生成された観測値 x が与えられる時、データ集合 **x** の 確率はこんな感じでかける。\n",
"\n",
"(独立の同時確率は周辺確率の積で表せる @p17)\n",
"\n",
"\n",
"$$ p(\\mathbf{x}| μ, σ^2) = \\prod_{n=1}^N N(x_n | μ, σ^2 ) \\tag{1.53}$$\n",
"\n",
"おやこの右辺は 1.43 と見比べると尤度関数ではないか。\n",
"\n",
"総乗は計算し辛いのでこれの対数を取る。\n",
"\n",
"$$ \\ln p(\\mathbf{x}| μ, σ^2) = -\\frac{1}{2σ^2} \\sum_{n=1}^N(x_n - μ)^2 - \\frac{N}{2} \\ln σ^2 - \\frac{N}{2} \\ln (2\\pi) \\tag{1.54}$$\n",
"\n",
"\n",
"\n",
"ここで再度尤度関数ってなんやねんの話に戻ると、参照した qiita の記事では下記のように話ししている。\n",
"\n",
"「尤度関数の基本概念は、「サンプリングしてデータが観測された後、そのデータは元々どういうパラメーターを持つ確率分布から生まれたものだったか?」と言う問いに答えるためのもの」\n",
"\n",
"全く同じ条件 (正規分布から i.i.d. に観測値 x を集めた時に 尤度関数ってなんやねんの話をしている) で説明してるので、以下を参照。\n",
"\n",
"https://qiita.com/kenmatsu4/items/b28d1b3b3d291d0cc698\n",
"\n",
"観測値のセット **x** に対して μ と σ を置き換えてグラフ書いてるのが直感的にわかりやすいので添付。\n",
"\n",
"これは μ を変えた時\n",
"<img src=\"https://camo.qiitausercontent.com/a892e2db0cccb942643a62c90863b47809b24238/68747470733a2f2f71696974612d696d6167652d73746f72652e73332e616d617a6f6e6177732e636f6d2f302f35303637302f34376463626437332d663534302d656362382d646537322d3037326666383564633365622e676966\" width=\"500\">\n",
"\n",
"\n",
"これは μ がわかった上で σ を変えた時。\n",
"\n",
"<img src=\"https://camo.qiitausercontent.com/5f76903b2c8f9a795fc2218b4301b62d5e16494a/68747470733a2f2f71696974612d696d6167652d73746f72652e73332e616d617a6f6e6177732e636f6d2f302f35303637302f36666331616431332d346433342d386364632d333365302d3134383131663636313762632e676966\" width=\"500\">\n",
"\n",
"結局この p が最大になるように μ と σ を選べば一番それっぽい μ と σ が選べるよね。ってのが最尤推定 (たぶん)。\n",
"μ と σ の値を縦軸横軸にとって 濃い部分が値が大きい、みたいなグラフが下。\n",
"\n",
"<img src=\"https://camo.qiitausercontent.com/458ca8757af2e7fa10c8fa68f0e21d0c6107f920/68747470733a2f2f71696974612d696d6167652d73746f72652e73332e616d617a6f6e6177732e636f6d2f302f35303637302f38616130303437302d653332372d333135312d303364342d6630666433396663306636382e706e67\" width=\"500\">\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"---------\n",
"\n",
"## 曲線フィッティングからおさらい。\n",
"\n",
"ガウス分布の 平均・分散はまあいいとして。\n",
"\n",
"曲線フィッティングは N 個の入力訓練データ **x** と N個の目的値 **t** を利用して学習し、新しい値 x に対して t を予測することである。\n",
"$$ \\mathbf{x} = (x_1, x_2,,,,x_n) $$\n",
"$$ \\mathbf{t} = (t_1, t_2,,,,t_n) $$\n",
"\n",
"曲線は最初に出てきた 式 1.1 \n",
"$$ y(x, w) = w_0 + w_1 x + W_2 x^2 + ... + w_M x^M = \\sum^M_{j=0} w_j x^j \\tag{1.1}$$ \n",
"から x を固定したときのサンプルの分布がガウス分布に従うとするとこんな式がかける。\n",
"\n",
"$$ p(t| x, \\mathbf{w}, β) = N(t| y(x, \\mathbf{w}), β^{-1}) \\tag{1.60} $$\n",
"\n",
"<img src=\"https://wiki.linecorp.com/download/attachments/1126471385/%E3%82%B9%E3%82%AF%E3%83%AA%E3%83%BC%E3%83%B3%E3%82%B7%E3%83%A7%E3%83%83%E3%83%88%202018-05-18%208.46.05.png?version=1&modificationDate=1526600827000&api=v2\" width=\"500\">\n",
"\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### 最尤推定 (この辺りから理解が怪しい)\n",
"\n",
"観測値 x_n と その時の目標値 t_n を訓練データとして利用できる時に、 式 1.60 に対して値を当てはめる。(これは)\n",
"\n",
"$$ p(\\mathbf{t}| \\mathbf{x}, \\mathbf{w}, β) = \\prod_{n=1}^N N(t_n| y(x_n, \\mathbf{w}), β^{-1}) \\tag{1.61} $$\n",
"\n",
"おやこの右辺は 1.43、 式 1.53 と見比べると尤度関数ではないか。\n",
"\n",
"$$ p(\\mathbf{x}| μ, σ^2) = \\prod_{n=1}^N N(x_n | μ, σ^2 ) \\tag{1.53}$$\n",
"\n",
"μ --> y\n",
"\n",
"σ^2 --> β^{-1}\n",
"\n",
"に変わってるだけね。\n",
"\n",
"というわけで対数尤度取ると。\n",
"\n",
"$$ \\ln p(\\mathbf{t}| \\mathbf{x}, \\mathbf{w}, β) = -\\frac{β}{2} \\sum_{n=1}^N(y(x_n, \\mathbf{w}) - t_n)^2 + \\frac{N}{2} \\ln β - \\frac{N}{2} \\ln (2\\pi) \\tag{1.62} $$\n",
"\n",
"\n",
"$$ \\ln p(\\mathbf{x}| μ, σ^2) = -\\frac{1}{2σ^2} \\sum_{n=1}^N(x_n - μ)^2 - \\frac{N}{2} \\ln σ^2 - \\frac{N}{2} \\ln (2\\pi) \\tag{1.54}$$\n",
"\n",
"ガウス分布の μと同じノリで y(x_n, **w**) つまり **w** を求めたい。 **w** 関係ないところは邪魔なので削除。\n",
"\n",
"$$ \\ln p(\\mathbf{t}| \\mathbf{x}, \\mathbf{w}, β) = -\\frac{β}{2} \\sum_{n=1}^N(y(x_n, \\mathbf{w}) - t_n)^2 \\tag{1.62_1} $$\n",
"\n",
"懐かしい 式 1.2 とほぼ一緒ね。\n",
"\n",
"$$ E(w) = \\frac{1}{2} \\sum^N_{n=1} \\{y(x_n, w) - t_n\\}^2 \\tag{1.2}$$ \n",
"\n",
"\n",
"式 1.62 を βに関して偏微分する\n",
"\n",
"$$ \\frac{1}{β_{ML}} = \\frac{1}{N} \\sum_{n=1}^{N} \\{y(x_n, w_{ML}) - t_n\\}^2 \\tag{1.63}$$\n",
"\n",
"\n",
"まず **w**, 次に βMLを決めると回帰できたことになる。\n",
"\n",
"これが俗にいう 最尤推定法 (多分)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### map 推定\n",
"\n",
"上の話は尤度関数を最大にする **w** を探す方法だったが、それと別の方法として\n",
"\n",
"**w** の事前確率を考えて、尤度関数と事前確率の積からベイズの定理を使って事後確率を計算し、それを最大化することで w を推定しよう、という方法らしい。\n",
"\n",
"$$ p(\\mathbf{w} | \\mathbf{x}, \\mathbf{t}, α, β) \\propto p(\\mathbf{t} | \\mathbf{x}, \\mathbf{w}, β ) p(\\mathbf{w} | α \\tag{1.66}) $$\n",
"\n",
"$$ \\frac{β}{2} \\sum_{n=1}^{N} \\{y(x_n, \\mathbf{w}) - t_n\\}^2 + \\frac{α}{2} \\mathbf{w}^{\\mathrm{T}} \\mathbf{w} \\tag{1.67}$$ \n",
"\n",
"へー。\n",
"\n",
"http://aidiary.hatenablog.com/entry/20100404/1270359720\n",
"\n",
"別サイトいわく、 map推定はテキスト分類でよく出るナイーブベイズ とよく似ているらしい。\n",
"\n",
"\n",
"いくつか関連記事をメモ。うんわからん。\n",
"\n",
"ナイーブベイズで「羽生さん」と「羽生くん」を分類する\n",
"\n",
"https://qiita.com/tmnck/items/175787ed94ae3eb62616\n",
"\n",
"最大事後確率推定(MAP推定)の基本\n",
"\n",
"http://s0sem0y.hatenablog.com/entry/2017/01/18/004836"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"----\n",
"## ここからここから本題 1.2.6\n",
"\n",
"ここまでで観測値 x が来た時に t を予測できるよ、という状況にはなったけどそれでは点推定だしベイズ的でないよね? (しらん) w に関して周辺火して予測分布を求めるのがベイズっぽいらしい。\n",
"\n",
"$$ p(t | x, \\mathbf{x}, \\mathbf{t}) = \\int_{} p(t|x, \\mathbf{w})p(\\mathbf{w}| \\mathbf{x}, \\mathbf{t})dw \\tag{1.68} $$\n",
"\n",
"\n",
"上の式がベイズ推定の予測分布ですが、最尤推定やMAP推定ではパラメータwを(1)式に代入してそのまま予測分布としていたのに、ベイズ推定ではさらにwについて周辺化して予測分布としています。訓練データ (x,t) からパラメータwが得られる確率 (2) を計算し、そのパラメータwのときにtが得られる確率 (1) を計算し、それをすべてのwについて積分してます(そこまでするか・・・)。この積分はどうやって求めるんだと思ったのですが、解析的に解けて(1.69)のやたら複雑な正規分布になるそうです。(完全パクリ)\n",
"\n",
"$$ p(t|x,\\mathbf{x},\\mathbf{t})= N(t|m(x), s^2(x)) \\tag{1.69}$$\n",
"\n",
"$$ m(x) = β \\phi (x)^{\\mathrm{T}} \\mathbf{x} \\sum_{n=1}^N \\phi (x_n) t_n \\tag{1.70}$$\n",
"\n",
"$$ s^2(x) = β^{-1} + \\phi (x)^{\\mathrm{T}} \\mathbf{S} \\phi (x) \\tag{1.71}$$\n",
"\n",
"$$ \\mathbf{S}^{-1} = α\\mathbf{I} + β \\sum_{n=1}^N \\phi (x_n) \\phi (x_n)^{\\mathrm{T}} \\tag{1.72}$$\n",
"\n",
"計算するとこうなるらしい。全然ピンとこない。。。\n",
"\n",
"http://aidiary.hatenablog.com/entry/20100404/1270359720\n",
"このサイトから 式 1.69 を実装したらしいのを 丸コピペして添付。"
]
},
{
"cell_type": "code",
"execution_count": 22,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<matplotlib.figure.Figure at 0x7fe5b0086f60>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"import numpy as np\n",
"from pylab import *\n",
"import sys\n",
"\n",
"M = 9\n",
"ALPHA = 0.005\n",
"BETA = 11.1\n",
"\n",
"# M次多項式近似\n",
"def y(x, wlist):\n",
" ret = wlist[0]\n",
" for i in range(1, M+1):\n",
" ret += wlist[i] * (x ** i)\n",
" return ret\n",
"\n",
"def phi(x):\n",
" data = []\n",
" for i in range(0, M+1):\n",
" data.append(x**i)\n",
" ret = np.matrix(data).reshape((M+1, 1)) # 縦ベクトルで返す\n",
" return ret\n",
"\n",
"# 式1.70\n",
"def mean(x, xlist, tlist, S):\n",
" sums = matrix(zeros((M+1, 1)))\n",
" for n in range(len(xlist)):\n",
" sums += phi(xlist[n]) * tlist[n]\n",
" ret = BETA * phi(x).transpose() * S * sums\n",
" return ret\n",
"\n",
"# 式1.71\n",
"def variance(x, xlist, S):\n",
" ret = 1.0 / BETA + phi(x).transpose() * S * phi(x)\n",
" return ret\n",
"\n",
"def main():\n",
" # 訓練データ\n",
" # sin(2*pi*x)の関数値にガウス分布に従う小さなランダムノイズを加える\n",
" xlist = np.linspace(0, 1, 10)\n",
" tlist = np.sin(2*np.pi*xlist) + np.random.normal(0, 0.2, xlist.size)\n",
" \n",
" # ベイズ曲線フィッティングを用いて予測分布を求める\n",
" # 行列Sを計算\n",
" sums = matrix(zeros((M+1, M+1)))\n",
" for n in range(len(xlist)):\n",
" sums += phi(xlist[n]) * phi(xlist[n]).transpose()\n",
" I = matrix(np.identity(M+1))\n",
" S_inv = ALPHA * I + BETA * sums\n",
" S = S_inv.getI()\n",
"\n",
" # 連続関数のプロット用X値\n",
" xs = np.linspace(0, 1, 500)\n",
" ideal = np.sin(2*np.pi*xs) # 理想曲線\n",
" means = []\n",
" uppers = []\n",
" lowers = []\n",
" for x in xs:\n",
" m = mean(x, xlist, tlist, S)[0,0] # 予測分布の平均\n",
" s = np.sqrt(variance(x, xlist, S)[0,0]) # 予測分布の標準偏差\n",
" u = m + s # 平均 + 標準偏差\n",
" l = m - s # 平均 - 標準偏差\n",
" means.append(m)\n",
" uppers.append(u)\n",
" lowers.append(l)\n",
" \n",
" plot(xlist, tlist, 'bo') # 訓練データ\n",
" plot(xs, ideal, 'g-') # 理想曲線\n",
" plot(xs, means, 'r-') # 予測モデルの平均\n",
" plot(xs, uppers, 'r--') # +sigma\n",
" plot(xs, lowers, 'r--') # -sigma\n",
" xlim(0.0, 1.0)\n",
" ylim(-1.5, 1.5)\n",
" show()\n",
"\n",
"if __name__ == \"__main__\":\n",
" main()"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Py3 DL2 (ML)",
"language": "python",
"name": "python3-dl2-ml"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.6.3"
}
},
"nbformat": 4,
"nbformat_minor": 2
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment