"# chainerによるLSTMを用いた時系列予測"
"[**Brains Consulting, Inc.**]( でインターンをさせていただいている情報系のM1です。\n",
"2017年7月から9月にかけて、インターン業務として、LSTM を用いた時系列予測を [Chainer]( で実装してきました。\n",
"当記事では、chainer **1.24.0** と古い version を使っていますので、ご注意ください。"
"# データセット準備\n",
"[International airline passengers: monthly totals in thousands. Jan 49 – Dec 60 — Dataset — DataMarket](!ds=22u3&display=line)\n",
"Export タブを押して、カンマ(,)区切りの csv 形式で DL してください。\n",
"<img src='download_data.png' width=300 align='left'>"
"csv の中身は、先頭10行を抜き出すと、以下のとおりです。"
"\"Month\",\"International airline passengers: monthly totals in thousands. Jan 49 ? Dec 60\"\n",
"International airline passengers: monthly totals in thousands. Jan 49 ? Dec 60\n",
"ダウンロードしたファイルを読み込み、時系列グラフを表示します。以下のコードは、jupyter notebook利用を前提としています。別の環境で実行する際には、適宜書き換えてください。"
"import pandas as pd\n",
"import matplotlib.pyplot as plt\n",
"# jupyter notebook用\n",
"%matplotlib inline \n",
"df = pd.read_csv('international-airline-passengers.csv')\n",
"series = df.iloc[:,1].values\n",
"<img src='raw_series.png' width=1000 align='left'>"
"# 前処理\n",
"- **階差 (differencing)**\n",
"- **正規化 (normalization)**\n",
"参考記事 [LSTMにsin波を覚えてもらう(chainer trainerの速習) - Qiita]( にある\n",
"sin 関数などでは、特に前処理は必要ありませんが、今回の時系列データでは、前処理を施さないと、良い予測結果が得られませんでした。"
"## 階差\n",
"時系列データの長さを $T$ で表します。 \n",
"時系列データの添え字(時刻)を $t$ ($t = 0$,..., $T - 1$)とします。\n",
"時系列データを $X(t)$ で表します。\n",
"このとき、時系列データ $X(t)$ の階差時系列 $D(t)$ は、\n",
"$D(t) = X(t+1) - X(t)$ ($t = 0$,..., $T - 2$)\n",
"$T = 144$\n",
"階差時系列は、長さが1つ少ない $T - 1 = 143$ 個の値\n",
"時系列 $X$ に階差を施してできた時系列 $D$ のグラフを表示します。"
"import numpy as np\n",
"def difference(series):\n",
" diffed = series[1:] - series[:-1]\n",
" return diffed\n",
"diffed = difference(series)\n",
"<img src='diffed.png' width=500 align='left'>"
"## 教師ありデータに変換\n",
"- $D(0),..., D(141)$ の $T - 2 = 142$ 個\n",
"- 最後の時刻 $D(142)$ 以外\n",
"- $D(1),..., D(142)$ の $T - 2 = 142$ 個\n",
"- 最初の時刻 $D(0)$ 以外\n",
"- 入力に対して、1時刻先の値。"
"def supervise(series):\n",
" X = series[:-1]\n",
" y = series[1:]\n",
" return X, y\n",
" \n",
"X, y = supervise(diffed)\n",
"plt.plot(X, label='input')\n",
"plt.plot(y, label='label')\n",
"<img src='supervised.png' width=1000 align='left'>"
"## train, validation data に分ける\n",
"- train の長さ 99 \n",
" - $X: D(0), ..., D(98)$\n",
" - $y: D(1), ..., D(99)$\n",
"- val の長さ 43\n",
" - $X: D(99), ..., D(141)$ \n",
" - $y: D(100), ..., D(142)$ \n",
"from sklearn.model_selection import train_test_split\n",
"X_train, X_val, y_train, y_val = train_test_split(X, y,\n",
" test_size=0.3,\n",
" shuffle=False)"
"## 正規化\n",
"LSTM は内部で $tanh$ を使っているため、正規化する必要があります。\n",
"from sklearn.preprocessing import MinMaxScaler\n",
"def scale(X_train, X_val, y_train, y_val):\n",
" # change type\n",
" X_train = X_train.astype(np.float32)\n",
" X_val = X_val.astype(np.float32)\n",
" y_train = y_train.astype(np.float32)\n",
" y_val = y_val.astype(np.float32)\n",
" # scale inputs\n",
" sclr = MinMaxScaler()\n",
" X_train = sclr.fit_transform(X_train)\n",
" X_val = sclr.transform(X_val)\n",
" \n",
" # scale labels\n",
" ysclr = MinMaxScaler()\n",
" y_train = ysclr.fit_transform(y_train)\n",
" y_val = ysclr.transform(y_val)\n",
" return X_train, X_val, y_train, y_val, sclr, ysclr"
"**train data のみ** から計算します。\n",
"`sclr.fit_transform(X_train)` のところです。\n",
"本来、 validation data は学習時に利用できないものと想定します。"
"# RNNの定義\n",
"RNN(系列データを扱える deep learning のモデル)の一種です。\n",
"model architecture や データの与え方は以下の図のとおりです。\n",
"<img src='LSTM.png' width=500>\n",
"LSTM の loop 部分を展開した図が以下になります。\n",
"<img src='LSTM_deployed.png' width=500>\n",
"各時刻ごとに MSE(mean squred error) をとり、\n",
"全時刻のMSEをSUMでまとめて、時系列長( $\\# D_{train} = 99$ ) で割った値\n",
"を loss function としました。\n",
"FC は fully connected = 全結合層です。"
"from chainer import Chain\n",
"import chainer.links as L\n",
"class RNN(Chain):\n",
" def __init__(self, units):\n",
" \"\"\"\n",
" units (tuple): e.g. (4, 5, 3)\n",
" - 1層目のLSTM: 4つのneuron\n",
" - 2層目のLSTM: 5つのneuron\n",
" - 3層目のLSTM: 3つのneuron\n",
" \"\"\"\n",
" super(RNN, self).__init__()\n",
" \n",
" n_in = 1 # features\n",
" n_out= 1\n",
" \n",
" lstms = [('lstm{}'.format(l), L.LSTM(None, n_unit))\n",
" for l, n_unit in enumerate(units)]\n",
" self.lstms = lstms\n",
" for name, lstm in lstms:\n",
" self.add_link(name, lstm)\n",
" \n",
" self.add_link('fc', L.Linear(units[-1], n_out))\n",
" \n",
" \n",
" def __call__(self, x):\n",
" \"\"\"\n",
" # Param\n",
" - x (Variable: (S, F))\n",
" S: samples\n",
" F: features\n",
" \n",
" # Return\n",
" - (Variable: (S, 1))\n",
" \"\"\"\n",
" h = x\n",
" for name, lstm in self.lstms:\n",
" h = lstm(h)\n",
" return self.fc(h)\n",
" \n",
" def reset_state(self):\n",
" for name, lstm in self.lstms:\n",
" lstm.reset_state()"
"コンストラクタ( `__init__` )の外でlayerを追加する場合は、`add_link` 関数で追加する必要があります。\n",
"なお、 chainer v3 だと、 `with self.init_scope():` 内でいけるそうです([Chainerにおけるグラフ構造をループで書いてみる。 - のんびりしているエンジニアの日記]( 参照)。"
"**reset_state** について\n",
"1つの時系列を読み込み、ネットワークの重みを1回 update したら、\n",
"再び **時系列を始めから読み込むときに、LSTMの前の層から受け取る情報を初期状態に戻す** 必要があります。\n",
"それをおこなうのが **reset_state** です。\n",
"[stateful と stateless な LSTM](\n",
"今回は stateful で、任意のタイミングで reset_state しています。"
"# loss function の定義\n",
"import chainer.links as L\n",
"import chainer.functions as F\n",
"class LossSumMSEOverTime(L.Classifier):\n",
" def __init__(self, predictor):\n",
" super(LossSumMSEOverTime, self).__init__(predictor, lossfun=F.mean_squared_error)\n",
" \n",
" def __call__(self, X_STF, y_STF):\n",
" \"\"\"\n",
" # Param\n",
" - X_STF (Variable: (S, T, F))\n",
" - y_STF (Variable: (S, T, F))\n",
" S: samples\n",
" T: time_steps\n",
" F: features\n",
" \n",
" # Return\n",
" - loss (Variable: (1, ))\n",
" \"\"\"\n",
" # 時間 T で loop させるため、Tを先頭の軸にする\n",
" X_TSF = X_STF.transpose(1,0,2)\n",
" y_TSF = y_STF.transpose(1,0,2)\n",
" seq_len = X_TSF.shape[0]\n",
" \n",
" # 各時刻についてlossをとり、最終的なlossに足していく\n",
" loss = 0\n",
" for t in range(seq_len):\n",
" pred = self.predictor(X_TSF[t])\n",
" obs = y_TSF[t]\n",
" loss += self.lossfun(pred, obs)\n",
" # loss の大きさが時系列長に依存してしまうので、時系列長で割る\n",
" loss /= seq_len\n",
" \n",
" # reporter に loss の値を渡す\n",
"{'loss': loss}, self)\n",
" \n",
" return loss"
"`L.Classifier` は loss の report など、\n",
"便利な機能が備わってる loss function です。\n",
"これを override します。\n",
"Classifier となってはいるものの、\n",
"**引数で任意の loss function に変えられる**ので、\n",
"MSEを渡してやれば、今回のような **回帰にも使えます** 。"
"# Updater の定義\n",
"updater もオリジナルのを用意します。\n",
"標準的な `StanadardUpdater` を override します。"
"from chainer import training\n",
"from chainer import Variable, reporter\n",
"class UpdaterRNN(training.StandardUpdater):\n",
" def __init__(self, itr_train, optimizer, device=-1):\n",
" super(UpdaterRNN, self).__init__(itr_train, optimizer, device=device)\n",
" \n",
" # overrided\n",
" def update_core(self):\n",
" itr_train = self.get_iterator('main')\n",
" optimizer = self.get_optimizer('main')\n",
" \n",
" batch = itr_train.__next__()\n",
" X_STF, y_STF = chainer.dataset.concat_examples(batch, self.device)\n",
" \n",
" loss =, Variable(y_STF))\n",
" \n",
" loss.backward()\n",
" optimizer.update()"
"`itr_train` は train 用の Iterator で、\n",
"各 iteration でデータセットから1つの batch をモデルに渡してくれます。\n",
"あとで、updater インスタンス化するときに iterator を渡してあげます。\n",
"ちなみに、 **updater の中で入力X, ラベルyを変形(transpose)するのはオススメしません。**\n",
"理由として、 train 中の **evaluation 時は updater を介さず**、\n",
"データがモデル(with loss)に渡されるからです。\n",
"つまり、 train と evaluation 時で、 \n",
"model に渡すデータの形が変わってしまいエラーが起きてしまいます。\n",
"なので、今回は、loss function 内で変形するようにしました。"
"# 学習\n",
"import chainer\n",
"from chainer.optimizers import RMSprop\n",
"from chainer.iterators import SerialIterator\n",
"from import extensions\n",
"# model\n",
"units = (5, 4, 3)\n",
"model = LossSumMSEOverTime(RNN(units))\n",
"# optimizer\n",
"optimizer = RMSprop()\n",
"# dataset (Datasetオブジェクトじゃなくて、list(zip())でも可)\n",
"df = pd.read_csv('international-airline-passengers.csv')\n",
"# 1ではなく1:とするのは、shapeを(144,)ではなく(144,1)とするため\n",
"series = df.iloc[:,1:].values \n",
"diffed = difference(series)\n",
"X, y = supervise(diffed)\n",
"X_train, X_val, y_train, y_val = train_test_split(X, y,\n",
" test_size=0.3,\n",
" shuffle=False)\n",
"X_train, X_val, y_train, y_val, sclr, ysclr = scale(X_train, X_val, y_train, y_val)\n",
"# change type\n",
"X_train = X_train.astype(np.float32)\n",
"X_val = X_val.astype(np.float32)\n",
"y_train = y_train.astype(np.float32)\n",
"y_val = y_val.astype(np.float32)\n",
"# change shape\n",
"X_train = X_train[np.newaxis, :, :]\n",
"X_val = X_val[np.newaxis, :, :]\n",
"y_train = y_train[np.newaxis, :, :]\n",
"y_val = y_val[np.newaxis, :, :]\n",
"ds_train = list(zip(X_train, y_train))\n",
"ds_val = list(zip(X_val , y_val ))\n",
"# iterator\n",
"itr_train = SerialIterator(ds_train, batch_size=1, shuffle=False)\n",
"itr_val = SerialIterator(ds_val , batch_size=1, shuffle=False, repeat=False)\n",
"# updater\n",
"updater = UpdaterRNN(itr_train, optimizer)\n",
"# trainer\n",
"trainer = training.Trainer(updater, (1000, 'epoch'), out='results')\n",
"# evaluation\n",
"eval_model = model.copy()\n",
"eval_rnn = eval_model.predictor\n",
" itr_val, eval_model, device=-1,\n",
" eval_hook=lambda _: eval_rnn.reset_state()))\n",
"# other extensions\n",
"trainer.extend(extensions.snapshot_object(model.predictor, \n",
" filename='model_epoch-{.updater.epoch}'))\n",
" ['epoch','main/loss','validation/main/loss']\n",
" ))\n",
"extension は以下のサイトがよくまとまっています。\n",
"- [勤労感謝の日なのでChainerの勤労(Training)に感謝してextensionsを全部試した話 - EnsekiTT Blog]("
"# 学習曲線のplot\n",
"学習を実行すると、LogReport extension で、 json 形式の学習 log ファイルが`./results` に保存されます。これを読み込んで可視化します。"
"log = pd.read_json('results/log')\n",
"log.plot(y=['main/loss', 'validation/main/loss'],\n",
" figsize=(15,10),\n",
" grid=True)"
"<img src='loss.png' width=1000 align='left'>\n",
"train と validation の loss に大きな違いがあると思いますが、\n",
"**train, validation によってスケールに偏りが生じる** からです。"
"# 予測\n",
"- ①観測値 $D(t)$ を用いる方法(e.g. $\\hat{D}(t+1) = RNN(D(t);h_{t-1})$)\n",
"- ②予測値 $\\hat{D}(t)$ を用いる方法(e.g. $\\hat{D}(t+1) = RNN(\\hat{D}(t);h_{t-1})$)\n",
"※ $h_{t-1}$ : 前の隠れ層の状態\n",
"# 学習パラメタの読み込み\n",
"validation loss が最も良かった epoch の重みを採用します。"
"import os\n",
"from chainer import serializers\n",
"best_idx = log['validation/main/loss'].argmin()\n",
"best_epoch = int(log['epoch'].ix[best_idx])\n",
"units = (5, 4, 3)\n",
"model = RNN(units)\n",
"weight_file = os.path.join('results', 'model_epoch-{}'.format(best_epoch))\n",
"serializers.load_npz(weight_file, model)"
"先ほどまでの `model` は **RNN + loss** でしたが、\n",
"上のコードでは **RNNだけ** なので注意です。\n",
"- [Chainerのモデルのセーブとロード - 無限グミ]("
"## ①観測値を使って予測"
"n_train = X_train.shape[1]\n",
"n_val = X_val.shape[1]\n",
"X = np.concatenate((X_train, X_val), axis=1)[0]\n",
"obs = np.concatenate((y_train, y_val), axis=1)[0]\n",
"# prediction\n",
"pred = []\n",
"for X_t in X:\n",
" p_t = model(X_t.reshape(-1,1)).data[0]\n",
" pred.append(p_t)\n",
"plt.plot(obs, label='obs')\n",
"plt.plot(pred, label='pred')\n",
"plt.axvline(n_train, color='r')\n",
"<img src='pred1.png' width=1000 align='left'>\n",
"赤い線より左側が train, 右側が validation に対する予測です。\n",
"## ②予測値を使って予測"
"# train data に関しては先ほどと同じく、観測値を使って予測し、\n",
"# 隠れ層の状態を作る。\n",
"pred = []\n",
"for X_t in X_train[0]:\n",
" p_t = model(X_t.reshape(-1,1)).data[0]\n",
" pred.append(p_t)\n",
" \n",
"# valdiation data に対する予測\n",
"p_t = X_val[0,0]\n",
"n_pred = n_val\n",
"for t in range(n_pred):\n",
" p_t = model(p_t.reshape(-1,1)).data[0]\n",
" pred.append(p_t)\n",
"plt.plot(obs, label='obs')\n",
"plt.plot(pred, label='pred')\n",
"plt.axvline(n_train, color='r')\n",
"<img src='pred2.png' width=1000 align='left'>\n",
"train に関しては、先ほどの①と同じ。\n",
"validation に関しては、先程より誤差が若干、大きくなっています。\n",
"①では、validation data の観測値を使って予測していたので、\n",
"validation data の個数と同じ時刻分だけしか予測できませんでしたが、\n",
"②では 任意個、 `n_pred` 個だけ、未来の時刻を予測できます。\n",
"今回は、①と同じく validation data の個数と同じにしました。"
"# 後処理\n",
"## 正規化を戻す"
"obs_unscale = ysclr.inverse_transform(obs)\n",
"pred_unscale = ysclr.inverse_transform(pred)\n",
"plt.plot(obs_unscale, label='obs')\n",
"plt.plot(pred_unscale, label='pred')\n",
"plt.axvline(n_train, color='r')\n",
"<img src='unscale.png' width=1000 align='left'>"
"## 階差を戻す\n",
"$$D(t) = X(t+1) - X(t)$$\n",
"$$X(t+1) = D(t) + X(t)$$\n",
"$$\\hat{X}(2), ..., \\hat{X}(143)$$\n",
"train data に関する予測、\n",
"$$\\hat{X}(2), ..., \\hat{X}(100)$$\n",
"validation data は学習時には手に入っていないと想定するので、\n",
"validation の予測、\n",
"$$\\hat{X}(101), ..., \\hat{X}(143)$$\n",
"\\hat{X}(101) = \\hat{D}(100) + \\hat{X}(100) \\\\\n",
"\\hat{X}(102) = \\hat{D}(101) + \\hat{X}(101) \\\\\n",
"\\vdots \\\\\n",
"\\hat{X}(143) = \\hat{D}(142) + \\hat{X}(142) \\\\\n",
"cell_type": "code",
"obs_undiff = series[2:]\n",
"pred_train = pred_unscale[:n_train] + series[1:1+n_train]\n",
"pred_val = []\n",
"X_t = series[n_train+1]\n",
"for D_t in pred_unscale[n_train:]:\n",
" X_t = D_t + X_t\n",
" pred_val.append(X_t)\n",
"pred_undiff = np.concatenate((pred_train,\n",
" pred_val), axis=0)\n",
"plt.plot(obs_undiff, label='obs')\n",
"plt.plot(pred_undiff, label='pred')\n",
"plt.axvline(n_train, color='r')\n",
"<img src='undiff.png' width=1000 align='left'>\n",
"# まとめ\n",
"- LSTM 用いた時系列予測を chainer で実装しました。\n",
"- 前処理として、階差、正規化を施すと、予測精度が高くなりました。\n",
"- 観測値と予測値の2種類の予測方法を試した結果、観測値を使ったほうが予測精度が高くなります。"
"# 参考文献・サイト\n",
"## LSTM\n",
"### 理論\n",
"- [LSTMネットワークの概要 - Qiita](\n",
"- [Fei-Fei Li & Justin Johnson & Serena Yeung Lecture 10: Recurrent Neural Networks](\n",
"- [ニューラルネット勉強会(LSTM編)](\n",
"- [わかるLSTM ~ 最近の動向と共に - Qiita](\n",
"### 実践(kerasのコードつき)\n",
"- [Time Series Forecasting with the Long Short-Term Memory Network in Python - Machine Learning Mastery]( \n",
"- [Mini-Course on Long Short-Term Memory Recurrent Neural Networks with Keras - Machine Learning Mastery](\n",
"## chainer\n",
"- [Chainer: ビギナー向けチュートリアル Vol.1 - Qiita]( chainerは**学習を抽象化するクラス**間の関係が初心者にはとっつきにくいです。それらの**関係図**がわかりやすくまとまっています。\n",
" - [Chainer v3 ビギナー向けチュートリアル - Qiita](\n",
"- [LSTMにsin波を覚えてもらう(chainer trainerの速習) - Qiita]( 実装する上で最も参考にさせていただきました。\n",
"- [Chainerにおけるグラフ構造をループで書いてみる。 - のんびりしているエンジニアの日記]( layer追加方法が、参考になりました。\n",
"- [Chainerのモデルのセーブとロード - 無限グミ](\n",
"- [勤労感謝の日なのでChainerの勤労(Training)に感謝してextensionsを全部試した話 - EnsekiTT Blog]("
