Skip to content

Instantly share code, notes, and snippets.

@CookieBox26
Last active June 13, 2020 07:21
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save CookieBox26/9e8bc07509cfda8536370609c8d9f014 to your computer and use it in GitHub Desktop.
Save CookieBox26/9e8bc07509cfda8536370609c8d9f014 to your computer and use it in GitHub Desktop.
アテンション機構付きの seq2seq モデルで機械翻訳する(PyTorch チュートリアル)
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# アテンション機構付きの seq2seq モデルで機械翻訳する(PyTorch チュートリアル)\n",
"\n",
"参考文献の 1 つ目のチュートリアルをやります。コードの順序を前後させていたりデバッグプリントを入れていることがあります。自分の誤りは自分に帰属します。何か問題がありましたら以下からご連絡いただけますと幸いです。 \n",
"https://github.com/CookieBox26/ToyBox/issues\n",
"\n",
"### 参考文献\n",
"\n",
"- [NLP FROM SCRATCH: TRANSLATION WITH A SEQUENCE TO SEQUENCE NETWORK AND ATTENTION](https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html)\n",
" - 本記事でなぞるチュートリアル。seq2seq モデルでフランス語を英語に機械翻訳する。\n",
"- [[1409.3215] Sequence to Sequence Learning with Neural Networks](https://arxiv.org/abs/1409.3215)\n",
" - チュートリアル中の随所の sequence to sequence network という文字列からリンクがある論文。この論文では英仏翻訳している。\n",
"- [フランス語の否定文 - Wikipedia](https://ja.wikipedia.org/wiki/%E3%83%95%E3%83%A9%E3%83%B3%E3%82%B9%E8%AA%9E%E3%81%AE%E5%90%A6%E5%AE%9A%E6%96%87)\n",
" - 「ne ... pas に代表されるように否定が ne を含む 2 語で表される」(ことからも仏英翻訳は単語を単語に翻訳すればいいのではないことがわかる)。\n",
"- [[1406.1078] Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation](https://arxiv.org/abs/1406.1078)\n",
" - これもチュートリアル冒頭で2回繰り返し紹介されている論文。この論文で GRU が提案、導入された。\n",
"- [[1409.0473] Neural Machine Translation by Jointly Learning to Align and Translate](https://arxiv.org/abs/1409.0473)\n",
" - これもチュートリアル冒頭で2回繰り返し紹介されている論文。\n",
"\n",
"<h3>目次</h3>\n",
"<ul>\n",
" <li><a href=\"#s1\">データの準備</a></li>\n",
" <li><a href=\"#s2\">seq2seq モデル</a></li>\n",
" <li><a href=\"#s3\">アテンションデコーダの導入</a></li>\n",
" <li><a href=\"#s4\">モデルの訓練</a></li>\n",
" <li><a href=\"#s5\">訓練結果</a></li>\n",
"</ul>"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<h2 id=\"s1\" style=\"background: black; padding: 0.7em 1em 0.5em;color:white;\">データの準備</h2>"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<table width=\"100%\">\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">このチュートリアルではフランス語を英語に機械翻訳するんですね。フランス語がわからないので結果がすごいのかすごくないのかわかりにくそうですが…自分がわかる言語にカスタマイズしてみるのはまずチュートリアルをなぞった後の方がよさそうですね。素直に https://download.pytorch.org/tutorial/data.zip から data/eng-fra.txt をダウンロードします。135842 行ありますね。早速中身をみてみましょう。</td>\n",
"</tr>\n",
"</table>"
]
},
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"◆ データの冒頭\n",
"Go.\tVa !\n",
"Run!\tCours !\n",
"Run!\tCourez !\n",
"Wow!\tÇa alors !\n",
"Fire!\tAu feu !\n",
"Help!\tÀ l'aide !\n",
"Jump.\tSaute.\n",
"Stop!\tÇa suffit !\n",
"Stop!\tStop !\n",
"Stop!\tArrête-toi !\n"
]
}
],
"source": [
"print('◆ データの冒頭')\n",
"with open('./data/eng-fra.txt', mode='r') as ifile:\n",
" for i, line in enumerate(ifile):\n",
" if i == 10:\n",
" break\n",
" print(line.strip())"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<table width=\"100%\">\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">…ファイルは1語文から始まって徐々に語数の多い文章になっているようですが、Run! や Stop! に対応するフランス語文が複数あるのが気になりますね…。まあいいです、それで、各単語を one-hot ベクトルにするんですね。今回のチュートリアルでは各言語ごとに語彙を数千単語のみに絞るようです。「ちょっとごまかします」とあるように、現実的には単語数はこれでは足りないということですね。one-hot ベクトル化する前に各文章をプレ処理するんですが(以下)、やることとしては「小文字化」「アスキーコード化」「句点と感嘆符と疑問符の切り離し」「アルファベットと句点と感嘆符と疑問符以外の除去」でしょうか。…最終的に単語ベクトルを使用するのならば、文字種をアスキーに限定する必要があるんでしょうか? まあどうでもいいですが…。</td>\n",
"</tr>\n",
"</table>"
]
},
{
"cell_type": "code",
"execution_count": 2,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"◆ データの冒頭にプレ処理を適用\n",
"------------------------------\n",
"オリジナル Go. \t Va !\n",
"ASCII文字化 Go. \t Va !\n",
"記号トリム go . \t va !\n",
"------------------------------\n",
"オリジナル Run! \t Cours !\n",
"ASCII文字化 Run! \t Cours !\n",
"記号トリム run ! \t cours !\n",
"------------------------------\n",
"オリジナル Run! \t Courez !\n",
"ASCII文字化 Run! \t Courez !\n",
"記号トリム run ! \t courez !\n",
"------------------------------\n",
"オリジナル Wow! \t Ça alors !\n",
"ASCII文字化 Wow! \t Ca alors !\n",
"記号トリム wow ! \t ca alors !\n",
"------------------------------\n",
"オリジナル Fire! \t Au feu !\n",
"ASCII文字化 Fire! \t Au feu !\n",
"記号トリム fire ! \t au feu !\n",
"------------------------------\n",
"オリジナル Help! \t À l'aide !\n",
"ASCII文字化 Help! \t A l'aide !\n",
"記号トリム help ! \t a l aide !\n",
"------------------------------\n",
"オリジナル Jump. \t Saute.\n",
"ASCII文字化 Jump. \t Saute.\n",
"記号トリム jump . \t saute .\n",
"------------------------------\n",
"オリジナル Stop! \t Ça suffit !\n",
"ASCII文字化 Stop! \t Ca suffit !\n",
"記号トリム stop ! \t ca suffit !\n",
"------------------------------\n",
"オリジナル Stop! \t Stop !\n",
"ASCII文字化 Stop! \t Stop !\n",
"記号トリム stop ! \t stop !\n",
"------------------------------\n",
"オリジナル Stop! \t Arrête-toi !\n",
"ASCII文字化 Stop! \t Arrete-toi !\n",
"記号トリム stop ! \t arrete toi !\n"
]
}
],
"source": [
"import unicodedata\n",
"import re\n",
"\n",
"\n",
"# ユニコード文字集合をアスキー文字集合だけで表現する関数\n",
"# ここでは、元文字列の各文字を NFD という正規化形式で分解することで\n",
"# アクセント記号を分離し、アクセント記号は除去する\n",
"# 元コメント:\n",
"# Turn a Unicode string to plain ASCII, thanks to\n",
"# https://stackoverflow.com/a/518232/2809427\n",
"def unicodeToAscii(s):\n",
" return ''.join(\n",
" c for c in unicodedata.normalize('NFD', s)\n",
" if unicodedata.category(c) != 'Mn'\n",
" )\n",
"\n",
"\n",
"# 小文字化、アスキーコード化、句点と感嘆符と疑問符の切り離し、記号除去する関数\n",
"def normalizeString(s):\n",
" s = unicodeToAscii(s.lower().strip()) # 小文字化、アスキーコード化\n",
" s = re.sub(r\"([.!?])\", r\" \\1\", s) # 任意の文字に続く . ! ? の前に空白を挟む\n",
" s = re.sub(r\"[^a-zA-Z.!?]+\", r\" \", s) # アルファベット . ! ? 以外は除去\n",
" return s\n",
"\n",
"\n",
"print('◆ データの冒頭にプレ処理を適用')\n",
"with open('./data/eng-fra.txt', mode='r') as ifile:\n",
" for i, line in enumerate(ifile):\n",
" if i == 10:\n",
" break\n",
" pair = line.strip().split('\\t')\n",
" print('-'*30)\n",
" print('オリジナル ', pair[0], '\\t', pair[1])\n",
" print('ASCII文字化 ', unicodeToAscii(pair[0]), '\\t', unicodeToAscii(pair[1]))\n",
" print('記号トリム ', normalizeString(pair[0]), '\\t', normalizeString(pair[1]))"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<table width=\"100%\">\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">そして今回は簡単のために、全ての文章を学習するのではなく、「10単語未満」「特定のフレーズで始まる」文章に絞るようですね。</td>\n",
"</tr>\n",
"</table>"
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {},
"outputs": [],
"source": [
"# 今回は10単語未満の文章に絞る\n",
"MAX_LENGTH = 10\n",
"\n",
"# 今回は英文側が以下のフレーズで始まる文章に絞る\n",
"eng_prefixes = (\n",
" \"i am \", \"i m \",\n",
" \"he is\", \"he s \",\n",
" \"she is\", \"she s \",\n",
" \"you are\", \"you re \",\n",
" \"we are\", \"we re \",\n",
" \"they are\", \"they re \"\n",
")\n",
"\n",
"\n",
"def filterPair(p):\n",
" return len(p[0].split(' ')) < MAX_LENGTH and \\\n",
" len(p[1].split(' ')) < MAX_LENGTH and \\\n",
" p[1].startswith(eng_prefixes)\n",
"\n",
"\n",
"# 文章ペアのリストをフィルタする関数\n",
"def filterPairs(pairs):\n",
" return [pair for pair in pairs if filterPair(pair)]"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<table width=\"100%\">\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">ここまでで用意した関数を利用してデータを生成する処理が以下ですね。まずすべての文章ペアをロードし、対象の文章ペアに絞り込んだ上で、全ての単語の頻度をカウントしながらインデックスをふっています。</td>\n",
"</tr>\n",
"</table>"
]
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"135842 ペアを読み込みました\n",
"10599 ペアに絞り込みました\n",
"単語数は以下でした\n",
"fra 4345\n",
"eng 2803\n"
]
}
],
"source": [
"SOS_token = 0\n",
"EOS_token = 1\n",
"\n",
"\n",
"# ある語の語彙を管理するクラス\n",
"# 文章を流し込んでいくことで単語にインデックスをふり各単語の頻度もカウントする\n",
"class Lang:\n",
" def __init__(self, name):\n",
" self.name = name\n",
" self.word2index = {}\n",
" self.word2count = {}\n",
" self.index2word = {0: \"SOS\", 1: \"EOS\"}\n",
" self.n_words = 2 # Count SOS and EOS\n",
"\n",
" def addSentence(self, sentence):\n",
" for word in sentence.split(' '):\n",
" self.addWord(word)\n",
"\n",
" def addWord(self, word):\n",
" if word not in self.word2index:\n",
" self.word2index[word] = self.n_words\n",
" self.word2count[word] = 1\n",
" self.index2word[self.n_words] = word\n",
" self.n_words += 1\n",
" else:\n",
" self.word2count[word] += 1\n",
"\n",
"\n",
"# X語 Y語 のタグ区切り文章ペアがあるファイルから文章を正規化しながら読み取り、\n",
"# 文章ペアのリストを取り出す関数\n",
"# 順序を Y語 X語 に入れ替えて取り出すこともできる\n",
"def readLangs(lang1, lang2, reverse=False):\n",
" lines = open('./data/%s-%s.txt' % (lang1, lang2), encoding='utf-8').\\\n",
" read().strip().split('\\n')\n",
" pairs = [[normalizeString(s) for s in l.split('\\t')] for l in lines]\n",
"\n",
" if reverse:\n",
" pairs = [list(reversed(p)) for p in pairs]\n",
" input_lang = Lang(lang2)\n",
" output_lang = Lang(lang1)\n",
" else:\n",
" input_lang = Lang(lang1)\n",
" output_lang = Lang(lang2)\n",
"\n",
" return input_lang, output_lang, pairs\n",
"\n",
"\n",
"# ファイルから文章を読み込み、対象の文章にフィルタし、語彙を作成\n",
"def prepareData(lang1, lang2, reverse=False):\n",
" input_lang, output_lang, pairs = readLangs(lang1, lang2, reverse) # ファイルから文章取得\n",
" print(\"%s ペアを読み込みました\" % len(pairs))\n",
" pairs = filterPairs(pairs) # 10単語未満で特定のフレーズから始まる文章に絞り込み\n",
" print(\"%s ペアに絞り込みました\" % len(pairs))\n",
" # 語彙作成\n",
" for pair in pairs:\n",
" input_lang.addSentence(pair[0])\n",
" output_lang.addSentence(pair[1])\n",
" print(\"単語数は以下でした\")\n",
" print(input_lang.name, input_lang.n_words)\n",
" print(output_lang.name, output_lang.n_words)\n",
" return input_lang, output_lang, pairs\n",
"\n",
"\n",
"input_lang, output_lang, pairs = prepareData('eng', 'fra', True)"
]
},
{
"cell_type": "code",
"execution_count": 5,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"◆ データの冒頭\n",
"['j ai ans .', 'i m .']\n",
"['je vais bien .', 'i m ok .']\n",
"['ca va .', 'i m ok .']\n",
"['je suis gras .', 'i m fat .']\n",
"['je suis gros .', 'i m fat .']\n",
"['je suis en forme .', 'i m fit .']\n",
"['je suis touche !', 'i m hit !']\n",
"['je suis touchee !', 'i m hit !']\n",
"['je suis malade .', 'i m ill .']\n",
"['je suis triste .', 'i m sad .']\n"
]
}
],
"source": [
"print('◆ データの冒頭')\n",
"for i, pair in enumerate(pairs):\n",
" if i == 10:\n",
" break\n",
" print(pair)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<table width=\"100%\">\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">データが用意できましたが、これは単に文章のペアたちですから PyTorch の機械学習モデルに入れることはできませんね。単語に split して各単語をインデックスに直して PyTorch のテンソルにする必要があります。そのための関数を先に用意しておきましょう。文末には文末トークンを付けるようですね。</td>\n",
"</tr>\n",
"</table>"
]
},
{
"cell_type": "code",
"execution_count": 6,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"◆ 生データ\n",
"['j ai ans .', 'i m .']\n",
"\n",
"◆ インプットデータ\n",
"torch.Size([5, 1])\n",
"tensor([[2],\n",
" [3],\n",
" [4],\n",
" [5],\n",
" [1]])\n",
"\n",
"◆ ターゲットデータ\n",
"torch.Size([4, 1])\n",
"tensor([[2],\n",
" [3],\n",
" [4],\n",
" [1]])\n"
]
}
],
"source": [
"import torch\n",
"\n",
"\n",
"def indexesFromSentence(lang, sentence):\n",
" return [lang.word2index[word] for word in sentence.split(' ')]\n",
"\n",
"\n",
"def tensorFromSentence(lang, sentence):\n",
" indexes = indexesFromSentence(lang, sentence)\n",
" indexes.append(EOS_token)\n",
" return torch.tensor(indexes, dtype=torch.long, device='cpu').view(-1, 1)\n",
"\n",
"\n",
"def tensorsFromPair(pair):\n",
" input_tensor = tensorFromSentence(input_lang, pair[0])\n",
" target_tensor = tensorFromSentence(output_lang, pair[1])\n",
" return (input_tensor, target_tensor)\n",
"\n",
"\n",
"print('◆ 生データ')\n",
"print(pairs[0])\n",
"(input_tensor, target_tensor) = tensorsFromPair(pairs[0])\n",
"print('\\n◆ インプットデータ')\n",
"print(input_tensor.size())\n",
"print(input_tensor)\n",
"print('\\n◆ ターゲットデータ')\n",
"print(target_tensor.size())\n",
"print(target_tensor)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<h2 id=\"s2\" style=\"background: black; padding: 0.7em 1em 0.5em;color:white;\">seq2seq モデル</h2>\n",
"<table width=\"100%\">\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">肝心のモデルの話に入っていきますね。ここでは seq2seq モデルといって、エンコーダの RNN とデコーダの RNN をもつモデルを採用するのでしょうか。エンコーダが入力された文章を1つの特徴ベクトル(コンテクストベクトル)に変換し、デコーダがそれを出力文章に変換するようです。エンコードした特徴の空間の1点1点が入力された文章の「意味」なのだというようにもありますね。…というかこのようなモデルを seq2seq モデルというのですね。てっきり入力も出力もシーケンスなら何でも seq2seq モデルとよぶのかと。</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/2.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">チュートリアルが Sequence to Sequence network からリンクしているのは以下の論文だね。\n",
"<ul style=\"margin:0.3em 0\">\n",
"<li><a href=\"https://arxiv.org/abs/1409.3215\">[1409.3215] Sequence to Sequence Learning with Neural Networks</a></li>\n",
"</ul>\n",
"2014年の論文で、シーケンスをシーケンスにマッピングする汎用的なアプローチを提案すると。具体的には、入力シーケンスを多層LSTMで特徴ベクトルにエンコードし、それをまた別の多層LSTMで出力シーケンスにデコードするみたい。</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">はあ。その seq2seq モデルの方が RNN より機械翻訳に適しているとありますね。翻訳は単語を受け取る度に単語を出すという類のものではないからです。フランス語と英語では chat noir と black cat のように形容詞の位置も違いますし、それにフランス語には ne/pas 構造もありますし…ne/pas 構造とは?</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/2.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">フランス語の否定文は、多くの言語と違って、動詞を ne と pas で挟むみたいだね。\n",
"<ul style=\"margin:0.3em 0\">\n",
"<li><a href=\"https://ja.wikipedia.org/wiki/%E3%83%95%E3%83%A9%E3%83%B3%E3%82%B9%E8%AA%9E%E3%81%AE%E5%90%A6%E5%AE%9A%E6%96%87\">フランス語の否定文 - Wikipedia</a></li>\n",
"</ul>\n",
"だから必然的に単語数自体がずれる。先の前置修飾と後置修飾の違いもあるし、特に英仏翻訳では seq2seq モデルが適しているのかもしれない。\n",
"</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">ええ…フランス語は否定文の形式が変わっているんですね…しかしその記事の言語学的なサイクルは理解できるような。当初は動詞の前に否定表現を付けて、強調のために動詞の後にも否定表現を付けて、やがて後者のみが残るという。まあそれで、そのように翻訳というのはまず入力文を全て読み取った後出力文にするのがよいので、エンコーダとデコーダを構築するわけですが、エンコーダとデコーダに含まれている GRU なる層は何でしょう?\n",
"</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/2.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">チュートリアル冒頭で紹介があった以下の論文で導入されていて、LSTMより少しシンプルになっている再帰ニューラルネットワークだね。LSTM よりも自由度は少ないけどタスクの種類やデータサイズによってはLSTMと同等かそれ以上の性能が見込めるみたい。<ul style=\"margin:0.3em 0\">\n",
"<li><a href=\"https://arxiv.org/abs/1406.1078\">[1406.1078] Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation</a></li>\n",
"</ul>\n",
"もっとも、torch.nn.GRU は Fully Gated Unit なんだけど arxiv:1406.1078 の定式化とは少し違っている。後の論文で改良されたとかかな? 参考文献がなかったからわからないや。\n",
"<ul style=\"margin:0.3em 0\">\n",
"<li><a href=\"https://pytorch.org/docs/master/generated/torch.nn.GRU.html\">https://pytorch.org/docs/master/generated/torch.nn.GRU.html</a></li>\n",
"</ul>\n",
"</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">シンプルにしたLSTM? いや確かに LSTM よりすっきりしていますが、記憶セル c がないんですね。むしろ出力 h とされているものが記憶セルに近そうな…。\n",
"</td>\n",
"</tr>\n",
"</table>"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<h4>vanilla RNN と LSTM</h4>\n",
"<img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/lstm_gru_1.png\" width=\"600px\">\n",
"<h4>GRU</h4>\n",
"<img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/lstm_gru_2.png\" width=\"600px\">\n",
"<h4>torch.nn.GRU</h4>\n",
"<img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/lstm_gru_3.png\" width=\"600px\">"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<table width=\"100%\">\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">…まあそれで、エンコーダとデコーダは具体的には以下のコードですね。単語インデックスを高次元に埋め込んで GRU するだけです。エンコード時は特徴をどんどん積み重ねていき、デコード時は特徴をどんどん紐解いていくとイメージすればよいのでしょうか。コードの下に図も描いておきました。\n",
"</td>\n",
"</tr>\n",
"</table>"
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"◆ エンコーダの訓練対象パラメータ\n",
"embedding.weight torch.Size([4345, 256])\n",
"gru.weight_ih_l0 torch.Size([768, 256])\n",
"gru.weight_hh_l0 torch.Size([768, 256])\n",
"gru.bias_ih_l0 torch.Size([768])\n",
"gru.bias_hh_l0 torch.Size([768])\n",
"\n",
"◆ デコーダの訓練対象パラメータ\n",
"embedding.weight torch.Size([2803, 256])\n",
"gru.weight_ih_l0 torch.Size([768, 256])\n",
"gru.weight_hh_l0 torch.Size([768, 256])\n",
"gru.bias_ih_l0 torch.Size([768])\n",
"gru.bias_hh_l0 torch.Size([768])\n",
"out.weight torch.Size([2803, 256])\n",
"out.bias torch.Size([2803])\n"
]
}
],
"source": [
"import torch.nn as nn\n",
"from torch import optim\n",
"import torch.nn.functional as F\n",
"\n",
"class EncoderRNN(nn.Module):\n",
" def __init__(self, input_size, hidden_size):\n",
" super(EncoderRNN, self).__init__()\n",
" self.hidden_size = hidden_size\n",
" self.embedding = nn.Embedding(input_size, hidden_size)\n",
" self.gru = nn.GRU(hidden_size, hidden_size)\n",
"\n",
" def forward(self, input, hidden, debug=False):\n",
" if debug:\n",
" print('入力単語: ', input.size(), input)\n",
" print('入力特徴: ', hidden.size(), hidden[:,:,:3])\n",
" embedded = self.embedding(input).view(1, 1, -1)\n",
" if debug:\n",
" print('埋め込み後  : ', embedded.size(), embedded[:,:,:3])\n",
" output = embedded\n",
" output, hidden = self.gru(output, hidden)\n",
" if debug:\n",
" print('GRUの出力  : ', output.size(), output[:,:,:3])\n",
" print('GRUの隠れ状態: ', hidden.size(), hidden[:,:,:3])\n",
" print('(単語を1つずつ流しているので出力と隠れ状態は一致)')\n",
" return output, hidden\n",
"\n",
" def initHidden(self):\n",
" return torch.zeros(1, 1, self.hidden_size, device='cpu')\n",
"\n",
"class DecoderRNN(nn.Module):\n",
" def __init__(self, hidden_size, output_size):\n",
" super(DecoderRNN, self).__init__()\n",
" self.hidden_size = hidden_size\n",
"\n",
" self.embedding = nn.Embedding(output_size, hidden_size)\n",
" self.gru = nn.GRU(hidden_size, hidden_size)\n",
" self.out = nn.Linear(hidden_size, output_size)\n",
" self.softmax = nn.LogSoftmax(dim=1)\n",
"\n",
" def forward(self, input, hidden, debug=False):\n",
" if debug:\n",
" print('入力単語: ', input.size(), input)\n",
" print('入力特徴: ', hidden.size(), hidden[:,:,:3])\n",
" output = self.embedding(input).view(1, 1, -1)\n",
" output = F.relu(output)\n",
" output, hidden = self.gru(output, hidden)\n",
" if debug:\n",
" print('GRUの出力  : ', output.size(), output[:,:,:3])\n",
" print('GRUの隠れ状態: ', hidden.size(), hidden[:,:,:3])\n",
" print('(単語を1つずつ流しているので出力と隠れ状態は一致)')\n",
" output = self.softmax(self.out(output[0]))\n",
" if debug:\n",
" print('最終出力   : ', output.size(), output[:,:3])\n",
" return output, hidden\n",
"\n",
" def initHidden(self):\n",
" return torch.zeros(1, 1, self.hidden_size, device='cpu')\n",
"\n",
"hidden_size = 256\n",
"encoder = EncoderRNN(input_lang.n_words, hidden_size).to('cpu')\n",
"decoder = DecoderRNN(hidden_size, output_lang.n_words).to('cpu')\n",
"\n",
"print('◆ エンコーダの訓練対象パラメータ')\n",
"for name, param in encoder.named_parameters():\n",
" print(name.ljust(14), param.size())\n",
" \n",
"print('\\n◆ デコーダの訓練対象パラメータ')\n",
"for name, param in decoder.named_parameters():\n",
" print(name.ljust(14), param.size())"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<h4>エンコーダとデコーダ</h4>\n",
"<img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/encoder_decoder_simple.png\" width=\"720px\">"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<table width=\"100%\">\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/2.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">仏英翻訳だから、エンコーダにはフランス語の文章を1単語ずつ入れていくことになるね。1単語入れる度にエンコーダから特徴が出力される。1つの文章を入れ終わった最終的な特徴がコンテクストベクトルだね。コンテクストが得られたら、デコーダに文頭トークンとコンテクストベクトルを入れることで1語ずつ単語を取り出す。文末トークンが出てきたらデコードは終了って感じなのかな。\n",
"</td>\n",
"</tr>\n",
"</table>"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<h4>翻訳の流れ</h4>\n",
"<img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/encoder_decoder_simple_example.png\" width=\"720px\">"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<table width=\"100%\">\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">実際に翻訳をシミュレーションしてみましょう。無論、まだエンコーダもデコーダも学習していませんので、エンコードとデコードはでたらめです。その状態でデコーダが文末トークンを出すまでデコードを続けることはできませんので、デコーダから3単語まで取り出してみましょう。\n",
"</td>\n",
"</tr>\n",
"</table>"
]
},
{
"cell_type": "code",
"execution_count": 8,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"◆ エンコーダに1つ目のデータを流してみる\n",
"\n",
"◇ インプットデータ\n",
"['j', 'ai', 'ans', '.', '<EOS>']\n",
"tensor([[2],\n",
" [3],\n",
" [4],\n",
" [5],\n",
" [1]])\n",
"\n",
"◇ 流す単語: j\n",
"入力単語: torch.Size([1]) tensor([2])\n",
"入力特徴: torch.Size([1, 1, 256]) tensor([[[0., 0., 0.]]])\n",
"埋め込み後  : torch.Size([1, 1, 256]) tensor([[[ 2.2760, -0.3344, -1.0179]]], grad_fn=<SliceBackward>)\n",
"GRUの出力  : torch.Size([1, 1, 256]) tensor([[[ 0.3953, 0.1218, -0.2691]]], grad_fn=<SliceBackward>)\n",
"GRUの隠れ状態: torch.Size([1, 1, 256]) tensor([[[ 0.3953, 0.1218, -0.2691]]], grad_fn=<SliceBackward>)\n",
"(単語を1つずつ流しているので出力と隠れ状態は一致)\n",
"\n",
"◇ 流す単語: ai\n",
"入力単語: torch.Size([1]) tensor([3])\n",
"入力特徴: torch.Size([1, 1, 256]) tensor([[[ 0.3953, 0.1218, -0.2691]]], grad_fn=<SliceBackward>)\n",
"埋め込み後  : torch.Size([1, 1, 256]) tensor([[[ 1.1942, 0.1348, -0.2386]]], grad_fn=<SliceBackward>)\n",
"GRUの出力  : torch.Size([1, 1, 256]) tensor([[[ 0.2106, 0.3436, -0.1310]]], grad_fn=<SliceBackward>)\n",
"GRUの隠れ状態: torch.Size([1, 1, 256]) tensor([[[ 0.2106, 0.3436, -0.1310]]], grad_fn=<SliceBackward>)\n",
"(単語を1つずつ流しているので出力と隠れ状態は一致)\n",
"\n",
"◇ 流す単語: ans\n",
"入力単語: torch.Size([1]) tensor([4])\n",
"入力特徴: torch.Size([1, 1, 256]) tensor([[[ 0.2106, 0.3436, -0.1310]]], grad_fn=<SliceBackward>)\n",
"埋め込み後  : torch.Size([1, 1, 256]) tensor([[[ 0.9443, -2.1165, 0.0393]]], grad_fn=<SliceBackward>)\n",
"GRUの出力  : torch.Size([1, 1, 256]) tensor([[[0.1656, 0.1648, 0.0926]]], grad_fn=<SliceBackward>)\n",
"GRUの隠れ状態: torch.Size([1, 1, 256]) tensor([[[0.1656, 0.1648, 0.0926]]], grad_fn=<SliceBackward>)\n",
"(単語を1つずつ流しているので出力と隠れ状態は一致)\n",
"\n",
"◇ 流す単語: .\n",
"入力単語: torch.Size([1]) tensor([5])\n",
"入力特徴: torch.Size([1, 1, 256]) tensor([[[0.1656, 0.1648, 0.0926]]], grad_fn=<SliceBackward>)\n",
"埋め込み後  : torch.Size([1, 1, 256]) tensor([[[-0.1602, 1.2487, -0.6368]]], grad_fn=<SliceBackward>)\n",
"GRUの出力  : torch.Size([1, 1, 256]) tensor([[[ 0.2673, 0.3713, -0.1989]]], grad_fn=<SliceBackward>)\n",
"GRUの隠れ状態: torch.Size([1, 1, 256]) tensor([[[ 0.2673, 0.3713, -0.1989]]], grad_fn=<SliceBackward>)\n",
"(単語を1つずつ流しているので出力と隠れ状態は一致)\n",
"\n",
"◇ 流す単語: <EOS>\n",
"入力単語: torch.Size([1]) tensor([1])\n",
"入力特徴: torch.Size([1, 1, 256]) tensor([[[ 0.2673, 0.3713, -0.1989]]], grad_fn=<SliceBackward>)\n",
"埋め込み後  : torch.Size([1, 1, 256]) tensor([[[-1.7645, -0.4975, -0.2195]]], grad_fn=<SliceBackward>)\n",
"GRUの出力  : torch.Size([1, 1, 256]) tensor([[[ 0.5425, 0.0323, -0.4908]]], grad_fn=<SliceBackward>)\n",
"GRUの隠れ状態: torch.Size([1, 1, 256]) tensor([[[ 0.5425, 0.0323, -0.4908]]], grad_fn=<SliceBackward>)\n",
"(単語を1つずつ流しているので出力と隠れ状態は一致)\n",
"\n",
"◇ コンテクストベクトル\n",
"torch.Size([1, 1, 256]) tensor([[[ 0.5425, 0.0323, -0.4908, 0.2291]]], grad_fn=<SliceBackward>)\n",
"\n",
"\n",
"◆ コンテクストベクトルをデコードしてみる\n",
"\n",
"◇ 1単語目を取り出す\n",
"入力単語: torch.Size([1, 1]) tensor([[0]])\n",
"入力特徴: torch.Size([1, 1, 256]) tensor([[[ 0.5425, 0.0323, -0.4908]]], grad_fn=<SliceBackward>)\n",
"GRUの出力  : torch.Size([1, 1, 256]) tensor([[[ 0.1666, 0.0783, -0.2216]]], grad_fn=<SliceBackward>)\n",
"GRUの隠れ状態: torch.Size([1, 1, 256]) tensor([[[ 0.1666, 0.0783, -0.2216]]], grad_fn=<SliceBackward>)\n",
"(単語を1つずつ流しているので出力と隠れ状態は一致)\n",
"最終出力   : torch.Size([1, 2803]) tensor([[-7.8665, -7.9430, -7.9727]], grad_fn=<SliceBackward>)\n",
"デコード結果: 2462 --> space\n",
"\n",
"◇ 2単語目を取り出す\n",
"入力単語: torch.Size([]) tensor(2462)\n",
"入力特徴: torch.Size([1, 1, 256]) tensor([[[ 0.1666, 0.0783, -0.2216]]], grad_fn=<SliceBackward>)\n",
"GRUの出力  : torch.Size([1, 1, 256]) tensor([[[0.0473, 0.1050, 0.2641]]], grad_fn=<SliceBackward>)\n",
"GRUの隠れ状態: torch.Size([1, 1, 256]) tensor([[[0.0473, 0.1050, 0.2641]]], grad_fn=<SliceBackward>)\n",
"(単語を1つずつ流しているので出力と隠れ状態は一致)\n",
"最終出力   : torch.Size([1, 2803]) tensor([[-7.8839, -7.9633, -7.9360]], grad_fn=<SliceBackward>)\n",
"デコード結果: 2779 --> attitude\n",
"\n",
"◇ 3単語目を取り出す\n",
"入力単語: torch.Size([]) tensor(2779)\n",
"入力特徴: torch.Size([1, 1, 256]) tensor([[[0.0473, 0.1050, 0.2641]]], grad_fn=<SliceBackward>)\n",
"GRUの出力  : torch.Size([1, 1, 256]) tensor([[[0.0404, 0.1833, 0.4872]]], grad_fn=<SliceBackward>)\n",
"GRUの隠れ状態: torch.Size([1, 1, 256]) tensor([[[0.0404, 0.1833, 0.4872]]], grad_fn=<SliceBackward>)\n",
"(単語を1つずつ流しているので出力と隠れ状態は一致)\n",
"最終出力   : torch.Size([1, 2803]) tensor([[-7.9407, -8.0491, -7.8913]], grad_fn=<SliceBackward>)\n",
"デコード結果: 773 --> fairly\n"
]
}
],
"source": [
"print('◆ エンコーダに1つ目のデータを流してみる')\n",
"input_words = pairs[0][0].split(' ') + ['<EOS>']\n",
"(input_tensor, target_tensor) = tensorsFromPair(pairs[0])\n",
"print('\\n◇ インプットデータ')\n",
"print(input_words)\n",
"print(input_tensor)\n",
"input_length = input_tensor.size(0)\n",
"hidden = encoder.initHidden()\n",
"for ei in range(input_length):\n",
" print('\\n◇ 流す単語: ' + input_words[ei])\n",
" output, hidden = encoder.forward(input_tensor[ei], hidden, debug=True)\n",
"print('\\n◇ コンテクストベクトル')\n",
"print(output.size(), output[:,:,:4])\n",
"\n",
"print('\\n\\n◆ コンテクストベクトルをデコードしてみる')\n",
"input = torch.tensor([[SOS_token]], device='cpu')\n",
"for di in range(3):\n",
" print('\\n◇ {}単語目を取り出す'.format(di + 1))\n",
" output, hidden = decoder.forward(input, hidden, debug=True)\n",
" topv, topi = output.data.topk(1)\n",
" print('デコード結果: {} --> {}'.format(topi.item(), output_lang.index2word[topi.item()]))\n",
" input = topi.squeeze().detach()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<table width=\"100%\">\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">デコーダから順次単語が取り出されますが、無論意味のある文章にはみえませんね…。\n",
"</td>\n",
"</tr>\n",
"</table>"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<h2 id=\"s3\" style=\"background: black; padding: 0.7em 1em 0.5em;color:white;\">アテンションデコーダの導入</h2>\n",
"<table width=\"100%\">\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">でたらめのエンコーダとデコーダではまったく何もうれしくないですね。早く学習させたいです。どのように学習させるんです?\n",
"</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/2.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">あ、実際には上で導入したデコーダじゃなくてアテンション付きデコーダをつかうんだって。\n",
"</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">アテンション?\n",
"</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/2.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">さっき導入したエンコーダとデコーダだと、エンコーダの最終ステップでの出力であるコンテキストベクトルが文章の情報を一身に背負わなければならなくて、負担が大きいらしい。だから、エンコーダの毎ステップの出力をすべてつかうことにする。\n",
"</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">ええ…負担が大きいなら最初からそうすればよかったじゃないですか。…毎ステップの出力をすべてデコーダに突っ込むなら、もう GRU で再帰させなくてもいいのでは? 単に個々の単語をエンコードしてデコーダに渡せばいいでしょう?\n",
"</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/2.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">それは違うと思うかな。ある単語がどんな意味的な特徴をもつかは、やっぱり文脈に依存するよ。だから、単語を個別にエンコードするんじゃなくて、GRU で再帰させながら各ステップの特徴をつくるのは理に適っていると思う(このチュートリアルでは一方向だけど、逆方向からも再帰させたくなってくるね)。無論、ニューラルネットはどんな関数も表現してくれることが期待されるけど、だからといって各単語をばらばらにエンコードしたものをデコーダに丸投げじゃそれこそデコーダの負担が大きすぎると思うよ。\n",
"</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">それは確かにそんな気も…では、アテンションとは何です? 日本語に訳すと「注意」ですか? 何に注意する必要があるというんです?\n",
"</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/2.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">デコード時に常にエンコーダの全てのステップの出力をつかうんだけど、実際は、最初の単語を出したいときに、文章全体の特徴をすべてつかいたいわけでもないってことだと思う。X 語から Y 語に翻訳するとき、もしかしたらこの2つの言語は文法が違って語順が違うかもしれないけど、Y 語に翻訳した文章の文頭に来るべき単語の意味は、元の X 語の文章の2番目の単語の意味に対応するとか、なんかそんな意味的な対応はあるはずなんだよね。その場合、最初の単語のデコード時には、エンコード時に2番目に吐き出された特徴だけに特に「注意」したい。その注意すべき箇所を指示するのがアテンション機構だね。注意すべきなのは1箇所とは限らないかもね。もしフランス語から翻訳するなら ne と pas の2箇所に注意することもあるかもしれないから。\n",
"</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">なるほど…わかりましたよ! アテンションがうれしいのは、フランス語も英語も人間の自然言語だからですね? だって、フランス語を宇宙語に翻訳するのだったら、言葉の体系が違いすぎて、フランス語の何単語目に対応するかなんていうのが意味を成さないかもしれません。そのような場合は、やはり常に全てのステップの特徴を利用した方がいいでしょう?\n",
"</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/2.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">え、うん…そこまで概念が違う宇宙人の言葉だったら翻訳という行為が意味を成すのかもあやしいんじゃないかな…。\n",
"</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">下図でいうと、いま何番目の単語に注意すべきかが「アテンションの重み」ですね。もしこのベクトル第1成分と第3成分が大きくなっていたら元の文章の1ステップ目と3ステップ目の特徴に注意せよということですか。それでその重みにしたがって特徴を抜き出して、それをここでは attn_combine と名付けた層で前回デコードした単語の表現に混ぜ込んでいますね? …これ、attn_combine せずに抜き出した特徴をそのまま GRU に突っ込むのでは駄目なんですか? GRU は結局「前回デコードした単語」「元文章の注目すべき位置の特徴」「現在未デコードのコンテクスト」を受け取って出力する特徴をつくるのでしょう? attn_combine しなくても同じであるように思うんですが。\n",
"</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/2.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">attn_combine した上で活性化しているからモデルとして等価じゃないよ。…そうだな、これは全くあやしいイメージだけど、「前回デコードした単語」が「水」だったとして、「水」はいま「飲むもの」という特徴と「浴びるもの」という特徴をもっているとするよ。それで、「元文章の注目すべき位置の特徴」が、「飲み食いする」という特徴をもっているとする。このとき、「水」の「飲むもの」という特徴の方だけを活性化した状態で GRU に流したいんじゃないかな。\n",
"</td>\n",
"</tr>\n",
"</table>"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<h4>アテンション付きデコーダ</h4>\n",
"<img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/attndecoder.png\" width=\"720px\">\n",
"<h4>アテンション付きデコーダの場合の翻訳の流れ</h4>\n",
"<img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/encoder_attndecoder_example.png\" width=\"720px\">"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<table width=\"100%\">\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/2.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">まあそれで、アテンション付きデコーダのコードは以下だね。元の文章のどこに注意するかをいつも計算するから、必然的に MAX_LENGTH を指定することが必要になるよ。forward メソッドが attn_weights も返しているけどこれは後々どこに注目しているか可視化したいからってだけだね。attn_weights を取り出しても次のステップでこれをまた入力するってことはないから。翻訳のシミュレーションもしてみるね。\n",
"</td>\n",
"</tr>\n",
"</table>"
]
},
{
"cell_type": "code",
"execution_count": 9,
"metadata": {
"scrolled": false
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"\n",
"◆ アテンションデコーダの訓練対象パラメータ\n",
"embedding.weight torch.Size([2803, 256])\n",
"attn.weight torch.Size([10, 512])\n",
"attn.bias torch.Size([10])\n",
"attn_combine.weight torch.Size([256, 512])\n",
"attn_combine.bias torch.Size([256])\n",
"gru.weight_ih_l0 torch.Size([768, 256])\n",
"gru.weight_hh_l0 torch.Size([768, 256])\n",
"gru.bias_ih_l0 torch.Size([768])\n",
"gru.bias_hh_l0 torch.Size([768])\n",
"out.weight torch.Size([2803, 256])\n",
"out.bias torch.Size([2803])\n",
"\n",
"\n",
"◆ エンコーダに1つ目のデータを流してみる\n",
"\n",
"◇ インプットデータ\n",
"['j', 'ai', 'ans', '.', '<EOS>']\n",
"tensor([[2],\n",
" [3],\n",
" [4],\n",
" [5],\n",
" [1]])\n",
"\n",
"◇ 流す単語: j\n",
"入力単語: torch.Size([1]) tensor([2])\n",
"入力特徴: torch.Size([1, 1, 256]) tensor([[[0.0404, 0.1833, 0.4872]]], grad_fn=<SliceBackward>)\n",
"埋め込み後  : torch.Size([1, 1, 256]) tensor([[[ 2.2760, -0.3344, -1.0179]]], grad_fn=<SliceBackward>)\n",
"GRUの出力  : torch.Size([1, 1, 256]) tensor([[[0.4548, 0.2750, 0.0232]]], grad_fn=<SliceBackward>)\n",
"GRUの隠れ状態: torch.Size([1, 1, 256]) tensor([[[0.4548, 0.2750, 0.0232]]], grad_fn=<SliceBackward>)\n",
"(単語を1つずつ流しているので出力と隠れ状態は一致)\n",
"\n",
"◇ 流す単語: ai\n",
"入力単語: torch.Size([1]) tensor([3])\n",
"入力特徴: torch.Size([1, 1, 256]) tensor([[[0.4548, 0.2750, 0.0232]]], grad_fn=<SliceBackward>)\n",
"埋め込み後  : torch.Size([1, 1, 256]) tensor([[[ 1.1942, 0.1348, -0.2386]]], grad_fn=<SliceBackward>)\n",
"GRUの出力  : torch.Size([1, 1, 256]) tensor([[[0.2415, 0.4507, 0.0896]]], grad_fn=<SliceBackward>)\n",
"GRUの隠れ状態: torch.Size([1, 1, 256]) tensor([[[0.2415, 0.4507, 0.0896]]], grad_fn=<SliceBackward>)\n",
"(単語を1つずつ流しているので出力と隠れ状態は一致)\n",
"\n",
"◇ 流す単語: ans\n",
"入力単語: torch.Size([1]) tensor([4])\n",
"入力特徴: torch.Size([1, 1, 256]) tensor([[[0.2415, 0.4507, 0.0896]]], grad_fn=<SliceBackward>)\n",
"埋め込み後  : torch.Size([1, 1, 256]) tensor([[[ 0.9443, -2.1165, 0.0393]]], grad_fn=<SliceBackward>)\n",
"GRUの出力  : torch.Size([1, 1, 256]) tensor([[[0.1783, 0.2456, 0.2012]]], grad_fn=<SliceBackward>)\n",
"GRUの隠れ状態: torch.Size([1, 1, 256]) tensor([[[0.1783, 0.2456, 0.2012]]], grad_fn=<SliceBackward>)\n",
"(単語を1つずつ流しているので出力と隠れ状態は一致)\n",
"\n",
"◇ 流す単語: .\n",
"入力単語: torch.Size([1]) tensor([5])\n",
"入力特徴: torch.Size([1, 1, 256]) tensor([[[0.1783, 0.2456, 0.2012]]], grad_fn=<SliceBackward>)\n",
"埋め込み後  : torch.Size([1, 1, 256]) tensor([[[-0.1602, 1.2487, -0.6368]]], grad_fn=<SliceBackward>)\n",
"GRUの出力  : torch.Size([1, 1, 256]) tensor([[[ 0.2808, 0.4214, -0.1628]]], grad_fn=<SliceBackward>)\n",
"GRUの隠れ状態: torch.Size([1, 1, 256]) tensor([[[ 0.2808, 0.4214, -0.1628]]], grad_fn=<SliceBackward>)\n",
"(単語を1つずつ流しているので出力と隠れ状態は一致)\n",
"\n",
"◇ 流す単語: <EOS>\n",
"入力単語: torch.Size([1]) tensor([1])\n",
"入力特徴: torch.Size([1, 1, 256]) tensor([[[ 0.2808, 0.4214, -0.1628]]], grad_fn=<SliceBackward>)\n",
"埋め込み後  : torch.Size([1, 1, 256]) tensor([[[-1.7645, -0.4975, -0.2195]]], grad_fn=<SliceBackward>)\n",
"GRUの出力  : torch.Size([1, 1, 256]) tensor([[[ 0.5484, 0.0680, -0.4703]]], grad_fn=<SliceBackward>)\n",
"GRUの隠れ状態: torch.Size([1, 1, 256]) tensor([[[ 0.5484, 0.0680, -0.4703]]], grad_fn=<SliceBackward>)\n",
"(単語を1つずつ流しているので出力と隠れ状態は一致)\n",
"\n",
"◇ 特徴ベクトル(全ステップ分)\n",
"torch.Size([10, 256])\n",
"\n",
"\n",
"◆ アテンションデコーダでデコードしてみる\n",
"\n",
"◇ 1単語目を取り出す\n",
"入力単語: torch.Size([1, 1]) tensor([[0]])\n",
"入力特徴: torch.Size([1, 1, 256]) tensor([[[ 0.5484, 0.0680, -0.4703]]], grad_fn=<SliceBackward>)\n",
"埋め込み後  : torch.Size([1, 1, 256]) tensor([[[ 0.1673, 0.0688, -1.0163]]], grad_fn=<SliceBackward>)\n",
"アテンションの重み: torch.Size([1, 10]) tensor([[0.1398, 0.0967, 0.0651]], grad_fn=<SliceBackward>)\n",
"アテンションを整形: torch.Size([1, 1, 10])\n",
"エンコーダの全ステップの特徴を整形: torch.Size([1, 10, 256])\n",
"アテンション適用後特徴: torch.Size([1, 1, 256]) tensor([[[ 0.1741, 0.1527, -0.0307]]], grad_fn=<SliceBackward>)\n",
"中間特徴: torch.Size([1, 1, 256]) tensor([[[ 0.1741, 0.1527, -0.0307]]], grad_fn=<SliceBackward>)\n",
"GRUの出力  : torch.Size([1, 1, 256]) tensor([[[ 0.3746, 0.0825, -0.2456]]], grad_fn=<SliceBackward>)\n",
"GRUの隠れ状態: torch.Size([1, 1, 256]) tensor([[[ 0.3746, 0.0825, -0.2456]]], grad_fn=<SliceBackward>)\n",
"(単語を1つずつ流しているので出力と隠れ状態は一致)\n",
"デコード結果: 475 --> london\n",
"\n",
"◇ 2単語目を取り出す\n",
"入力単語: torch.Size([]) tensor(475)\n",
"入力特徴: torch.Size([1, 1, 256]) tensor([[[ 0.3746, 0.0825, -0.2456]]], grad_fn=<SliceBackward>)\n",
"埋め込み後  : torch.Size([1, 1, 256]) tensor([[[-1.0136, -0.0224, -0.3247]]], grad_fn=<SliceBackward>)\n",
"アテンションの重み: torch.Size([1, 10]) tensor([[0.1452, 0.1399, 0.0683]], grad_fn=<SliceBackward>)\n",
"アテンションを整形: torch.Size([1, 1, 10])\n",
"エンコーダの全ステップの特徴を整形: torch.Size([1, 10, 256])\n",
"アテンション適用後特徴: torch.Size([1, 1, 256]) tensor([[[ 0.1713, 0.1520, -0.0162]]], grad_fn=<SliceBackward>)\n",
"中間特徴: torch.Size([1, 1, 256]) tensor([[[ 0.1713, 0.1520, -0.0162]]], grad_fn=<SliceBackward>)\n",
"GRUの出力  : torch.Size([1, 1, 256]) tensor([[[ 0.2943, 0.0746, -0.1321]]], grad_fn=<SliceBackward>)\n",
"GRUの隠れ状態: torch.Size([1, 1, 256]) tensor([[[ 0.2943, 0.0746, -0.1321]]], grad_fn=<SliceBackward>)\n",
"(単語を1つずつ流しているので出力と隠れ状態は一致)\n",
"デコード結果: 1595 --> body\n",
"\n",
"◇ 3単語目を取り出す\n",
"入力単語: torch.Size([]) tensor(1595)\n",
"入力特徴: torch.Size([1, 1, 256]) tensor([[[ 0.2943, 0.0746, -0.1321]]], grad_fn=<SliceBackward>)\n",
"埋め込み後  : torch.Size([1, 1, 256]) tensor([[[ 1.9083, 0.1592, -0.1315]]], grad_fn=<SliceBackward>)\n",
"アテンションの重み: torch.Size([1, 10]) tensor([[0.0522, 0.0777, 0.1844]], grad_fn=<SliceBackward>)\n",
"アテンションを整形: torch.Size([1, 1, 10])\n",
"エンコーダの全ステップの特徴を整形: torch.Size([1, 10, 256])\n",
"アテンション適用後特徴: torch.Size([1, 1, 256]) tensor([[[ 0.1601, 0.1209, -0.0242]]], grad_fn=<SliceBackward>)\n",
"中間特徴: torch.Size([1, 1, 256]) tensor([[[ 0.1601, 0.1209, -0.0242]]], grad_fn=<SliceBackward>)\n",
"GRUの出力  : torch.Size([1, 1, 256]) tensor([[[ 0.0315, 0.0151, -0.1499]]], grad_fn=<SliceBackward>)\n",
"GRUの隠れ状態: torch.Size([1, 1, 256]) tensor([[[ 0.0315, 0.0151, -0.1499]]], grad_fn=<SliceBackward>)\n",
"(単語を1つずつ流しているので出力と隠れ状態は一致)\n",
"デコード結果: 2741 --> diplomat\n"
]
}
],
"source": [
"import torch\n",
"import torch.nn as nn\n",
"from torch import optim\n",
"import torch.nn.functional as F\n",
"\n",
"class AttnDecoderRNN(nn.Module):\n",
" def __init__(self, hidden_size, output_size, dropout_p=0.1, max_length=MAX_LENGTH):\n",
" super(AttnDecoderRNN, self).__init__()\n",
" self.hidden_size = hidden_size\n",
" self.output_size = output_size\n",
" self.dropout_p = dropout_p\n",
" self.max_length = max_length\n",
"\n",
" self.embedding = nn.Embedding(self.output_size, self.hidden_size)\n",
" self.attn = nn.Linear(self.hidden_size * 2, self.max_length)\n",
" self.attn_combine = nn.Linear(self.hidden_size * 2, self.hidden_size)\n",
" self.dropout = nn.Dropout(self.dropout_p)\n",
" self.gru = nn.GRU(self.hidden_size, self.hidden_size)\n",
" self.out = nn.Linear(self.hidden_size, self.output_size)\n",
"\n",
" def forward(self, input, hidden, encoder_outputs, debug=False):\n",
" if debug:\n",
" print('入力単語: ', input.size(), input)\n",
" print('入力特徴: ', hidden.size(), hidden[:,:,:3])\n",
" embedded = self.embedding(input).view(1, 1, -1)\n",
" embedded = self.dropout(embedded)\n",
" if debug:\n",
" print('埋め込み後  : ', embedded.size(), embedded[:,:,:3])\n",
"\n",
" attn_weights = F.softmax(\n",
" self.attn(torch.cat((embedded[0], hidden[0]), 1)), dim=1)\n",
" if debug:\n",
" print('アテンションの重み: ', attn_weights.size(), attn_weights[:,:3])\n",
" print('アテンションを整形: ', attn_weights.unsqueeze(0).size())\n",
" print('エンコーダの全ステップの特徴を整形: ', encoder_outputs.unsqueeze(0).size())\n",
" attn_applied = torch.bmm(attn_weights.unsqueeze(0),\n",
" encoder_outputs.unsqueeze(0))\n",
" if debug:\n",
" print('アテンション適用後特徴: ', attn_applied.size(), attn_applied[:,:, :3])\n",
"\n",
" output = torch.cat((embedded[0], attn_applied[0]), 1)\n",
" output = self.attn_combine(output).unsqueeze(0)\n",
" output = F.relu(output)\n",
" if debug:\n",
" print('中間特徴: ', attn_applied.size(), attn_applied[:,:, :3])\n",
" \n",
" output, hidden = self.gru(output, hidden)\n",
" if debug:\n",
" print('GRUの出力  : ', output.size(), output[:,:,:3])\n",
" print('GRUの隠れ状態: ', hidden.size(), hidden[:,:,:3])\n",
" print('(単語を1つずつ流しているので出力と隠れ状態は一致)')\n",
"\n",
" output = F.log_softmax(self.out(output[0]), dim=1)\n",
" return output, hidden, attn_weights\n",
"\n",
" def initHidden(self):\n",
" return torch.zeros(1, 1, self.hidden_size, device='cpu')\n",
"\n",
"\n",
"hidden_size = 256\n",
"del decoder\n",
"decoder = AttnDecoderRNN(hidden_size, output_lang.n_words).to('cpu')\n",
"\n",
"\n",
"print('\\n◆ アテンションデコーダの訓練対象パラメータ')\n",
"for name, param in decoder.named_parameters():\n",
" print(name.ljust(14), param.size())\n",
" \n",
"print('\\n\\n◆ エンコーダに1つ目のデータを流してみる')\n",
"input_words = pairs[0][0].split(' ') + ['<EOS>']\n",
"(input_tensor, target_tensor) = tensorsFromPair(pairs[0])\n",
"print('\\n◇ インプットデータ')\n",
"print(input_words)\n",
"print(input_tensor)\n",
"input_length = input_tensor.size(0)\n",
"encoder_hidden = encoder.initHidden()\n",
"encoder_outputs = torch.zeros(MAX_LENGTH, encoder.hidden_size, device='cpu')\n",
"for ei in range(input_length):\n",
" print('\\n◇ 流す単語: ' + input_words[ei])\n",
" output, hidden = encoder.forward(input_tensor[ei], hidden, debug=True)\n",
" encoder_outputs[ei] += output[0, 0]\n",
"print('\\n◇ 特徴ベクトル(全ステップ分)')\n",
"print(encoder_outputs.size())\n",
"\n",
"print('\\n\\n◆ アテンションデコーダでデコードしてみる')\n",
"input = torch.tensor([[SOS_token]], device='cpu')\n",
"for di in range(3):\n",
" print('\\n◇ {}単語目を取り出す'.format(di + 1))\n",
" output, hidden, decoder_attention = decoder.forward(input, hidden, encoder_outputs, debug=True)\n",
" topv, topi = output.data.topk(1)\n",
" print('デコード結果: {} --> {}'.format(topi.item(), output_lang.index2word[topi.item()]))\n",
" input = topi.squeeze().detach()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<h2 id=\"s4\" style=\"background: black; padding: 0.7em 1em 0.5em;color:white;\">モデルの訓練</h2>\n",
"<table width=\"100%\">\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">では、エンコーダとアテンション付きデコーダはどうやって訓練するのでしょう? まあ、翻訳をシミュレーションしてみたのでこうやって出てくる文章を正解の文章に寄らせていけばいいのはわかりますが、今回の場合、損失は何になるんでしょうか?\n",
"</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/2.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">損失としては単に各ステップの出力の交差エントロピー(F.log_softmax + nn.NLLLoss)を足し上げてるね。あと、訓練時に“Teacher forcing”ということもするみたい。\n",
"</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">何ですかそれは?\n",
"</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/2.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">上のシミュレーションでもやったように、最初はでたらめな単語がデコードされてきちゃうよね。そうするとデコードの2ステップ目以降、前回の単語がでたらめな状態でデコードしていくことになっちゃって、これじゃなかなか学習が進まない。だから、確率的に前回の単語として正解の単語を入れちゃうってことらしい。そうすると収束が速いと。ただ反面、モデルが不安定になりやすいってある。カンニングしながら訓練しちゃってるようなものだしね…以下のチュートリアルのコードでは、正解の単語を入れる確率 teacher_forcing_ratio が 0.5 になっているけど、本当は徐々に下げていくものなんじゃないのかな…? 実際にはどうなんだろう…。\n",
"</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">なるほど。「教師あり学習」というか、「教師がときどき代わりに回答を書き込んでくる学習」ですか。それで、以下の train が1対の文章ペアを入れてモデルを更新する関数ですね。\n",
"</td>\n",
"</tr>\n",
"</table>"
]
},
{
"cell_type": "code",
"execution_count": 10,
"metadata": {},
"outputs": [],
"source": [
"import random\n",
"\n",
"\n",
"teacher_forcing_ratio = 0.5\n",
"\n",
"# 1対の文章ペアを入れてモデルを更新する関数\n",
"def train(input_tensor, target_tensor, encoder, decoder, \n",
" encoder_optimizer, decoder_optimizer, criterion, \n",
" max_length=MAX_LENGTH):\n",
" encoder_hidden = encoder.initHidden()\n",
"\n",
" encoder_optimizer.zero_grad()\n",
" decoder_optimizer.zero_grad()\n",
"\n",
" input_length = input_tensor.size(0)\n",
" target_length = target_tensor.size(0)\n",
"\n",
" encoder_outputs = torch.zeros(max_length, encoder.hidden_size, device='cpu')\n",
"\n",
" loss = 0\n",
"\n",
" for ei in range(input_length):\n",
" encoder_output, encoder_hidden = encoder(\n",
" input_tensor[ei], encoder_hidden)\n",
" encoder_outputs[ei] = encoder_output[0, 0]\n",
"\n",
" decoder_input = torch.tensor([[SOS_token]], device='cpu')\n",
"\n",
" decoder_hidden = encoder_hidden\n",
"\n",
" use_teacher_forcing = True if random.random() < teacher_forcing_ratio else False\n",
"\n",
" if use_teacher_forcing:\n",
" # デコードの2ステップ目以降、前ステップの単語として正解の単語を利用する\n",
" for di in range(target_length):\n",
" decoder_output, decoder_hidden, decoder_attention = decoder(\n",
" decoder_input, decoder_hidden, encoder_outputs)\n",
" loss += criterion(decoder_output, target_tensor[di])\n",
" decoder_input = target_tensor[di] # Teacher forcing\n",
"\n",
" else:\n",
" # デコードの2ステップ目以降、前ステップの単語としてモデルが予測した単語を利用する\n",
" for di in range(target_length):\n",
" decoder_output, decoder_hidden, decoder_attention = decoder(\n",
" decoder_input, decoder_hidden, encoder_outputs)\n",
" topv, topi = decoder_output.topk(1)\n",
" decoder_input = topi.squeeze().detach() # detach from history as input\n",
"\n",
" loss += criterion(decoder_output, target_tensor[di])\n",
" if decoder_input.item() == EOS_token:\n",
" break\n",
"\n",
" loss.backward()\n",
"\n",
" encoder_optimizer.step()\n",
" decoder_optimizer.step()\n",
"\n",
" return loss.item() / target_length"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<table width=\"100%\">\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">以下の trainIters がたくさんの文章ペアに対して学習を回す関数ですね。ここでは n_iters を 75000 にしていますが、いま訓練対象の文章ペアは 10599 ですから、1つの文章が 7, 8 回選ばれている計算になりますね。…訓練する文章はランダムに選ばれていますが、短い文章から長い文章に向かって学習すると上手くいくなどはないのでしょうか? 人間の幼児も2語文、3語文から覚え始めると思いますし…しかし、それでは学習の序盤に短い文章にフィットしてしまうのでしょうか??\n",
"</td>\n",
"</tr>\n",
"</table>"
]
},
{
"cell_type": "code",
"execution_count": 11,
"metadata": {},
"outputs": [],
"source": [
"import time\n",
"import math\n",
"\n",
"%matplotlib inline\n",
"import matplotlib.pyplot as plt\n",
"plt.switch_backend('agg')\n",
"import matplotlib.ticker as ticker\n",
"import numpy as np\n",
"\n",
"\n",
"def asMinutes(s):\n",
" m = math.floor(s / 60)\n",
" s -= m * 60\n",
" return '%dm %ds' % (m, s)\n",
"\n",
"\n",
"def timeSince(since, percent):\n",
" now = time.time()\n",
" s = now - since\n",
" es = s / (percent)\n",
" rs = es - s\n",
" return '%s (- %s)' % (asMinutes(s), asMinutes(rs))\n",
"\n",
"\n",
"def showPlot(points):\n",
" plt.figure()\n",
" fig, ax = plt.subplots()\n",
" # this locator puts ticks at regular intervals\n",
" loc = ticker.MultipleLocator(base=0.2)\n",
" ax.yaxis.set_major_locator(loc)\n",
" plt.plot(points)\n",
"\n",
"\n",
"def trainIters(encoder, decoder, n_iters, print_every=1000, plot_every=100, learning_rate=0.01):\n",
" start = time.time()\n",
" plot_losses = []\n",
" print_loss_total = 0 # Reset every print_every\n",
" plot_loss_total = 0 # Reset every plot_every\n",
"\n",
" encoder_optimizer = optim.SGD(encoder.parameters(), lr=learning_rate)\n",
" decoder_optimizer = optim.SGD(decoder.parameters(), lr=learning_rate)\n",
" training_pairs = [tensorsFromPair(random.choice(pairs))\n",
" for i in range(n_iters)]\n",
" criterion = nn.NLLLoss()\n",
"\n",
" for iter in range(1, n_iters + 1):\n",
" training_pair = training_pairs[iter - 1]\n",
" input_tensor = training_pair[0]\n",
" target_tensor = training_pair[1]\n",
"\n",
" loss = train(input_tensor, target_tensor, encoder,\n",
" decoder, encoder_optimizer, decoder_optimizer, criterion)\n",
" print_loss_total += loss\n",
" plot_loss_total += loss\n",
"\n",
" if iter % print_every == 0:\n",
" print_loss_avg = print_loss_total / print_every\n",
" print_loss_total = 0\n",
" print('%s (%d %d%%) %.4f' % (timeSince(start, iter / n_iters),\n",
" iter, iter / n_iters * 100, print_loss_avg))\n",
" torch.save(encoder.state_dict(), 'eng-fra-encoder')\n",
" torch.save(decoder.state_dict(), 'eng-fra-decoder')\n",
"\n",
" if iter % plot_every == 0:\n",
" plot_loss_avg = plot_loss_total / plot_every\n",
" plot_losses.append(plot_loss_avg)\n",
" plot_loss_total = 0\n",
"\n",
" showPlot(plot_losses)\n",
"\n",
"\n",
"hidden_size = 256\n",
"encoder1 = EncoderRNN(input_lang.n_words, hidden_size).to('cpu')\n",
"attn_decoder1 = AttnDecoderRNN(hidden_size, output_lang.n_words, dropout_p=0.1).to('cpu')\n",
"\n",
"\n",
"import os\n",
"\n",
"# 既に学習済みの場合はモデルをロード(学習には cpu で1時間かかった)\n",
"if os.path.isfile('eng-fra-encoder') and os.path.isfile('eng-fra-decoder'):\n",
" encoder1.load_state_dict(torch.load('eng-fra-encoder'))\n",
" attn_decoder1.load_state_dict(torch.load('eng-fra-decoder'))\n",
"else:\n",
" trainIters(encoder1, attn_decoder1, 75000, print_every=5000)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<h2 id=\"s5\" style=\"background: black; padding: 0.7em 1em 0.5em;color:white;\">訓練結果</h2>\n",
"<table width=\"100%\">\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">訓練したモデルにフランス語の文章を読み込ませてみると、そこそこの確率でぴったり正解の英文に翻訳してくれますね。しかし、今回は全てのデータをランダムに利用して学習していますから、これらは訓練データに含まれていた可能性も高いですね…。\n",
"</td>\n",
"</tr>\n",
"</table>"
]
},
{
"cell_type": "code",
"execution_count": 12,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"> je suis plutot heureux .\n",
"= i m fairly happy .\n",
"< i m fairly happy . <EOS>\n",
"\n",
"> elle est inapte pour le poste .\n",
"= she s unfit for the job .\n",
"< she is working for the job job . <EOS>\n",
"\n",
"> je n en suis pas entierement sure .\n",
"= i m not entirely sure .\n",
"< i m not entirely sure . <EOS>\n",
"\n",
"> nous ne sommes pas ici pour t arreter .\n",
"= we are not here to arrest you .\n",
"< we are not here to arrest you . <EOS>\n",
"\n",
"> c est un employe de bureau .\n",
"= he is an office worker .\n",
"< he is an office worker . <EOS>\n",
"\n",
"> elle est chanteuse .\n",
"= she is a singer .\n",
"< she is a singer . <EOS>\n",
"\n",
"> vous etes un bon client .\n",
"= you are a good customer .\n",
"< you are a good customer . <EOS>\n",
"\n",
"> vous vous etes trompe de numero .\n",
"= i m afraid you have the wrong number .\n",
"< you re the responsible love . you . <EOS>\n",
"\n",
"> vous n etes pas cense fumer ici .\n",
"= you are not supposed to smoke here .\n",
"< you are not supposed to smoke here . <EOS>\n",
"\n",
"> je suis le professeur .\n",
"= i m the teacher .\n",
"< i m the teacher . <EOS>\n",
"\n"
]
}
],
"source": [
"def evaluate(encoder, decoder, sentence, max_length=MAX_LENGTH):\n",
" with torch.no_grad():\n",
" input_tensor = tensorFromSentence(input_lang, sentence)\n",
" input_length = input_tensor.size()[0]\n",
" encoder_hidden = encoder.initHidden()\n",
" encoder_outputs = torch.zeros(max_length, encoder.hidden_size, device='cpu')\n",
"\n",
" for ei in range(input_length):\n",
" encoder_output, encoder_hidden = encoder(input_tensor[ei], encoder_hidden)\n",
" encoder_outputs[ei] += encoder_output[0, 0]\n",
"\n",
" decoder_input = torch.tensor([[SOS_token]], device='cpu') # SOS\n",
" decoder_hidden = encoder_hidden\n",
" decoded_words = []\n",
" decoder_attentions = torch.zeros(max_length, max_length)\n",
"\n",
" for di in range(max_length):\n",
" decoder_output, decoder_hidden, decoder_attention = decoder(\n",
" decoder_input, decoder_hidden, encoder_outputs)\n",
" decoder_attentions[di] = decoder_attention.data\n",
" topv, topi = decoder_output.data.topk(1)\n",
" if topi.item() == EOS_token:\n",
" decoded_words.append('<EOS>')\n",
" break\n",
" else:\n",
" decoded_words.append(output_lang.index2word[topi.item()])\n",
" decoder_input = topi.squeeze().detach()\n",
"\n",
" return decoded_words, decoder_attentions[:di + 1]\n",
"\n",
"\n",
"def evaluateRandomly(encoder, decoder, n=10):\n",
" for i in range(n):\n",
" pair = random.choice(pairs)\n",
" print('>', pair[0])\n",
" print('=', pair[1])\n",
" output_words, attentions = evaluate(encoder, decoder, pair[0])\n",
" output_sentence = ' '.join(output_words)\n",
" print('<', output_sentence)\n",
" print('')\n",
"\n",
"\n",
"evaluateRandomly(encoder1, attn_decoder1)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<table width=\"100%\">\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/2.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">このチュートリアルではアテンションの可視化もしているね(以下)。\n",
"</td>\n",
"</tr>\n",
"</table>"
]
},
{
"cell_type": "code",
"execution_count": 13,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"input = elle a cinq ans de moins que moi .\n",
"output = she is five years younger than me . <EOS>\n"
]
},
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 432x288 with 2 Axes>"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"input = elle est trop petit .\n",
"output = she is too drunk . <EOS>\n"
]
},
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 432x288 with 2 Axes>"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"input = je ne crains pas de mourir .\n",
"output = i m not scared to die . <EOS>\n"
]
},
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 432x288 with 2 Axes>"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"input = c est un jeune directeur plein de talent .\n",
"output = he s a talented writer . <EOS>\n"
]
},
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 432x288 with 2 Axes>"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"def showAttention(input_sentence, output_words, attentions):\n",
" # Set up figure with colorbar\n",
" fig = plt.figure()\n",
" ax = fig.add_subplot(111)\n",
" cax = ax.matshow(attentions.numpy(), cmap='bone')\n",
" fig.colorbar(cax)\n",
"\n",
" # Set up axes\n",
" ax.set_xticklabels([''] + input_sentence.split(' ') +\n",
" ['<EOS>'], rotation=90)\n",
" ax.set_yticklabels([''] + output_words)\n",
"\n",
" # Show label at every tick\n",
" ax.xaxis.set_major_locator(ticker.MultipleLocator(1))\n",
" ax.yaxis.set_major_locator(ticker.MultipleLocator(1))\n",
"\n",
" plt.show()\n",
"\n",
"\n",
"def evaluateAndShowAttention(input_sentence):\n",
" output_words, attentions = evaluate(\n",
" encoder1, attn_decoder1, input_sentence)\n",
" print('input =', input_sentence)\n",
" print('output =', ' '.join(output_words))\n",
" showAttention(input_sentence, output_words, attentions)\n",
"\n",
"\n",
"evaluateAndShowAttention(\"elle a cinq ans de moins que moi .\")\n",
"\n",
"evaluateAndShowAttention(\"elle est trop petit .\")\n",
"\n",
"evaluateAndShowAttention(\"je ne crains pas de mourir .\")\n",
"\n",
"evaluateAndShowAttention(\"c est un jeune directeur plein de talent .\")"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<table width=\"100%\">\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/2.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">このチュートリアルではアテンションの可視化もしているね(以下)。…これをみると、not を読みだすときに注目しているのは ne/pas の両方じゃなくて pas だけだなあ…。形容詞の前置修飾と後置修飾はどうだろう。\n",
"</td>\n",
"</tr>\n",
"</table>"
]
},
{
"cell_type": "code",
"execution_count": 16,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"input = c est un employe de bureau .\n",
"output = he is an office worker . <EOS>\n"
]
},
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 432x288 with 2 Axes>"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"evaluateAndShowAttention(\"c est un employe de bureau .\")"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<table width=\"100%\">\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/2.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">これでもアテンションの重みが大きいマスは概ね対角線上に並んでいるなあ…。アテンションは意味の対応する語に注目するわけではないのか、今回が訓練データに過学習なのかなあ…。\n",
"</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/1.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">ええ…。\n",
"</td>\n",
"</tr>\n",
"<tr>\n",
"<td width=\"80px\" style=\"vertical-align:top;\"><img src=\"https://cookiebox26.github.io/ToyBox/20200407_100ML/2.png\"></td>\n",
"<td style=\"vertical-align:top;text-align:left;\">チュートリアルの最後には Exercises として、別の言語間の翻訳機にしてみようとか、会話応答などを学んでみようとか、学習済みの単語埋め込みをつかってみようとか、層数を変えてみようとか、入出力を同一にしてオートエンコーダを学習した後デコーダだけ新しく学習しようとかあるね。最後のはどう変わるんだろう?\n",
"</td>\n",
"</tr>\n",
"</table>"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"おわり"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.7.0"
}
},
"nbformat": 4,
"nbformat_minor": 2
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment