Skip to content

Instantly share code, notes, and snippets.

@haven-jeon
Last active September 30, 2018 08:31
Show Gist options
  • Star 1 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save haven-jeon/6b508f4547418ab26f6e56b7a831dd9a to your computer and use it in GitHub Desktop.
Save haven-jeon/6b508f4547418ab26f6e56b7a831dd9a to your computer and use it in GitHub Desktop.
word2vec with MXNet Gluon
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## WordEmbedding 학습 "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"- 목적 \n",
" - Neural Network를 이용해 직접 한글 임베딩 학습을 해보고 평가해본다. \n",
" "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### 데이터 확보 \n"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"!git clone https://github.com/haven-jeon/KoWordSpacing\n",
"!bunzip KoWordSpacing/input.txt.bz2\n",
"#임베딩 평가 데이터 \n",
"!git clone https://github.com/SungjoonPark/KoreanWordVectors "
]
},
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [],
"source": [
"import time\n",
"import warnings\n",
"import logging\n",
"import random\n",
"warnings.filterwarnings('ignore')\n",
"\n",
"import mxnet as mx\n",
"import gluonnlp as nlp\n",
"from mxnet.gluon import nn\n",
"import numpy as np\n",
"import mxnet as mx\n",
"from mxnet import nd, gluon, autograd\n",
"import itertools\n",
"\n",
"from konlpy.tag import Mecab\n",
"import re\n",
"mecab = Mecab()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"라인단위 형태소 분석을 통해 토큰을 추출여 이를 list 형태로 리턴함 "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### `vocab` 과 `dataset` "
]
},
{
"cell_type": "code",
"execution_count": 2,
"metadata": {},
"outputs": [],
"source": [
"sejong_dataset = nlp.data.dataset.CorpusDataset('KoWordSpacing/input.txt', \n",
" tokenizer=lambda x:mecab.morphs(x.strip()))"
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"['옷', '을', '만드', '느라', '늘', '대하', '는', '천', '을', '실내']"
]
},
"execution_count": 3,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"sejong_dataset[0][:10]"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"- index to token, token to index 그리고 미등록어 및 문장 시작, 종료, 패딩 등의 작업을 해줄 `vocab`객체 생성\n",
"- `vocab`은 빈도수 정보로 단어사전의 크기를 결정함으로 '단어:빈도'의 정보를 `counter`로 받아 생성한다. "
]
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {},
"outputs": [],
"source": [
"counter = nlp.data.count_tokens(itertools.chain.from_iterable(sejong_dataset))\n",
"\n",
"vocab = nlp.Vocab(counter, unknown_token='<unk>', padding_token=None,\n",
" bos_token=None, eos_token=None, min_freq=5)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"단어는 인덱스로 접근되며, 인덱스 번호로 토큰에 접근할 수 있다. "
]
},
{
"cell_type": "code",
"execution_count": 5,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"<unk>\n",
".\n",
"이\n",
"는\n",
"을\n",
"다\n",
"의\n",
"에\n",
"하\n",
"은\n"
]
}
],
"source": [
"for word in vocab.idx_to_token[:10]:\n",
" print(word)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"토큰을 기준으로 인덱스 번호도 출력 할 수 있다. "
]
},
{
"cell_type": "code",
"execution_count": 6,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"0 0\n",
"631 631\n"
]
}
],
"source": [
"print(vocab.token_to_idx[\"<unk>\"], vocab['<unk>'])\n",
"print(vocab.token_to_idx[\"아침\"], vocab['아침'])"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Negative Sampling 과 subsampling "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"$$ P({ w }_{ i })=1-\\sqrt { \\frac { t }{ f({ w }_{ i }) } } $$\n",
"\n",
"자주 출현하는 단어들에 대해서 학습셋에 포함되는 확률을 줄여주기 위한 서브샘플링(subsampling)기법을 통해 학습의 효율을 획기적으로 올리는 기법도 사용된다. 이를 통해 학습 데이터 자체를 줄여주어 학습속도를 올릴 수 있게 된다. \n",
"\n",
"여기서 $f(w_i)$는 단어의 출현 확률을 의미한다. $P(w_i)$가 작아야 학습셋에 들어갈 확률이 높아지는데, 따라서 출현 확률이 낮은 단어일 수록 학습셋에 포함될 확률이 높아진다. 고빈도 단어의 학습셋 출현 확률을 줄여주고, 저빈도 단어의 학습셋 출현확률을 높여주는 것이다. \n",
"$t$는 subsampling constant로 일반적으로 $10^{-5}$로 한다. "
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {},
"outputs": [],
"source": [
"frequent_token_subsampling = 1E-5\n",
"idx_to_counts = np.array([counter[w] for w in vocab.idx_to_token])\n",
"f = idx_to_counts / np.sum(idx_to_counts)\n",
"idx_to_pdiscard = 1 - np.sqrt(frequent_token_subsampling / f)\n",
"coded_dataset = [[vocab[token] for token in sentence\n",
" if token in vocab\n",
" and random.uniform(0, 1) > idx_to_pdiscard[vocab[token]]] for sentence in sejong_dataset]"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Center 토큰을 기준으로 좌우 `windows_size` 만큼의 Context 토큰을 샘플링해준다. 같은 비율의 negative sample도 추가해준다. "
]
},
{
"cell_type": "code",
"execution_count": 8,
"metadata": {},
"outputs": [],
"source": [
"batchify = nlp.data.batchify.EmbeddingCenterContextBatchify(batch_size=2048, window_size=5)\n",
"context_sampler = batchify(coded_dataset)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"빈도수 기준으로 `negative sample`을 추출할 수 있게 샘플러 구성 "
]
},
{
"cell_type": "code",
"execution_count": 9,
"metadata": {},
"outputs": [],
"source": [
"negatives_weights = nd.array([counter[w] ** 0.75 for w in vocab.idx_to_token])\n",
"negatives_sampler = nlp.data.UnigramCandidateSampler(negatives_weights)"
]
},
{
"cell_type": "code",
"execution_count": 10,
"metadata": {},
"outputs": [],
"source": [
"class embedding_model(nn.Block):\n",
" def __init__(self, input_dim, output_dim, neg_weight, num_neg=5):\n",
" super(embedding_model, self).__init__()\n",
" self.num_neg = num_neg\n",
" self.negatives_sampler = nlp.data.UnigramCandidateSampler(neg_weight)\n",
" with self.name_scope():\n",
" #center word embedding \n",
" self.w = nn.Embedding(input_dim, output_dim)\n",
" #context words embedding \n",
" self.w_ = nn.Embedding(input_dim, output_dim)\n",
" \n",
" def forward(self, center, context, context_mask):\n",
" #이렇게 해주면 \n",
" #nd.array를 선언시 디바이스를 지정하지 않아도 된다. \n",
" #멀티 GPU 학습시 필수 \n",
" with center.context:\n",
" #주변단어의 self.num_neg 배수 만큼 비 주변단어를 생성한다. \n",
" negs = self.negatives_sampler((context.shape[0], context.shape[1] * self.num_neg))\n",
" negs = negs.as_in_context(center.context)\n",
" context_negs = nd.concat(context, negs, dim=1)\n",
" embed_c = self.w(center)\n",
" #(n_batch, context_length, embedding_vector)\n",
" embed_u = self.w_(context_negs)\n",
"\n",
" #컨텍스트 마스크의 크기를 self.num_neg 만큼 복제해 값이 있는 영역을 표현한다.\n",
" #결국 주어진 주변단어 수 * self.num_neg 만큼만 학습을 하게 된다. \n",
" context_neg_mask = context_mask.tile((1, 1 + self.num_neg))\n",
"\n",
" #(n_batch, 1 , embedding_vector) * (n_batch, embedding_vector, context_length)\n",
" #(n_batch, 1, context_length)\n",
" pred = nd.batch_dot(embed_c, embed_u.transpose((0,2,1)))\n",
" pred = pred.squeeze() * context_neg_mask\n",
" \n",
" #네거티브 샘플들은 레이블이 모두 0이다. \n",
" label = nd.concat(context_mask, nd.zeros_like(negs), dim=1)\n",
" return pred, label\n",
" \n",
" "
]
},
{
"cell_type": "code",
"execution_count": 11,
"metadata": {},
"outputs": [],
"source": [
"vocab_size = len(vocab.idx_to_token)\n",
"vec_size = 300\n",
"embed = embedding_model(vocab_size, vec_size, negatives_weights, 5)"
]
},
{
"cell_type": "code",
"execution_count": 12,
"metadata": {},
"outputs": [],
"source": [
"ctx = mx.gpu()"
]
},
{
"cell_type": "code",
"execution_count": 13,
"metadata": {},
"outputs": [],
"source": [
"embed.initialize(mx.init.Xavier(), ctx=ctx)"
]
},
{
"cell_type": "code",
"execution_count": 14,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"(\n",
" [[ 0.00023127 -0.00471653 -0. -0. -0. -0.\n",
" -0. -0. -0. -0. -0.00119895 0.00133953\n",
" -0. 0. -0. -0. 0. 0.\n",
" 0. 0. -0.00092426 0.00187225 0. -0.\n",
" 0. -0. -0. -0. 0. 0.\n",
" 0.00105074 -0.00181746 0. 0. 0. -0.\n",
" -0. 0. -0. 0. -0.00184016 0.0013353\n",
" 0. -0. 0. 0. 0. 0.\n",
" -0. -0. 0.00023259 -0.00101983 -0. 0.\n",
" -0. 0. 0. 0. -0. 0. ]]\n",
" <NDArray 1x60 @gpu(0)>, \n",
" [[1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n",
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n",
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]\n",
" <NDArray 1x60 @gpu(0)>)"
]
},
"execution_count": 14,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"embed(nd.array([[3],],ctx=ctx), nd.array([[10, 20, 0,0,0,0,0,0,0,0],], ctx=ctx), \n",
" nd.array([[1,1,0,0,0,0,0,0,0,0],], ctx=ctx))"
]
},
{
"cell_type": "code",
"execution_count": 15,
"metadata": {},
"outputs": [],
"source": [
"import pandas as pd\n",
"\n",
"wv_golden = pd.read_csv('KoreanWordVectors/WS353_korean.csv')\n",
"\n",
"word1 = wv_golden['word 1']\n",
"\n",
"word2 = wv_golden['word 2']\n",
"\n",
"score = wv_golden['kor_score']\n",
"\n",
"res = [[vocab.token_to_idx[i],vocab.token_to_idx[j],k] for i,j,k in zip(word1, word2, score) \n",
" if vocab.token_to_idx[i] != 0 and vocab.token_to_idx[j] != 0]\n",
"\n",
"word12score = nd.array(res, ctx=ctx)\n",
"\n",
"word1, word2, scores = (word12score[:,0], word12score[:,1], word12score[:,2])\n",
"\n",
"\n",
"def pearson_correlation(w2v, word1, word2, scores):\n",
" from scipy import stats\n",
" evaluator = nlp.embedding.evaluation.WordEmbeddingSimilarity(\n",
" idx_to_vec=w2v,\n",
" similarity_function=\"CosineSimilarity\")\n",
" evaluator.initialize(ctx=ctx)\n",
" evaluator.hybridize()\n",
" pred = evaluator(word1, word2)\n",
" scorr = stats.spearmanr(pred.asnumpy(), scores.asnumpy())\n",
" return(scorr)\n",
"\n",
"\n"
]
},
{
"cell_type": "code",
"execution_count": 21,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>word 1</th>\n",
" <th>word 2</th>\n",
" <th>kor_score</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>사랑</td>\n",
" <td>섹스</td>\n",
" <td>6.42</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>호랑이</td>\n",
" <td>고양이</td>\n",
" <td>7.17</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>호랑이</td>\n",
" <td>호랑이</td>\n",
" <td>10.00</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>책</td>\n",
" <td>종이</td>\n",
" <td>6.17</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>컴퓨터</td>\n",
" <td>키보드</td>\n",
" <td>6.67</td>\n",
" </tr>\n",
" <tr>\n",
" <th>5</th>\n",
" <td>컴퓨터</td>\n",
" <td>인터넷</td>\n",
" <td>5.92</td>\n",
" </tr>\n",
" <tr>\n",
" <th>6</th>\n",
" <td>비행기</td>\n",
" <td>자동차</td>\n",
" <td>6.00</td>\n",
" </tr>\n",
" <tr>\n",
" <th>7</th>\n",
" <td>기차</td>\n",
" <td>자동차</td>\n",
" <td>6.75</td>\n",
" </tr>\n",
" <tr>\n",
" <th>8</th>\n",
" <td>전화기</td>\n",
" <td>의사소통</td>\n",
" <td>4.83</td>\n",
" </tr>\n",
" <tr>\n",
" <th>9</th>\n",
" <td>텔레비전</td>\n",
" <td>라디오</td>\n",
" <td>5.58</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" word 1 word 2 kor_score\n",
"0 사랑 섹스 6.42\n",
"1 호랑이 고양이 7.17\n",
"2 호랑이 호랑이 10.00\n",
"3 책 종이 6.17\n",
"4 컴퓨터 키보드 6.67\n",
"5 컴퓨터 인터넷 5.92\n",
"6 비행기 자동차 6.00\n",
"7 기차 자동차 6.75\n",
"8 전화기 의사소통 4.83\n",
"9 텔레비전 라디오 5.58"
]
},
"execution_count": 21,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"wv_golden.head(10)"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [
{
"name": "stderr",
"output_type": "stream",
"text": [
"206it [00:31, 6.59it/s]\n",
"0it [00:00, ?it/s]"
]
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"1 epoch, loss 0.6093261241912842, corr -0.0398154996422957\n"
]
},
{
"name": "stderr",
"output_type": "stream",
"text": [
"206it [00:30, 6.84it/s]\n",
"0it [00:00, ?it/s]"
]
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"2 epoch, loss 0.5968636870384216, corr -0.02563234379998689\n"
]
},
{
"name": "stderr",
"output_type": "stream",
"text": [
"206it [00:30, 6.84it/s]\n",
"0it [00:00, ?it/s]"
]
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"3 epoch, loss 0.6014129519462585, corr 0.0046576298785832955\n"
]
},
{
"name": "stderr",
"output_type": "stream",
"text": [
"16it [00:02, 6.36it/s]"
]
}
],
"source": [
"from tqdm import tqdm\n",
"\n",
"ctx = mx.gpu()\n",
"\n",
"num_negs = 5\n",
"vocab_size = len(vocab.idx_to_token)\n",
"vec_size = 100\n",
"\n",
"embed = embedding_model(vocab_size, vec_size, negatives_weights, 5)\n",
"embed.initialize(mx.init.Xavier(), ctx=ctx)\n",
"\n",
"loss = gluon.loss.SigmoidBinaryCrossEntropyLoss()\n",
"optimizer = gluon.Trainer(embed.collect_params(), 'adam', {'learning_rate':0.001})\n",
"\n",
"avg_loss = []\n",
"corrs = []\n",
"interval = 50\n",
"\n",
"epoch = 70\n",
"\n",
"for e in range(epoch): \n",
" for i, batch in enumerate(tqdm(context_sampler)):\n",
" center, context, context_mask = [d.as_in_context(ctx) for d in batch]\n",
" with autograd.record():\n",
" pred, label = embed(center, context, context_mask)\n",
" loss_val = loss(pred, label)\n",
" loss_val.backward()\n",
" optimizer.step(center.shape[0])\n",
" avg_loss.append(loss_val.mean().asscalar())\n",
" \n",
" corr = pearson_correlation(embed.w.weight.data(), word1, word2, scores)\n",
" corrs.append(corr.correlation)\n",
" print(\"{} epoch, loss {}, corr\".format(e + 1, loss_val.mean().asscalar()), corr.correlation)\n",
"\n",
" "
]
},
{
"cell_type": "code",
"execution_count": 76,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"(\n",
" [5700.]\n",
" <NDArray 1 @gpu(0)>, \n",
" [ 713. 857. 1659. 21. 8299. 0. 0. 0. 0. 0.]\n",
" <NDArray 10 @gpu(0)>, \n",
" [1. 1. 1. 1. 1. 0. 0. 0. 0. 0.]\n",
" <NDArray 10 @gpu(0)>)"
]
},
"execution_count": 76,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"center[20,], context[20,], context_mask[20,]"
]
},
{
"cell_type": "code",
"execution_count": 17,
"metadata": {},
"outputs": [],
"source": [
"corrs_pd = pd.DataFrame({'epoch':list(range(1, 71)), 'corr':corrs})"
]
},
{
"cell_type": "code",
"execution_count": 18,
"metadata": {},
"outputs": [],
"source": [
"%matplotlib inline"
]
},
{
"cell_type": "code",
"execution_count": 19,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 432x288 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"import matplotlib.pyplot as plt\n",
"\n",
"corrs_pd.plot(x='epoch', y='corr', title='Spearman Rank Correlation')\n",
"plt.savefig('spcorr.png', dpi=300)"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.5.2"
}
},
"nbformat": 4,
"nbformat_minor": 2
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment