Skip to content

Instantly share code, notes, and snippets.

@yssymmt
Created September 19, 2022 14:49
Show Gist options
  • Save yssymmt/b219194abc1fa18b4bde759f3a2240a6 to your computer and use it in GitHub Desktop.
Save yssymmt/b219194abc1fa18b4bde759f3a2240a6 to your computer and use it in GitHub Desktop.
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "markdown",
"id": "78128853",
"metadata": {},
"source": [
"#02: neologdn"
]
},
{
"cell_type": "markdown",
"id": "09872a3b",
"metadata": {},
"source": [
"####パッケージの読み込み"
]
},
{
"cell_type": "code",
"execution_count": 1,
"id": "6e0ed1ac",
"metadata": {},
"outputs": [],
"source": [
"import pandas as pd\n",
"from sqlalchemy import create_engine\n",
"import teradatasql\n",
"import teradatasqlalchemy\n",
"import neologdn"
]
},
{
"cell_type": "markdown",
"id": "f5fcbb27",
"metadata": {},
"source": [
"####Teradataへの接続、sqlalchemy エンジンを作成"
]
},
{
"cell_type": "code",
"execution_count": 3,
"id": "904b2e80",
"metadata": {},
"outputs": [],
"source": [
"host = \"192.168.999.999\"\n",
"user = \"jumbo\"\n",
"password = \"mambo\"\n",
"connstr = \"teradatasql://{user}:{password}@{host}\".format(host=host, user=user, password=password)\n",
"engine = create_engine(connstr)"
]
},
{
"cell_type": "markdown",
"id": "f0d02fa5",
"metadata": {},
"source": [
"####データを取得 "
]
},
{
"cell_type": "code",
"execution_count": 5,
"id": "811eb331",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>docid</th>\n",
" <th>cat</th>\n",
" <th>docdesc</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>19</td>\n",
" <td>春日</td>\n",
" <td>ぼる塾の人と「まあねぇ」と「トゥーーース!」の掛け合いは面白かった</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>17</td>\n",
" <td>若林</td>\n",
" <td>山里亮太にはツッコミでは敵わないと思っている</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>7</td>\n",
" <td>若林</td>\n",
" <td>藤井青銅「ピンクのベストじゃない方がしゃべれるんだよ」</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>15</td>\n",
" <td>春日</td>\n",
" <td>普段は靴下を履かないので、足の裏が象のようになっている</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>5</td>\n",
" <td>若林</td>\n",
" <td>プライベートのバスケットで足を怪我した</td>\n",
" </tr>\n",
" <tr>\n",
" <th>5</th>\n",
" <td>13</td>\n",
" <td>春日</td>\n",
" <td>ピンクのセーターを着た後輩の芸人から、すいません、ピンク着させてもらってますと挨拶された</td>\n",
" </tr>\n",
" <tr>\n",
" <th>6</th>\n",
" <td>3</td>\n",
" <td>若林</td>\n",
" <td>ナナメの夕暮れ他、本を出している</td>\n",
" </tr>\n",
" <tr>\n",
" <th>7</th>\n",
" <td>11</td>\n",
" <td>春日</td>\n",
" <td>六本木の社長からモンクレールのダウンをもらっていた</td>\n",
" </tr>\n",
" <tr>\n",
" <th>8</th>\n",
" <td>1</td>\n",
" <td>若林</td>\n",
" <td>若槻千夏「幾つかのテレビの番組で司会を務めるが、本番以外では人見知りで話さない」</td>\n",
" </tr>\n",
" <tr>\n",
" <th>9</th>\n",
" <td>9</td>\n",
" <td>春日</td>\n",
" <td>茶々という名前のチワワ犬を飼っている</td>\n",
" </tr>\n",
" <tr>\n",
" <th>10</th>\n",
" <td>20</td>\n",
" <td>春日</td>\n",
" <td>スベる芸風なのに、スベるのを怖いと思っている</td>\n",
" </tr>\n",
" <tr>\n",
" <th>11</th>\n",
" <td>16</td>\n",
" <td>春日</td>\n",
" <td>バカリズム「存在が面白い。ウケるスベるとかじゃない」</td>\n",
" </tr>\n",
" <tr>\n",
" <th>12</th>\n",
" <td>18</td>\n",
" <td>若林</td>\n",
" <td>入船出身なのに築地出身ですと嘘をついたら、地元の人にお前入船だろとツッコミされた</td>\n",
" </tr>\n",
" <tr>\n",
" <th>13</th>\n",
" <td>14</td>\n",
" <td>春日</td>\n",
" <td>漫才ではボケを担当するが、ラジオやテレビでは全然ボケない</td>\n",
" </tr>\n",
" <tr>\n",
" <th>14</th>\n",
" <td>8</td>\n",
" <td>若林</td>\n",
" <td>MC.Wakaとして、日本武道館、横浜アリーナなどで人の歌にラップで茶々を入れている</td>\n",
" </tr>\n",
" <tr>\n",
" <th>15</th>\n",
" <td>12</td>\n",
" <td>春日</td>\n",
" <td>ピンクベストを着て胸を張っていて、トゥースと大声で叫ぶ</td>\n",
" </tr>\n",
" <tr>\n",
" <th>16</th>\n",
" <td>6</td>\n",
" <td>若林</td>\n",
" <td>星野源「日本、テレビ界の希望だと思う」</td>\n",
" </tr>\n",
" <tr>\n",
" <th>17</th>\n",
" <td>10</td>\n",
" <td>春日</td>\n",
" <td>結婚直前に浮気がばれた</td>\n",
" </tr>\n",
" <tr>\n",
" <th>18</th>\n",
" <td>4</td>\n",
" <td>若林</td>\n",
" <td>深夜に一人でバスケットボールのスリーポイントを練習している</td>\n",
" </tr>\n",
" <tr>\n",
" <th>19</th>\n",
" <td>2</td>\n",
" <td>若林</td>\n",
" <td>漫才ではツッコミを担当するが、「たりないふたり」ではボケを担当していた</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" docid cat docdesc\n",
"0 19 春日 ぼる塾の人と「まあねぇ」と「トゥーーース!」の掛け合いは面白かった\n",
"1 17 若林 山里亮太にはツッコミでは敵わないと思っている\n",
"2 7 若林 藤井青銅「ピンクのベストじゃない方がしゃべれるんだよ」\n",
"3 15 春日 普段は靴下を履かないので、足の裏が象のようになっている\n",
"4 5 若林 プライベートのバスケットで足を怪我した\n",
"5 13 春日 ピンクのセーターを着た後輩の芸人から、すいません、ピンク着させてもらってますと挨拶された\n",
"6 3 若林 ナナメの夕暮れ他、本を出している\n",
"7 11 春日 六本木の社長からモンクレールのダウンをもらっていた\n",
"8 1 若林 若槻千夏「幾つかのテレビの番組で司会を務めるが、本番以外では人見知りで話さない」\n",
"9 9 春日 茶々という名前のチワワ犬を飼っている\n",
"10 20 春日 スベる芸風なのに、スベるのを怖いと思っている\n",
"11 16 春日 バカリズム「存在が面白い。ウケるスベるとかじゃない」\n",
"12 18 若林 入船出身なのに築地出身ですと嘘をついたら、地元の人にお前入船だろとツッコミされた\n",
"13 14 春日 漫才ではボケを担当するが、ラジオやテレビでは全然ボケない\n",
"14 8 若林 MC.Wakaとして、日本武道館、横浜アリーナなどで人の歌にラップで茶々を入れている\n",
"15 12 春日 ピンクベストを着て胸を張っていて、トゥースと大声で叫ぶ\n",
"16 6 若林 星野源「日本、テレビ界の希望だと思う」\n",
"17 10 春日 結婚直前に浮気がばれた\n",
"18 4 若林 深夜に一人でバスケットボールのスリーポイントを練習している\n",
"19 2 若林 漫才ではツッコミを担当するが、「たりないふたり」ではボケを担当していた"
]
},
"execution_count": 5,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"with engine.connect() as conn:\n",
" df = pd.read_sql(\"\"\"\n",
" select *\n",
" from jumbo.aud02_mjmj\n",
" \"\"\", conn)\n",
"df"
]
},
{
"cell_type": "markdown",
"id": "b5e47b55",
"metadata": {},
"source": [
"####nelogdnを使って正規化"
]
},
{
"cell_type": "code",
"execution_count": 6,
"id": "e14afc92",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>docid</th>\n",
" <th>cat</th>\n",
" <th>docdesc</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>19</td>\n",
" <td>春日</td>\n",
" <td>ぼる塾の人と「まあねぇ」と「トゥース!」の掛け合いは面白かった</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>17</td>\n",
" <td>若林</td>\n",
" <td>山里亮太にはツッコミでは敵わないと思っている</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>7</td>\n",
" <td>若林</td>\n",
" <td>藤井青銅「ピンクのベストじゃない方がしゃべれるんだよ」</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>15</td>\n",
" <td>春日</td>\n",
" <td>普段は靴下を履かないので、足の裏が象のようになっている</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>5</td>\n",
" <td>若林</td>\n",
" <td>プライベートのバスケットで足を怪我した</td>\n",
" </tr>\n",
" <tr>\n",
" <th>5</th>\n",
" <td>13</td>\n",
" <td>春日</td>\n",
" <td>ピンクのセーターを着た後輩の芸人から、すいません、ピンク着させてもらってますと挨拶された</td>\n",
" </tr>\n",
" <tr>\n",
" <th>6</th>\n",
" <td>3</td>\n",
" <td>若林</td>\n",
" <td>ナナメの夕暮れ他、本を出している</td>\n",
" </tr>\n",
" <tr>\n",
" <th>7</th>\n",
" <td>11</td>\n",
" <td>春日</td>\n",
" <td>六本木の社長からモンクレールのダウンをもらっていた</td>\n",
" </tr>\n",
" <tr>\n",
" <th>8</th>\n",
" <td>1</td>\n",
" <td>若林</td>\n",
" <td>若槻千夏「幾つかのテレビの番組で司会を務めるが、本番以外では人見知りで話さない」</td>\n",
" </tr>\n",
" <tr>\n",
" <th>9</th>\n",
" <td>9</td>\n",
" <td>春日</td>\n",
" <td>茶々という名前のチワワ犬を飼っている</td>\n",
" </tr>\n",
" <tr>\n",
" <th>10</th>\n",
" <td>20</td>\n",
" <td>春日</td>\n",
" <td>スベる芸風なのに、スベるのを怖いと思っている</td>\n",
" </tr>\n",
" <tr>\n",
" <th>11</th>\n",
" <td>16</td>\n",
" <td>春日</td>\n",
" <td>バカリズム「存在が面白い。ウケるスベるとかじゃない」</td>\n",
" </tr>\n",
" <tr>\n",
" <th>12</th>\n",
" <td>18</td>\n",
" <td>若林</td>\n",
" <td>入船出身なのに築地出身ですと嘘をついたら、地元の人にお前入船だろとツッコミされた</td>\n",
" </tr>\n",
" <tr>\n",
" <th>13</th>\n",
" <td>14</td>\n",
" <td>春日</td>\n",
" <td>漫才ではボケを担当するが、ラジオやテレビでは全然ボケない</td>\n",
" </tr>\n",
" <tr>\n",
" <th>14</th>\n",
" <td>8</td>\n",
" <td>若林</td>\n",
" <td>MC.Wakaとして、日本武道館、横浜アリーナなどで人の歌にラップで茶々を入れている</td>\n",
" </tr>\n",
" <tr>\n",
" <th>15</th>\n",
" <td>12</td>\n",
" <td>春日</td>\n",
" <td>ピンクベストを着て胸を張っていて、トゥースと大声で叫ぶ</td>\n",
" </tr>\n",
" <tr>\n",
" <th>16</th>\n",
" <td>6</td>\n",
" <td>若林</td>\n",
" <td>星野源「日本、テレビ界の希望だと思う」</td>\n",
" </tr>\n",
" <tr>\n",
" <th>17</th>\n",
" <td>10</td>\n",
" <td>春日</td>\n",
" <td>結婚直前に浮気がばれた</td>\n",
" </tr>\n",
" <tr>\n",
" <th>18</th>\n",
" <td>4</td>\n",
" <td>若林</td>\n",
" <td>深夜に一人でバスケットボールのスリーポイントを練習している</td>\n",
" </tr>\n",
" <tr>\n",
" <th>19</th>\n",
" <td>2</td>\n",
" <td>若林</td>\n",
" <td>漫才ではツッコミを担当するが、「たりないふたり」ではボケを担当していた</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" docid cat docdesc\n",
"0 19 春日 ぼる塾の人と「まあねぇ」と「トゥース!」の掛け合いは面白かった\n",
"1 17 若林 山里亮太にはツッコミでは敵わないと思っている\n",
"2 7 若林 藤井青銅「ピンクのベストじゃない方がしゃべれるんだよ」\n",
"3 15 春日 普段は靴下を履かないので、足の裏が象のようになっている\n",
"4 5 若林 プライベートのバスケットで足を怪我した\n",
"5 13 春日 ピンクのセーターを着た後輩の芸人から、すいません、ピンク着させてもらってますと挨拶された\n",
"6 3 若林 ナナメの夕暮れ他、本を出している\n",
"7 11 春日 六本木の社長からモンクレールのダウンをもらっていた\n",
"8 1 若林 若槻千夏「幾つかのテレビの番組で司会を務めるが、本番以外では人見知りで話さない」\n",
"9 9 春日 茶々という名前のチワワ犬を飼っている\n",
"10 20 春日 スベる芸風なのに、スベるのを怖いと思っている\n",
"11 16 春日 バカリズム「存在が面白い。ウケるスベるとかじゃない」\n",
"12 18 若林 入船出身なのに築地出身ですと嘘をついたら、地元の人にお前入船だろとツッコミされた\n",
"13 14 春日 漫才ではボケを担当するが、ラジオやテレビでは全然ボケない\n",
"14 8 若林 MC.Wakaとして、日本武道館、横浜アリーナなどで人の歌にラップで茶々を入れている\n",
"15 12 春日 ピンクベストを着て胸を張っていて、トゥースと大声で叫ぶ\n",
"16 6 若林 星野源「日本、テレビ界の希望だと思う」\n",
"17 10 春日 結婚直前に浮気がばれた\n",
"18 4 若林 深夜に一人でバスケットボールのスリーポイントを練習している\n",
"19 2 若林 漫才ではツッコミを担当するが、「たりないふたり」ではボケを担当していた"
]
},
"execution_count": 6,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df['docdesc'] = df.apply(lambda x: neologdn.normalize(x['docdesc']), axis=1)\n",
"df"
]
},
{
"cell_type": "markdown",
"id": "37f0af5e",
"metadata": {},
"source": [
"####英字を小文字に統一"
]
},
{
"cell_type": "code",
"execution_count": 7,
"id": "c6bb35ef",
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>docid</th>\n",
" <th>cat</th>\n",
" <th>docdesc</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>19</td>\n",
" <td>春日</td>\n",
" <td>ぼる塾の人と「まあねぇ」と「トゥース!」の掛け合いは面白かった</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>17</td>\n",
" <td>若林</td>\n",
" <td>山里亮太にはツッコミでは敵わないと思っている</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>7</td>\n",
" <td>若林</td>\n",
" <td>藤井青銅「ピンクのベストじゃない方がしゃべれるんだよ」</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>15</td>\n",
" <td>春日</td>\n",
" <td>普段は靴下を履かないので、足の裏が象のようになっている</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>5</td>\n",
" <td>若林</td>\n",
" <td>プライベートのバスケットで足を怪我した</td>\n",
" </tr>\n",
" <tr>\n",
" <th>5</th>\n",
" <td>13</td>\n",
" <td>春日</td>\n",
" <td>ピンクのセーターを着た後輩の芸人から、すいません、ピンク着させてもらってますと挨拶された</td>\n",
" </tr>\n",
" <tr>\n",
" <th>6</th>\n",
" <td>3</td>\n",
" <td>若林</td>\n",
" <td>ナナメの夕暮れ他、本を出している</td>\n",
" </tr>\n",
" <tr>\n",
" <th>7</th>\n",
" <td>11</td>\n",
" <td>春日</td>\n",
" <td>六本木の社長からモンクレールのダウンをもらっていた</td>\n",
" </tr>\n",
" <tr>\n",
" <th>8</th>\n",
" <td>1</td>\n",
" <td>若林</td>\n",
" <td>若槻千夏「幾つかのテレビの番組で司会を務めるが、本番以外では人見知りで話さない」</td>\n",
" </tr>\n",
" <tr>\n",
" <th>9</th>\n",
" <td>9</td>\n",
" <td>春日</td>\n",
" <td>茶々という名前のチワワ犬を飼っている</td>\n",
" </tr>\n",
" <tr>\n",
" <th>10</th>\n",
" <td>20</td>\n",
" <td>春日</td>\n",
" <td>スベる芸風なのに、スベるのを怖いと思っている</td>\n",
" </tr>\n",
" <tr>\n",
" <th>11</th>\n",
" <td>16</td>\n",
" <td>春日</td>\n",
" <td>バカリズム「存在が面白い。ウケるスベるとかじゃない」</td>\n",
" </tr>\n",
" <tr>\n",
" <th>12</th>\n",
" <td>18</td>\n",
" <td>若林</td>\n",
" <td>入船出身なのに築地出身ですと嘘をついたら、地元の人にお前入船だろとツッコミされた</td>\n",
" </tr>\n",
" <tr>\n",
" <th>13</th>\n",
" <td>14</td>\n",
" <td>春日</td>\n",
" <td>漫才ではボケを担当するが、ラジオやテレビでは全然ボケない</td>\n",
" </tr>\n",
" <tr>\n",
" <th>14</th>\n",
" <td>8</td>\n",
" <td>若林</td>\n",
" <td>mc.wakaとして、日本武道館、横浜アリーナなどで人の歌にラップで茶々を入れている</td>\n",
" </tr>\n",
" <tr>\n",
" <th>15</th>\n",
" <td>12</td>\n",
" <td>春日</td>\n",
" <td>ピンクベストを着て胸を張っていて、トゥースと大声で叫ぶ</td>\n",
" </tr>\n",
" <tr>\n",
" <th>16</th>\n",
" <td>6</td>\n",
" <td>若林</td>\n",
" <td>星野源「日本、テレビ界の希望だと思う」</td>\n",
" </tr>\n",
" <tr>\n",
" <th>17</th>\n",
" <td>10</td>\n",
" <td>春日</td>\n",
" <td>結婚直前に浮気がばれた</td>\n",
" </tr>\n",
" <tr>\n",
" <th>18</th>\n",
" <td>4</td>\n",
" <td>若林</td>\n",
" <td>深夜に一人でバスケットボールのスリーポイントを練習している</td>\n",
" </tr>\n",
" <tr>\n",
" <th>19</th>\n",
" <td>2</td>\n",
" <td>若林</td>\n",
" <td>漫才ではツッコミを担当するが、「たりないふたり」ではボケを担当していた</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" docid cat docdesc\n",
"0 19 春日 ぼる塾の人と「まあねぇ」と「トゥース!」の掛け合いは面白かった\n",
"1 17 若林 山里亮太にはツッコミでは敵わないと思っている\n",
"2 7 若林 藤井青銅「ピンクのベストじゃない方がしゃべれるんだよ」\n",
"3 15 春日 普段は靴下を履かないので、足の裏が象のようになっている\n",
"4 5 若林 プライベートのバスケットで足を怪我した\n",
"5 13 春日 ピンクのセーターを着た後輩の芸人から、すいません、ピンク着させてもらってますと挨拶された\n",
"6 3 若林 ナナメの夕暮れ他、本を出している\n",
"7 11 春日 六本木の社長からモンクレールのダウンをもらっていた\n",
"8 1 若林 若槻千夏「幾つかのテレビの番組で司会を務めるが、本番以外では人見知りで話さない」\n",
"9 9 春日 茶々という名前のチワワ犬を飼っている\n",
"10 20 春日 スベる芸風なのに、スベるのを怖いと思っている\n",
"11 16 春日 バカリズム「存在が面白い。ウケるスベるとかじゃない」\n",
"12 18 若林 入船出身なのに築地出身ですと嘘をついたら、地元の人にお前入船だろとツッコミされた\n",
"13 14 春日 漫才ではボケを担当するが、ラジオやテレビでは全然ボケない\n",
"14 8 若林 mc.wakaとして、日本武道館、横浜アリーナなどで人の歌にラップで茶々を入れている\n",
"15 12 春日 ピンクベストを着て胸を張っていて、トゥースと大声で叫ぶ\n",
"16 6 若林 星野源「日本、テレビ界の希望だと思う」\n",
"17 10 春日 結婚直前に浮気がばれた\n",
"18 4 若林 深夜に一人でバスケットボールのスリーポイントを練習している\n",
"19 2 若林 漫才ではツッコミを担当するが、「たりないふたり」ではボケを担当していた"
]
},
"execution_count": 7,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df['docdesc']=df['docdesc'].str.lower()\n",
"df"
]
},
{
"cell_type": "markdown",
"id": "4389fc2e",
"metadata": {},
"source": [
"####空テーブル作成、neologdn正規化後 "
]
},
{
"cell_type": "code",
"execution_count": 8,
"id": "7b07e0e9",
"metadata": {},
"outputs": [],
"source": [
"with engine.connect() as conn:\n",
" x1 = pd.read_sql(\"\"\"\n",
" create multiset table jumbo.aud03_neologdn (\n",
" docid integer, \n",
" cat varchar(10) character set unicode, \n",
" docdesc varchar(100) character set unicode \n",
" ) primary index (docid) \n",
" \"\"\", conn)"
]
},
{
"cell_type": "markdown",
"id": "e62bce78",
"metadata": {},
"source": [
"####正規化後データの格納"
]
},
{
"cell_type": "code",
"execution_count": 9,
"id": "8c888af7",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"1"
]
},
"execution_count": 9,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df.to_sql('aud03_neologdn',engine,if_exists='append',index=False)"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3 (ipykernel)",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.9.12"
}
},
"nbformat": 4,
"nbformat_minor": 5
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment