Skip to content

Instantly share code, notes, and snippets.

@kota7
Last active August 2, 2021 04:19
Show Gist options
  • Save kota7/dfd99191395175fde68f79ccd8cc1716 to your computer and use it in GitHub Desktop.
Save kota7/dfd99191395175fde68f79ccd8cc1716 to your computer and use it in GitHub Desktop.
Coronavirus Cases in Bunkyo-ku Daycares (Also in kaggle https://www.kaggle.com/kotamori/coronavirus-cases-in-bunkyo-ku-daycares)
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "markdown",
"id": "1f9f328d",
"metadata": {
"papermill": {
"duration": 0.008344,
"end_time": "2021-08-02T04:17:46.860190",
"exception": false,
"start_time": "2021-08-02T04:17:46.851846",
"status": "completed"
},
"tags": []
},
"source": [
"What this notebook does:\n",
"\n",
"- Retrieve coronavirus cases in daycares reported in the Bunkyo-ku (A ward in Tokyo, Japan) official website (https://www.city.bunkyo.lg.jp)\n",
"- Parse into a dataframe\n",
"- Visualize\n",
"- Save as a CSV file"
]
},
{
"cell_type": "code",
"execution_count": 1,
"id": "726f2201",
"metadata": {
"execution": {
"iopub.execute_input": "2021-08-02T04:17:46.889728Z",
"iopub.status.busy": "2021-08-02T04:17:46.888709Z",
"iopub.status.idle": "2021-08-02T04:17:46.892348Z",
"shell.execute_reply": "2021-08-02T04:17:46.892900Z",
"shell.execute_reply.started": "2021-08-02T03:56:33.167938Z"
},
"papermill": {
"duration": 0.025016,
"end_time": "2021-08-02T04:17:46.893172",
"exception": false,
"start_time": "2021-08-02T04:17:46.868156",
"status": "completed"
},
"tags": []
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"As of: 2021-08-02 04:17:46.886832\n"
]
}
],
"source": [
"from datetime import datetime\n",
"\n",
"currenttime = datetime.now()\n",
"print(\"As of:\", currenttime) # may be in UTF"
]
},
{
"cell_type": "code",
"execution_count": 2,
"id": "28890310",
"metadata": {
"_cell_guid": "b1076dfc-b9ad-4769-8c92-a6c4dae69d19",
"_uuid": "8f2839f25d086af736a60e9eeb907d3b93b6e0e5",
"execution": {
"iopub.execute_input": "2021-08-02T04:17:46.923289Z",
"iopub.status.busy": "2021-08-02T04:17:46.922221Z",
"iopub.status.idle": "2021-08-02T04:17:49.072328Z",
"shell.execute_reply": "2021-08-02T04:17:49.071810Z",
"shell.execute_reply.started": "2021-08-02T03:54:17.830666Z"
},
"papermill": {
"duration": 2.170505,
"end_time": "2021-08-02T04:17:49.072469",
"exception": false,
"start_time": "2021-08-02T04:17:46.901964",
"status": "completed"
},
"tags": []
},
"outputs": [
{
"data": {
"text/plain": [
"[{'いつ': '令和3年7月29日(木曜日)',\n",
" 'どこで': '私立認可保育園',\n",
" 'だれが': '園児',\n",
" '内容': '令和3年7月29日(木曜日)、文京区内の私立認可保育園に在籍する園児1名が、新型コロナウイルス感染症に罹患していることが判明しました。感染拡大防止のため、7月30日(金曜日)及び7月31日(土曜日)は臨時休園することとし、全園児の保護者に対して園から連絡を行いました。'},\n",
" {'いつ': '令和3年7月29日(木曜日)',\n",
" 'どこで': '私立認可保育園',\n",
" 'だれが': '職員',\n",
" '内容': '令和3年7月29日(木曜日)、文京区内の私立認可保育園に勤務する職員(50代以上)1名が、新型コロナウイルス感染症に罹患していることが判明しました。感染拡大防止のため、7月30日(金曜日)及び7月31日(土曜日)は臨時休園することとし、全園児の保護者に対して園から連絡を行いました。'},\n",
" {'いつ': '令和3年7月28日(水曜日)',\n",
" 'どこで': '私立認可保育園',\n",
" 'だれが': '職員',\n",
" '内容': '令和3年7月28日(水曜日)、文京区内の私立認可保育園に勤務する職員(20代以下)1名が、新型コロナウイルス感染症に罹患していることが判明しました。感染拡大防止のため、7月29日(木曜日)から7月31日(土曜日)まで臨時休園することとし、全園児の保護者に対して園から連絡を行いました。'},\n",
" {'いつ': '令和3年7月28日(水曜日)',\n",
" 'どこで': '私立認可保育園',\n",
" 'だれが': '職員',\n",
" '内容': '令和3年7月28日(水曜日)、文京区内の私立認可保育園に勤務する職員(20代以下)1名が、新型コロナウイルス感染症に罹患していることが判明しました。感染拡大防止のため、7月29日(木曜日)は臨時休園することとし、全園児の保護者に対して園から連絡を行いました。'},\n",
" {'いつ': '令和3年7月29日(木曜日)',\n",
" 'どこで': '私立認可保育園',\n",
" 'だれが': '職員及び園児',\n",
" '内容': '令和3年7月29日(木曜日)、新たに職員(30代)1名及び園児1名が、新型コロナウイルス感染症に罹患していることが判明したため、休園期間を7月31日(土曜日)まで延長することとし、全園児の保護者に対して園から連絡を行いました。'}]"
]
},
"execution_count": 2,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"from urllib.request import urlopen\n",
"from bs4 import BeautifulSoup as BS\n",
"\n",
"src = urlopen(\"https://www.city.bunkyo.lg.jp/kyoiku/kosodate/okosan/nicchu/ninka/coronaoshirase.html\").read()\n",
"soup = BS(src)\n",
"\n",
"ts = soup.find_all(\"table\")\n",
"def parse_table(t):\n",
" ths = t.find_all(\"th\")\n",
" tds = [th.find_next(\"td\") for th in ths]\n",
" data = {th.text.strip():td.text.strip() for th,td in zip(ths,tds)}\n",
" return data\n",
"\n",
"x = [parse_table(t) for t in ts]\n",
"x[:5]"
]
},
{
"cell_type": "code",
"execution_count": 3,
"id": "01f99ace",
"metadata": {
"execution": {
"iopub.execute_input": "2021-08-02T04:17:49.094175Z",
"iopub.status.busy": "2021-08-02T04:17:49.093428Z",
"iopub.status.idle": "2021-08-02T04:17:49.095881Z",
"shell.execute_reply": "2021-08-02T04:17:49.096363Z",
"shell.execute_reply.started": "2021-08-02T03:53:13.318741Z"
},
"papermill": {
"duration": 0.015987,
"end_time": "2021-08-02T04:17:49.096522",
"exception": false,
"start_time": "2021-08-02T04:17:49.080535",
"status": "completed"
},
"tags": []
},
"outputs": [],
"source": [
"# check the consistency in the variable names\n",
"expected = ['いつ', 'どこで', 'だれが', '内容']\n",
"for a in x:\n",
" keys = list(a.keys())\n",
" assert len(keys) == len(expected), a\n",
" assert sorted(keys) == sorted(expected), a"
]
},
{
"cell_type": "code",
"execution_count": 4,
"id": "21af8d3a",
"metadata": {
"execution": {
"iopub.execute_input": "2021-08-02T04:17:49.143881Z",
"iopub.status.busy": "2021-08-02T04:17:49.134877Z",
"iopub.status.idle": "2021-08-02T04:17:49.163664Z",
"shell.execute_reply": "2021-08-02T04:17:49.163157Z",
"shell.execute_reply.started": "2021-08-02T04:17:22.018617Z"
},
"papermill": {
"duration": 0.058975,
"end_time": "2021-08-02T04:17:49.163805",
"exception": false,
"start_time": "2021-08-02T04:17:49.104830",
"status": "completed"
},
"tags": []
},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>date</th>\n",
" <th>place</th>\n",
" <th>patient</th>\n",
" <th>patient_worker</th>\n",
" <th>patient_child</th>\n",
" <th>detail</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>2021-07-29</td>\n",
" <td>私立認可保育園</td>\n",
" <td>園児</td>\n",
" <td>False</td>\n",
" <td>True</td>\n",
" <td>令和3年7月29日(木曜日)、文京区内の私立認可保育園に在籍する園児1名が、新型コロナウイル...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>2021-07-29</td>\n",
" <td>私立認可保育園</td>\n",
" <td>職員</td>\n",
" <td>True</td>\n",
" <td>False</td>\n",
" <td>令和3年7月29日(木曜日)、文京区内の私立認可保育園に勤務する職員(50代以上)1名が、新...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>2021-07-28</td>\n",
" <td>私立認可保育園</td>\n",
" <td>職員</td>\n",
" <td>True</td>\n",
" <td>False</td>\n",
" <td>令和3年7月28日(水曜日)、文京区内の私立認可保育園に勤務する職員(20代以下)1名が、新...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>2021-07-28</td>\n",
" <td>私立認可保育園</td>\n",
" <td>職員</td>\n",
" <td>True</td>\n",
" <td>False</td>\n",
" <td>令和3年7月28日(水曜日)、文京区内の私立認可保育園に勤務する職員(20代以下)1名が、新...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>2021-07-29</td>\n",
" <td>私立認可保育園</td>\n",
" <td>職員及び園児</td>\n",
" <td>True</td>\n",
" <td>True</td>\n",
" <td>令和3年7月29日(木曜日)、新たに職員(30代)1名及び園児1名が、新型コロナウイルス感染...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>...</th>\n",
" <td>...</td>\n",
" <td>...</td>\n",
" <td>...</td>\n",
" <td>...</td>\n",
" <td>...</td>\n",
" <td>...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>70</th>\n",
" <td>2020-08-04</td>\n",
" <td>私立認可保育園</td>\n",
" <td>園児</td>\n",
" <td>False</td>\n",
" <td>True</td>\n",
" <td>令和2年8月4日、文京区内の私立認可保育園に在籍する園児1名が、新型コロナウイルス感染症に罹...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>71</th>\n",
" <td>2020-07-09</td>\n",
" <td>区立認可保育園</td>\n",
" <td>職員及び園児</td>\n",
" <td>True</td>\n",
" <td>True</td>\n",
" <td>令和2年7月9日及び10日に、文京区内の区立認可保育園に勤務する職員1名と在籍する園児2名が...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>72</th>\n",
" <td>2020-04-22</td>\n",
" <td>認可外保育施設</td>\n",
" <td>職員</td>\n",
" <td>True</td>\n",
" <td>False</td>\n",
" <td>令和2年4月22日、文京区内の認可外保育施設に勤務する職員1名が、新型コロナウイルス感染症に...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>73</th>\n",
" <td>2020-04-08</td>\n",
" <td>私立認可保育園</td>\n",
" <td>園児</td>\n",
" <td>False</td>\n",
" <td>True</td>\n",
" <td>令和2年4月8日、文京区内の私立認可保育園に在籍する園児1名が、新型コロナウイルス感染症に罹...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>74</th>\n",
" <td>2020-04-02</td>\n",
" <td>私立認可保育園</td>\n",
" <td>職員</td>\n",
" <td>True</td>\n",
" <td>False</td>\n",
" <td>令和2年4月2日、文京区内の私立認可保育園の職員1名が、新型コロナウイルス感染症に罹患してい...</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"<p>75 rows × 6 columns</p>\n",
"</div>"
],
"text/plain": [
" date place patient patient_worker patient_child \\\n",
"0 2021-07-29 私立認可保育園 園児 False True \n",
"1 2021-07-29 私立認可保育園 職員 True False \n",
"2 2021-07-28 私立認可保育園 職員 True False \n",
"3 2021-07-28 私立認可保育園 職員 True False \n",
"4 2021-07-29 私立認可保育園 職員及び園児 True True \n",
".. ... ... ... ... ... \n",
"70 2020-08-04 私立認可保育園 園児 False True \n",
"71 2020-07-09 区立認可保育園 職員及び園児 True True \n",
"72 2020-04-22 認可外保育施設 職員 True False \n",
"73 2020-04-08 私立認可保育園 園児 False True \n",
"74 2020-04-02 私立認可保育園 職員 True False \n",
"\n",
" detail \n",
"0 令和3年7月29日(木曜日)、文京区内の私立認可保育園に在籍する園児1名が、新型コロナウイル... \n",
"1 令和3年7月29日(木曜日)、文京区内の私立認可保育園に勤務する職員(50代以上)1名が、新... \n",
"2 令和3年7月28日(水曜日)、文京区内の私立認可保育園に勤務する職員(20代以下)1名が、新... \n",
"3 令和3年7月28日(水曜日)、文京区内の私立認可保育園に勤務する職員(20代以下)1名が、新... \n",
"4 令和3年7月29日(木曜日)、新たに職員(30代)1名及び園児1名が、新型コロナウイルス感染... \n",
".. ... \n",
"70 令和2年8月4日、文京区内の私立認可保育園に在籍する園児1名が、新型コロナウイルス感染症に罹... \n",
"71 令和2年7月9日及び10日に、文京区内の区立認可保育園に勤務する職員1名と在籍する園児2名が... \n",
"72 令和2年4月22日、文京区内の認可外保育施設に勤務する職員1名が、新型コロナウイルス感染症に... \n",
"73 令和2年4月8日、文京区内の私立認可保育園に在籍する園児1名が、新型コロナウイルス感染症に罹... \n",
"74 令和2年4月2日、文京区内の私立認可保育園の職員1名が、新型コロナウイルス感染症に罹患してい... \n",
"\n",
"[75 rows x 6 columns]"
]
},
"execution_count": 4,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"import re\n",
"import pandas as pd\n",
"\n",
"def clean_item(item):\n",
" date = item[\"いつ\"]\n",
" r = re.search(r\"令和(\\d+)年(\\d+)月(\\d+)日\", date) # ignore the second date, if any\n",
" assert r is not None, item\n",
" date = \"%04d-%02d-%02d\" % (int(r.group(1)) + 2018, int(r.group(2)), int(r.group(3))) \n",
" place = item[\"どこで\"]\n",
" patient = item[\"だれが\"]\n",
" patient_worker = (patient.find(\"職員\") >= 0)\n",
" patient_child = (patient.find(\"園児\") >= 0)\n",
" detail = item[\"内容\"]\n",
" return {\"date\":date, \"place\":place, \"patient\":patient,\n",
" \"patient_worker\":patient_worker, \"patient_child\":patient_child, \"detail\":detail}\n",
"y = pd.DataFrame(clean_item(a) for a in x)\n",
"y.date = pd.to_datetime(y.date, format=\"%Y-%m-%d\")\n",
"\n",
"y"
]
},
{
"cell_type": "code",
"execution_count": 5,
"id": "7d81f8e8",
"metadata": {
"execution": {
"iopub.execute_input": "2021-08-02T04:17:49.203664Z",
"iopub.status.busy": "2021-08-02T04:17:49.202974Z",
"iopub.status.idle": "2021-08-02T04:17:49.891994Z",
"shell.execute_reply": "2021-08-02T04:17:49.891473Z",
"shell.execute_reply.started": "2021-08-02T04:17:23.652429Z"
},
"papermill": {
"duration": 0.719632,
"end_time": "2021-08-02T04:17:49.892144",
"exception": false,
"start_time": "2021-08-02T04:17:49.172512",
"status": "completed"
},
"tags": []
},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 864x432 with 2 Axes>"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"import matplotlib.pyplot as plt\n",
"\n",
"fig, ax = plt.subplots(2, 1, figsize=(12, 6), sharex=True, sharey=True)\n",
"\n",
"\n",
"# approx 14 days bins\n",
"bins = int((y.date.max() - y.date.min()).days / 14)\n",
"y.date[y.patient_worker].hist(ax=ax[0], bins=bins, edgecolor=\"grey\")\n",
"ax[0].set_title(\"Workers\")\n",
"y.date[y.patient_child].hist(ax=ax[1], bins=bins, edgecolor=\"grey\")\n",
"ax[1].set_title(\"Children\")\n",
"fig.tight_layout()\n",
"None"
]
},
{
"cell_type": "code",
"execution_count": 6,
"id": "36724c9a",
"metadata": {
"execution": {
"iopub.execute_input": "2021-08-02T04:17:49.916412Z",
"iopub.status.busy": "2021-08-02T04:17:49.915677Z",
"iopub.status.idle": "2021-08-02T04:17:49.924190Z",
"shell.execute_reply": "2021-08-02T04:17:49.923523Z",
"shell.execute_reply.started": "2021-08-02T04:17:25.245538Z"
},
"papermill": {
"duration": 0.022628,
"end_time": "2021-08-02T04:17:49.924326",
"exception": false,
"start_time": "2021-08-02T04:17:49.901698",
"status": "completed"
},
"tags": []
},
"outputs": [],
"source": [
"y.to_csv(\"coronavirus-cases-in-bunkyoku-daycares_{}.csv\".format(currenttime.strftime(\"%Y%m%d\")), index=False)"
]
},
{
"cell_type": "code",
"execution_count": null,
"id": "480bc9cb",
"metadata": {
"papermill": {
"duration": 0.009413,
"end_time": "2021-08-02T04:17:49.943928",
"exception": false,
"start_time": "2021-08-02T04:17:49.934515",
"status": "completed"
},
"tags": []
},
"outputs": [],
"source": []
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.7.10"
},
"papermill": {
"default_parameters": {},
"duration": 11.622484,
"end_time": "2021-08-02T04:17:50.563350",
"environment_variables": {},
"exception": null,
"input_path": "__notebook__.ipynb",
"output_path": "__notebook__.ipynb",
"parameters": {},
"start_time": "2021-08-02T04:17:38.940866",
"version": "2.3.3"
}
},
"nbformat": 4,
"nbformat_minor": 5
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment