Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Save HyeongWookKim/860f60e9584e8ea4bb7928e675669114 to your computer and use it in GitHub Desktop.
Save HyeongWookKim/860f60e9584e8ea4bb7928e675669114 to your computer and use it in GitHub Desktop.
Kaggle - 타이타닉 advanced <Part 2>
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Kaggle - Titanic_Part 2\n",
"**<분석 목적>**\n",
"- 타이타닉에 탑승한 사람들의 신상정보를 활용하여, 승선한 사람들의 **생존 여부**를 **예측**하는 모델을 생성하는 것이다.\n",
"- 지난 튜토리얼에서는 단순히 랜덤 포레스트 모델을 사용해서 타이타닉 생존자 예측 여부를 예측해보았다.\n",
"- 이번에는 처음부터 끝까지 모든 과정을 스스로 분석해보며 최적의 모델을 만들어내 볼 것이다.\n",
" - **목표는 80% 이상의 정확도(accuracy)를 갖는 모델**을 생성해내는 것이다!!\n",
"\n",
"**<분석 과정>**\n",
"1. 데이터 셋 확인\n",
"2. 탐색적 데이터 분석(EDA)\n",
"3. Feature Engineering(특성 공학)\n",
"4. 모델 생성 - ***Logistic Regression, Decision Tree, Random Forest*** 이렇게 총 3개의 모델을 사용할 것이다. \n",
"5. 모델 학습 및 예측\n",
"6. 모델 평가"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"**본격적으로 <Part 2>를 시작하기에 앞서, <Part 1>에서 수행해주었던 작업들을 다시 수행해주겠다.**"
]
},
{
"cell_type": "code",
"execution_count": 1,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:47.713939Z",
"start_time": "2020-06-10T13:59:44.159416Z"
}
},
"outputs": [
{
"data": {
"text/html": [
" <script type=\"text/javascript\">\n",
" window.PlotlyConfig = {MathJaxConfig: 'local'};\n",
" if (window.MathJax) {MathJax.Hub.Config({SVG: {font: \"STIX-Web\"}});}\n",
" if (typeof require !== 'undefined') {\n",
" require.undef(\"plotly\");\n",
" requirejs.config({\n",
" paths: {\n",
" 'plotly': ['https://cdn.plot.ly/plotly-latest.min']\n",
" }\n",
" });\n",
" require(['plotly'], function(Plotly) {\n",
" window._Plotly = Plotly;\n",
" });\n",
" }\n",
" </script>\n",
" "
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"import numpy as np\n",
"import pandas as pd\n",
"from pandas import Series\n",
"import matplotlib.pyplot as plt\n",
"import seaborn as sns\n",
"%matplotlib inline\n",
"\n",
"# 이 두 줄의 코드는 matplotlib의 기본 scheme말고, seaborn scheme을 세팅해준다\n",
"# 일일이 graph의 font size를 지정할 필요 없이, seaborn의 font_scale을 사용하면 편리하다\n",
"plt.style.use('seaborn')\n",
"sns.set(font_scale = 2.5)\n",
"\n",
"import plotly.offline as py\n",
"py.init_notebook_mode(connected = True)\n",
"import plotly.graph_objs as go\n",
"import plotly.tools as tls\n",
"\n",
"import warnings\n",
"warnings.filterwarnings('ignore')"
]
},
{
"cell_type": "code",
"execution_count": 2,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:47.809008Z",
"start_time": "2020-06-10T13:59:47.724947Z"
}
},
"outputs": [],
"source": [
"df_train = pd.read_csv('../titanic/train.csv')\n",
"df_test = pd.read_csv('../titanic/test.csv')\n",
"\n",
"# SibSp, Parch 변수를 하나의 변수(FamilySize)로 합쳐준다\n",
"# 자신을 포함해야하므로, 1 을 더해준다\n",
"df_train['FamilySize'] = df_train['SibSp'] + df_train['Parch'] + 1\n",
"df_test['FamilySize'] = df_test['SibSp'] + df_test['Parch'] + 1"
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:47.868049Z",
"start_time": "2020-06-10T13:59:47.816013Z"
}
},
"outputs": [],
"source": [
"# 정규표현식을 사용하여 title을 추출\n",
"df_train['Initial'] = df_train.Name.str.extract('([A-Za-z]+)\\.')\n",
"df_test['Initial'] = df_test.Name.str.extract('([A-Za-z]+)\\.')\n",
"\n",
"# 위에서 생성된 테이블을 참고하여 남자, 여자가 쓰는 Initial을 구분\n",
"df_train['Initial'].replace(['Mlle', 'Mme', 'Ms', 'Dr', 'Major',\n",
" 'Lady', 'Countess', 'Jonkheer', 'Col',\n",
" 'Rev', 'Capt', 'Sir', 'Don', 'Dona'],\n",
" ['Miss', 'Miss', 'Miss', 'Mr', 'Mr',\n",
" 'Mrs', 'Mrs', 'Other', 'Other',\n",
" 'Other', 'Mr', 'Mr', 'Mr', 'Mr'], inplace = True)\n",
"\n",
"df_test['Initial'].replace(['Mlle', 'Mme', 'Ms', 'Dr', 'Major',\n",
" 'Lady', 'Countess', 'Jonkheer', 'Col',\n",
" 'Rev', 'Capt', 'Sir', 'Don', 'Dona'],\n",
" ['Miss', 'Miss', 'Miss', 'Mr', 'Mr',\n",
" 'Mrs', 'Mrs', 'Other', 'Other',\n",
" 'Other', 'Mr', 'Mr', 'Mr', 'Mr'], inplace = True)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Feature Engineering(특성 공학)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Fare 변수"
]
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:47.897069Z",
"start_time": "2020-06-10T13:59:47.876054Z"
}
},
"outputs": [],
"source": [
"# 1. Null 값 대체\n",
"# 테스트 데이터 셋의 Fare 변수에 존재하는 Null 값을 평균값으로 대체\n",
"df_test.loc[df_test.Fare.isnull(), 'Fare'] = df_test['Fare'].mean()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"- **테스트 데이터 셋**에 존재하는 **Fare 변수의 Null 값들을 평균값으로 대체**해주겠다."
]
},
{
"cell_type": "code",
"execution_count": 5,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:48.660611Z",
"start_time": "2020-06-10T13:59:47.902073Z"
}
},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 576x396 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"# 2. 로그 변환\n",
"# apply 대신 map을 사용해도 결과는 동일\n",
"df_train['Fare'] = df_train['Fare'].apply(lambda x: np.log(x) if x > 0 else 0)\n",
"df_test['Fare'] = df_test['Fare'].apply(lambda x: np.log(x) if x > 0 else 0)\n",
"\n",
"fare_hist = sns.distplot(df_train['Fare'], label = 'Skewness: {:.2f}'.format(df_train['Fare'].skew()))\n",
"fare_hist = fare_hist.legend(loc = 'best')"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"- <Part 1>에서 Fare 변수의 분포를 확인해 본 결과, 굉장히 치우친 분포를 보이는 것을 알 수 있었다.\n",
"- 따라서 Fare 변수에 대해서 **로그 변환**을 수행해주었다.\n",
" - 확실히 로그 변환을 해주니, 치우침의 정도가 어느 정도 개선되었음을 알 수 있다.\n",
"- 이렇게 **로그 변환된 Fare 변수도 모델의 feature**로 넣어줄 것이다."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Age 변수\n",
"- Age 변수는 Null 값이 177개나 존재한다.\n",
"- 이를 채워주기 위해, <Part 1>에서 만들어준 **Initial** 변수를 사용해보겠다."
]
},
{
"cell_type": "code",
"execution_count": 6,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:48.699640Z",
"start_time": "2020-06-10T13:59:48.664615Z"
}
},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>PassengerId</th>\n",
" <th>Survived</th>\n",
" <th>Pclass</th>\n",
" <th>Age</th>\n",
" <th>SibSp</th>\n",
" <th>Parch</th>\n",
" <th>Fare</th>\n",
" <th>FamilySize</th>\n",
" </tr>\n",
" <tr>\n",
" <th>Initial</th>\n",
" <th></th>\n",
" <th></th>\n",
" <th></th>\n",
" <th></th>\n",
" <th></th>\n",
" <th></th>\n",
" <th></th>\n",
" <th></th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>Master</th>\n",
" <td>414.975000</td>\n",
" <td>0.575000</td>\n",
" <td>2.625000</td>\n",
" <td>4.574167</td>\n",
" <td>2.300000</td>\n",
" <td>1.375000</td>\n",
" <td>3.340710</td>\n",
" <td>4.675000</td>\n",
" </tr>\n",
" <tr>\n",
" <th>Miss</th>\n",
" <td>411.741935</td>\n",
" <td>0.704301</td>\n",
" <td>2.284946</td>\n",
" <td>21.860000</td>\n",
" <td>0.698925</td>\n",
" <td>0.537634</td>\n",
" <td>3.123713</td>\n",
" <td>2.236559</td>\n",
" </tr>\n",
" <tr>\n",
" <th>Mr</th>\n",
" <td>455.880907</td>\n",
" <td>0.162571</td>\n",
" <td>2.381853</td>\n",
" <td>32.739609</td>\n",
" <td>0.293006</td>\n",
" <td>0.151229</td>\n",
" <td>2.651507</td>\n",
" <td>1.444234</td>\n",
" </tr>\n",
" <tr>\n",
" <th>Mrs</th>\n",
" <td>456.393701</td>\n",
" <td>0.795276</td>\n",
" <td>1.984252</td>\n",
" <td>35.981818</td>\n",
" <td>0.692913</td>\n",
" <td>0.818898</td>\n",
" <td>3.443751</td>\n",
" <td>2.511811</td>\n",
" </tr>\n",
" <tr>\n",
" <th>Other</th>\n",
" <td>564.444444</td>\n",
" <td>0.111111</td>\n",
" <td>1.666667</td>\n",
" <td>45.888889</td>\n",
" <td>0.111111</td>\n",
" <td>0.111111</td>\n",
" <td>2.641605</td>\n",
" <td>1.222222</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" PassengerId Survived Pclass Age SibSp Parch \\\n",
"Initial \n",
"Master 414.975000 0.575000 2.625000 4.574167 2.300000 1.375000 \n",
"Miss 411.741935 0.704301 2.284946 21.860000 0.698925 0.537634 \n",
"Mr 455.880907 0.162571 2.381853 32.739609 0.293006 0.151229 \n",
"Mrs 456.393701 0.795276 1.984252 35.981818 0.692913 0.818898 \n",
"Other 564.444444 0.111111 1.666667 45.888889 0.111111 0.111111 \n",
"\n",
" Fare FamilySize \n",
"Initial \n",
"Master 3.340710 4.675000 \n",
"Miss 3.123713 2.236559 \n",
"Mr 2.651507 1.444234 \n",
"Mrs 3.443751 2.511811 \n",
"Other 2.641605 1.222222 "
]
},
"execution_count": 6,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 1. Null 값 대체\n",
"# Age 변수에 존재하는 Null 값들을 Age 변수의 평균값으로 대체하기 위해, 평균값들을 확인\n",
"df_train.groupby('Initial').mean()"
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:48.773692Z",
"start_time": "2020-06-10T13:59:48.702643Z"
}
},
"outputs": [],
"source": [
"# 학습 데이터 셋과 테스트 데이터 셋에 존재하는 Age 변수의 Null 값들을 평균 값들로 대체\n",
"df_train.loc[(df_train.Age.isnull()) & (df_train['Initial'] == 'Master'), 'Age'] = 5\n",
"df_train.loc[(df_train.Age.isnull()) & (df_train['Initial'] == 'Miss'), 'Age'] = 22\n",
"df_train.loc[(df_train.Age.isnull()) & (df_train['Initial'] == 'Mr'), 'Age'] = 33\n",
"df_train.loc[(df_train.Age.isnull()) & (df_train['Initial'] == 'Mrs'), 'Age'] = 36\n",
"df_train.loc[(df_train.Age.isnull()) & (df_train['Initial'] == 'Other'), 'Age'] = 46\n",
"\n",
"df_test.loc[(df_test.Age.isnull()) & (df_test['Initial'] == 'Master'), 'Age'] = 5\n",
"df_test.loc[(df_test.Age.isnull()) & (df_test['Initial'] == 'Miss'), 'Age'] = 22\n",
"df_test.loc[(df_test.Age.isnull()) & (df_test['Initial'] == 'Mr'), 'Age'] = 33\n",
"df_test.loc[(df_test.Age.isnull()) & (df_test['Initial'] == 'Mrs'), 'Age'] = 36\n",
"df_test.loc[(df_test.Age.isnull()) & (df_test['Initial'] == 'Other'), 'Age'] = 46"
]
},
{
"cell_type": "code",
"execution_count": 8,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:49.366114Z",
"start_time": "2020-06-10T13:59:48.780698Z"
}
},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 720x360 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"plt.figure(figsize = (10, 5))\n",
"age_full_hist = sns.distplot(df_train['Age'], label = 'Skewness: {:.2f}'.format(df_train['Age'].skew()))\n",
"age_full_hist = age_full_hist.legend(loc = 'best')"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"- **Age 변수**에 존재하는 **Null 값들을 모두 평균 값으로 대체**해서 채워주었더니, **치우침의 정도가 조금(?) 좋아졌다**."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"**연속형 변수인 Age를 범주화**"
]
},
{
"cell_type": "code",
"execution_count": 9,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:49.388128Z",
"start_time": "2020-06-10T13:59:49.371118Z"
}
},
"outputs": [],
"source": [
"def category_age(x):\n",
" if x <= 16:\n",
" return 0\n",
" elif x <= 32:\n",
" return 1\n",
" elif x <= 48:\n",
" return 2\n",
" elif x <= 64:\n",
" return 3\n",
" else:\n",
" return 4\n",
" \n",
"df_train['Age_cat'] = df_train['Age'].apply(category_age)\n",
"df_test['Age_cat'] = df_test['Age'].apply(category_age)"
]
},
{
"cell_type": "code",
"execution_count": 10,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:49.420152Z",
"start_time": "2020-06-10T13:59:49.393133Z"
}
},
"outputs": [],
"source": [
"# 이제 원래 컬럼인 Age를 제거해주겠다\n",
"df_train.drop(['Age'], axis = 1, inplace = True)\n",
"df_test.drop(['Age'], axis = 1, inplace = True)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### FamilySize 변수\n",
"- 가족 수를 기준으로 3개의 범주로 범주화를시켜주겠다\n",
" - FamilySize = 1, 2, 3 : \"0\"\n",
" - FamilySize = 4, 5, 6 : \"1\"\n",
" - FamilySize = 7, 8, 11 : \"2\""
]
},
{
"cell_type": "code",
"execution_count": 11,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:49.455178Z",
"start_time": "2020-06-10T13:59:49.429160Z"
}
},
"outputs": [],
"source": [
"def category_FamilySize(x):\n",
" if x <= 3:\n",
" return 0\n",
" elif x <= 6:\n",
" return 1\n",
" else:\n",
" return 2\n",
" \n",
"df_train['FamilySize_cat'] = df_train['FamilySize'].apply(category_FamilySize)\n",
"df_test['FamilySize_cat'] = df_test['FamilySize'].apply(category_FamilySize)\n",
"\n",
"del df_train['FamilySize']\n",
"del df_test['FamilySize']"
]
},
{
"cell_type": "code",
"execution_count": 12,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:49.477193Z",
"start_time": "2020-06-10T13:59:49.459183Z"
}
},
"outputs": [
{
"data": {
"text/plain": [
"0 800\n",
"1 66\n",
"2 25\n",
"Name: FamilySize_cat, dtype: int64"
]
},
"execution_count": 12,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df_train['FamilySize_cat'].value_counts()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Embarked 변수\n",
"- Embarked 변수에서 \"S\" 값이 가장 많으므로, 모든 Null 값들을 \"S\"로 대체해주겠다."
]
},
{
"cell_type": "code",
"execution_count": 13,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:49.498208Z",
"start_time": "2020-06-10T13:59:49.482197Z"
}
},
"outputs": [
{
"data": {
"text/plain": [
"S 644\n",
"C 168\n",
"Q 77\n",
"Name: Embarked, dtype: int64"
]
},
"execution_count": 13,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df_train['Embarked'].value_counts()"
]
},
{
"cell_type": "code",
"execution_count": 14,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:49.518222Z",
"start_time": "2020-06-10T13:59:49.502211Z"
}
},
"outputs": [],
"source": [
"# Null 값 대체\n",
"df_train['Embarked'].fillna('S', inplace = True)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### 문자열 변수인 Initial, Embarked, Sex를 수치형 변수로 변환"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"**Initial 변수를 수치화**"
]
},
{
"cell_type": "code",
"execution_count": 15,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:49.545240Z",
"start_time": "2020-06-10T13:59:49.525227Z"
}
},
"outputs": [],
"source": [
"df_train['Initial'] = df_train['Initial'].map({'Master': 0, 'Miss': 1, 'Mr': 2, 'Mrs': 3, 'Other': 4})\n",
"df_test['Initial'] = df_test['Initial'].map({'Master': 0, 'Miss': 1, 'Mr': 2, 'Mrs': 3, 'Other': 4})"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"**Embarked 변수를 수치화**"
]
},
{
"cell_type": "code",
"execution_count": 16,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:49.568257Z",
"start_time": "2020-06-10T13:59:49.549243Z"
}
},
"outputs": [],
"source": [
"df_train['Embarked'] = df_train['Embarked'].map({'C': 0, 'Q': 1, 'S': 2})\n",
"df_test['Embarked'] = df_test['Embarked'].map({'C': 0, 'Q': 1, 'S': 2})"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"**Sex 변수를 수치화**"
]
},
{
"cell_type": "code",
"execution_count": 17,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:49.605284Z",
"start_time": "2020-06-10T13:59:49.582267Z"
}
},
"outputs": [],
"source": [
"df_train['Sex'] = df_train['Sex'].map({'female': 0, 'male': 1})\n",
"df_test['Sex'] = df_test['Sex'].map({'female': 0, 'male': 1})"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### 각 feature 간의 상관관계를 시각화\n",
"- **피어슨 상관계수**가 **1 에 가까우면 양의 상관관계**, **-1 에 가까우면 음의 상관관계**이다.\n",
"- **피어슨 상관계수가 0** 이라는 것은 상관관계가 없다는 의미가 아니라, **선형적인 상관관계가 없다는 의미**이다.\n",
" - 즉, **비선형적 상관관계는 존재할 수 있다!**"
]
},
{
"cell_type": "code",
"execution_count": 18,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:50.751097Z",
"start_time": "2020-06-10T13:59:49.609287Z"
},
"scrolled": true
},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 1008x864 with 2 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"heatmap_data = df_train[['Survived', 'Pclass', 'Sex', \n",
" 'Fare', 'Embarked', 'FamilySize_cat', \n",
" 'Initial', 'Age_cat']]\n",
"\n",
"colormap = plt.cm.RdBu\n",
"\n",
"plt.figure(figsize = (14, 12))\n",
"plt.title('Pearson Correlation of Features', size = 20)\n",
"sns.heatmap(heatmap_data.astype(float).corr(), cmap = colormap, square = True,\n",
" linecolor = 'white', linewidth = 0.1, annot = True, annot_kws = {'size': 15})\n",
"\n",
"del heatmap_data"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"- 앞선 EDA 과정에서 살펴봤듯이, **Sex와 Pclass 변수가 Survived 변수와 어느 정도 상관관계가 존재함**을 알 수 있다.\n",
"- 하지만 **서로 강한 상관관계를 갖는 feature들은 존재하지 않는 것을 확인**할 수 있다.\n",
" - 즉, **다중 공선성을 보이는 변수들이 존재하지 않는다**는 의미이다.\n",
" - 다시 말해, 모델 생성에 있어서 **불필요한 feature가 없다**는 말이다."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### One-Hot Encoding(원-핫 인코딩)\n",
"- 수치화를 시켜준 범주형 데이터를 그대로 모델에 넣어줘도 되지만, 모델의 성능을 높여주기 위해서 **one-hot encoding** 작업을 수행해주겠다.\n",
" - 원-핫 인코딩이라는게 쉽게 말하면 **가변수(더미변수)를 만들어주겠다**는 말이랑 동일하다.\n",
" - **Pandas**의 ```get_dummies()```를 사용하면 쉽게 수행해 줄 수 있다.\n",
" - ```prefix``` 옵션을 사용하면, **가변수에 공통으로 접두사를 추가**할 수 있다.\n",
" - ```drop_first = True``` 옵션을 설정하면, **가변수의 첫 번째 변수를 자동으로 삭제**해준다.\n",
" - 즉, **가변수 함정(dummy_trap)을 피할 수 있게 해준다 --> 총 (k-1)개의 가변수 생성!!**"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"**Initial 변수에 대해서 One-Hot Encoding 처리**"
]
},
{
"cell_type": "code",
"execution_count": 19,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:50.781118Z",
"start_time": "2020-06-10T13:59:50.755100Z"
}
},
"outputs": [],
"source": [
"df_train = pd.get_dummies(df_train, columns = ['Initial'], prefix = 'Initial')\n",
"df_test = pd.get_dummies(df_test, columns = ['Initial'], prefix = 'Initial')"
]
},
{
"cell_type": "code",
"execution_count": 20,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:50.828152Z",
"start_time": "2020-06-10T13:59:50.786123Z"
}
},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>PassengerId</th>\n",
" <th>Survived</th>\n",
" <th>Pclass</th>\n",
" <th>Name</th>\n",
" <th>Sex</th>\n",
" <th>SibSp</th>\n",
" <th>Parch</th>\n",
" <th>Ticket</th>\n",
" <th>Fare</th>\n",
" <th>Cabin</th>\n",
" <th>Embarked</th>\n",
" <th>Age_cat</th>\n",
" <th>FamilySize_cat</th>\n",
" <th>Initial_0</th>\n",
" <th>Initial_1</th>\n",
" <th>Initial_2</th>\n",
" <th>Initial_3</th>\n",
" <th>Initial_4</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>3</td>\n",
" <td>Braund, Mr. Owen Harris</td>\n",
" <td>1</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>A/5 21171</td>\n",
" <td>1.981001</td>\n",
" <td>NaN</td>\n",
" <td>2</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>2</td>\n",
" <td>1</td>\n",
" <td>1</td>\n",
" <td>Cumings, Mrs. John Bradley (Florence Briggs Th...</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>PC 17599</td>\n",
" <td>4.266662</td>\n",
" <td>C85</td>\n",
" <td>0</td>\n",
" <td>2</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>3</td>\n",
" <td>1</td>\n",
" <td>3</td>\n",
" <td>Heikkinen, Miss. Laina</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>STON/O2. 3101282</td>\n",
" <td>2.070022</td>\n",
" <td>NaN</td>\n",
" <td>2</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>4</td>\n",
" <td>1</td>\n",
" <td>1</td>\n",
" <td>Futrelle, Mrs. Jacques Heath (Lily May Peel)</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>113803</td>\n",
" <td>3.972177</td>\n",
" <td>C123</td>\n",
" <td>2</td>\n",
" <td>2</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>5</td>\n",
" <td>0</td>\n",
" <td>3</td>\n",
" <td>Allen, Mr. William Henry</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>373450</td>\n",
" <td>2.085672</td>\n",
" <td>NaN</td>\n",
" <td>2</td>\n",
" <td>2</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" PassengerId Survived Pclass \\\n",
"0 1 0 3 \n",
"1 2 1 1 \n",
"2 3 1 3 \n",
"3 4 1 1 \n",
"4 5 0 3 \n",
"\n",
" Name Sex SibSp Parch \\\n",
"0 Braund, Mr. Owen Harris 1 1 0 \n",
"1 Cumings, Mrs. John Bradley (Florence Briggs Th... 0 1 0 \n",
"2 Heikkinen, Miss. Laina 0 0 0 \n",
"3 Futrelle, Mrs. Jacques Heath (Lily May Peel) 0 1 0 \n",
"4 Allen, Mr. William Henry 1 0 0 \n",
"\n",
" Ticket Fare Cabin Embarked Age_cat FamilySize_cat \\\n",
"0 A/5 21171 1.981001 NaN 2 1 0 \n",
"1 PC 17599 4.266662 C85 0 2 0 \n",
"2 STON/O2. 3101282 2.070022 NaN 2 1 0 \n",
"3 113803 3.972177 C123 2 2 0 \n",
"4 373450 2.085672 NaN 2 2 0 \n",
"\n",
" Initial_0 Initial_1 Initial_2 Initial_3 Initial_4 \n",
"0 0 0 1 0 0 \n",
"1 0 0 0 1 0 \n",
"2 0 1 0 0 0 \n",
"3 0 0 0 1 0 \n",
"4 0 0 1 0 0 "
]
},
"execution_count": 20,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df_train.head()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"**Embarked 변수에 대해서 One-Hot Encoding 처리**"
]
},
{
"cell_type": "code",
"execution_count": 21,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:50.869180Z",
"start_time": "2020-06-10T13:59:50.831154Z"
}
},
"outputs": [],
"source": [
"df_train = pd.get_dummies(df_train, columns = ['Embarked'], prefix = 'Embarked')\n",
"df_test = pd.get_dummies(df_test, columns = ['Embarked'], prefix = 'Embarked')"
]
},
{
"cell_type": "code",
"execution_count": 22,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:50.915214Z",
"start_time": "2020-06-10T13:59:50.873185Z"
},
"scrolled": true
},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>PassengerId</th>\n",
" <th>Survived</th>\n",
" <th>Pclass</th>\n",
" <th>Name</th>\n",
" <th>Sex</th>\n",
" <th>SibSp</th>\n",
" <th>Parch</th>\n",
" <th>Ticket</th>\n",
" <th>Fare</th>\n",
" <th>Cabin</th>\n",
" <th>Age_cat</th>\n",
" <th>FamilySize_cat</th>\n",
" <th>Initial_0</th>\n",
" <th>Initial_1</th>\n",
" <th>Initial_2</th>\n",
" <th>Initial_3</th>\n",
" <th>Initial_4</th>\n",
" <th>Embarked_0</th>\n",
" <th>Embarked_1</th>\n",
" <th>Embarked_2</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>3</td>\n",
" <td>Braund, Mr. Owen Harris</td>\n",
" <td>1</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>A/5 21171</td>\n",
" <td>1.981001</td>\n",
" <td>NaN</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>2</td>\n",
" <td>1</td>\n",
" <td>1</td>\n",
" <td>Cumings, Mrs. John Bradley (Florence Briggs Th...</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>PC 17599</td>\n",
" <td>4.266662</td>\n",
" <td>C85</td>\n",
" <td>2</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>3</td>\n",
" <td>1</td>\n",
" <td>3</td>\n",
" <td>Heikkinen, Miss. Laina</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>STON/O2. 3101282</td>\n",
" <td>2.070022</td>\n",
" <td>NaN</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>4</td>\n",
" <td>1</td>\n",
" <td>1</td>\n",
" <td>Futrelle, Mrs. Jacques Heath (Lily May Peel)</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>113803</td>\n",
" <td>3.972177</td>\n",
" <td>C123</td>\n",
" <td>2</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>5</td>\n",
" <td>0</td>\n",
" <td>3</td>\n",
" <td>Allen, Mr. William Henry</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>373450</td>\n",
" <td>2.085672</td>\n",
" <td>NaN</td>\n",
" <td>2</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" PassengerId Survived Pclass \\\n",
"0 1 0 3 \n",
"1 2 1 1 \n",
"2 3 1 3 \n",
"3 4 1 1 \n",
"4 5 0 3 \n",
"\n",
" Name Sex SibSp Parch \\\n",
"0 Braund, Mr. Owen Harris 1 1 0 \n",
"1 Cumings, Mrs. John Bradley (Florence Briggs Th... 0 1 0 \n",
"2 Heikkinen, Miss. Laina 0 0 0 \n",
"3 Futrelle, Mrs. Jacques Heath (Lily May Peel) 0 1 0 \n",
"4 Allen, Mr. William Henry 1 0 0 \n",
"\n",
" Ticket Fare Cabin Age_cat FamilySize_cat Initial_0 \\\n",
"0 A/5 21171 1.981001 NaN 1 0 0 \n",
"1 PC 17599 4.266662 C85 2 0 0 \n",
"2 STON/O2. 3101282 2.070022 NaN 1 0 0 \n",
"3 113803 3.972177 C123 2 0 0 \n",
"4 373450 2.085672 NaN 2 0 0 \n",
"\n",
" Initial_1 Initial_2 Initial_3 Initial_4 Embarked_0 Embarked_1 \\\n",
"0 0 1 0 0 0 0 \n",
"1 0 0 1 0 1 0 \n",
"2 1 0 0 0 0 0 \n",
"3 0 0 1 0 0 0 \n",
"4 0 1 0 0 0 0 \n",
"\n",
" Embarked_2 \n",
"0 1 \n",
"1 0 \n",
"2 1 \n",
"3 1 \n",
"4 1 "
]
},
"execution_count": 22,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df_train.head()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### 불필요한 컬럼 제거\n",
"- 실질적으로 분석에 사용할 feature들만 남기고 나머지는 제거해주겠다."
]
},
{
"cell_type": "code",
"execution_count": 23,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:50.943233Z",
"start_time": "2020-06-10T13:59:50.925220Z"
}
},
"outputs": [],
"source": [
"df_train.drop(['PassengerId', 'Name', 'SibSp', 'Parch', 'Ticket', 'Cabin'], axis = 1, inplace = True)\n",
"df_test.drop(['PassengerId', 'Name', 'SibSp', 'Parch', 'Ticket', 'Cabin'], axis = 1, inplace = True)"
]
},
{
"cell_type": "code",
"execution_count": 24,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:50.972255Z",
"start_time": "2020-06-10T13:59:50.947235Z"
}
},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>Survived</th>\n",
" <th>Pclass</th>\n",
" <th>Sex</th>\n",
" <th>Fare</th>\n",
" <th>Age_cat</th>\n",
" <th>FamilySize_cat</th>\n",
" <th>Initial_0</th>\n",
" <th>Initial_1</th>\n",
" <th>Initial_2</th>\n",
" <th>Initial_3</th>\n",
" <th>Initial_4</th>\n",
" <th>Embarked_0</th>\n",
" <th>Embarked_1</th>\n",
" <th>Embarked_2</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>0</td>\n",
" <td>3</td>\n",
" <td>1</td>\n",
" <td>1.981001</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>1</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>4.266662</td>\n",
" <td>2</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>1</td>\n",
" <td>3</td>\n",
" <td>0</td>\n",
" <td>2.070022</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>1</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>3.972177</td>\n",
" <td>2</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>0</td>\n",
" <td>3</td>\n",
" <td>1</td>\n",
" <td>2.085672</td>\n",
" <td>2</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" Survived Pclass Sex Fare Age_cat FamilySize_cat Initial_0 \\\n",
"0 0 3 1 1.981001 1 0 0 \n",
"1 1 1 0 4.266662 2 0 0 \n",
"2 1 3 0 2.070022 1 0 0 \n",
"3 1 1 0 3.972177 2 0 0 \n",
"4 0 3 1 2.085672 2 0 0 \n",
"\n",
" Initial_1 Initial_2 Initial_3 Initial_4 Embarked_0 Embarked_1 \\\n",
"0 0 1 0 0 0 0 \n",
"1 0 0 1 0 1 0 \n",
"2 1 0 0 0 0 0 \n",
"3 0 0 1 0 0 0 \n",
"4 0 1 0 0 0 0 \n",
"\n",
" Embarked_2 \n",
"0 1 \n",
"1 0 \n",
"2 1 \n",
"3 1 \n",
"4 1 "
]
},
"execution_count": 24,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df_train.head()"
]
},
{
"cell_type": "code",
"execution_count": 25,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:51.010281Z",
"start_time": "2020-06-10T13:59:50.976257Z"
}
},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>Pclass</th>\n",
" <th>Sex</th>\n",
" <th>Fare</th>\n",
" <th>Age_cat</th>\n",
" <th>FamilySize_cat</th>\n",
" <th>Initial_0</th>\n",
" <th>Initial_1</th>\n",
" <th>Initial_2</th>\n",
" <th>Initial_3</th>\n",
" <th>Initial_4</th>\n",
" <th>Embarked_0</th>\n",
" <th>Embarked_1</th>\n",
" <th>Embarked_2</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>3</td>\n",
" <td>1</td>\n",
" <td>2.057860</td>\n",
" <td>2</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>3</td>\n",
" <td>0</td>\n",
" <td>1.945910</td>\n",
" <td>2</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>2</td>\n",
" <td>1</td>\n",
" <td>2.270836</td>\n",
" <td>3</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>3</td>\n",
" <td>1</td>\n",
" <td>2.159003</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>3</td>\n",
" <td>0</td>\n",
" <td>2.508582</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>0</td>\n",
" <td>1</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" Pclass Sex Fare Age_cat FamilySize_cat Initial_0 Initial_1 \\\n",
"0 3 1 2.057860 2 0 0 0 \n",
"1 3 0 1.945910 2 0 0 0 \n",
"2 2 1 2.270836 3 0 0 0 \n",
"3 3 1 2.159003 1 0 0 0 \n",
"4 3 0 2.508582 1 0 0 0 \n",
"\n",
" Initial_2 Initial_3 Initial_4 Embarked_0 Embarked_1 Embarked_2 \n",
"0 1 0 0 0 1 0 \n",
"1 0 1 0 0 0 1 \n",
"2 1 0 0 0 1 0 \n",
"3 1 0 0 0 0 1 \n",
"4 0 1 0 0 0 1 "
]
},
"execution_count": 25,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df_test.head()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## 머신러닝 모델 생성 및 예측\n",
"- 본 튜토리얼은 **0 과 1 로 이루어진 target 변수에 대한 예측**을 수행하는 모델을 만드는 것이다.\n",
" - 즉, **이진 분류 문제**라고 할 수 있다.\n",
"- 우선 **학습 데이터 셋**에서 **Survived를 제외한 input**을 가지고, **모델 최적화**를 수행해 줄 것이다.\n",
"- 그 후에 모델이 학습하지 않았던 **테스트 데이터 셋을 input**으로 주어서, **테스트 데이터 셋의 각 탑승객의 생존 여부를 예측**해보겠다.\n",
"- 이번 분석에서는 ***Logistic Regression, Decision Tree, Random Forest*** 이렇게 총 3개의 모델을 사용할 것이다."
]
},
{
"cell_type": "code",
"execution_count": 26,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:51.449610Z",
"start_time": "2020-06-10T13:59:51.013285Z"
}
},
"outputs": [],
"source": [
"from sklearn.linear_model import LogisticRegression\n",
"from sklearn.tree import DecisionTreeClassifier\n",
"from sklearn.ensemble import RandomForestClassifier\n",
"from xgboost import XGBClassifier\n",
"from lightgbm import LGBMClassifier\n",
"\n",
"from sklearn.metrics import accuracy_score\n",
"from sklearn.model_selection import train_test_split"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"- 먼저 **학습 데이터 셋(train dataset)**과 **target label(Survived)**을 **분리**하겠다."
]
},
{
"cell_type": "code",
"execution_count": 27,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:51.460602Z",
"start_time": "2020-06-10T13:59:51.451594Z"
}
},
"outputs": [],
"source": [
"X_train = df_train.drop(['Survived'], axis = 1).values\n",
"y_target = df_train['Survived'].values\n",
"X_test = df_test.values"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"- 다음으로 ```train_test_split()```을 사용하여, **학습 데이터 셋과 테스트 데이터 셋을 분할**해준다.\n",
" - **엄밀하게 말하면, 학습 데이터 셋(train dataset)과 검증 데이터 셋(valid dataset)으로 분할**하는 것이다."
]
},
{
"cell_type": "code",
"execution_count": 28,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:51.481616Z",
"start_time": "2020-06-10T13:59:51.463604Z"
}
},
"outputs": [],
"source": [
"X_train, X_valid, y_train, y_valid = train_test_split(X_train, y_target, test_size = 0.3, random_state = 2020)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### 모델 학습 및 예측\n",
"- **본고사를 치르기 전에 모의고사를 여러 번 보는 것**이라고 생각하면 이해하기 쉽다.\n",
"- 즉, **본고사**가 **테스트 데이터 셋에 대해 평가**하는 것이라면, **모의고사**는 **교차 검중에서 많은 학습과 검증 데이트 셋에서 알고리즘 학습과 평가**를 수행하는 것이다.\n",
"- 3가지 모델에 대한 하이퍼 파라미터 튜닝은 따로 진행해주지 않겠다."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"**1. Logistic Regression**"
]
},
{
"cell_type": "code",
"execution_count": 29,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:51.526647Z",
"start_time": "2020-06-10T13:59:51.484619Z"
}
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Accuracy Score: 0.8284\n"
]
}
],
"source": [
"# 로지스틱 회귀의 경우, 정규성 가정이 필요하므로 \"표준화\" 작업을 수행\n",
"from sklearn.preprocessing import StandardScaler\n",
"\n",
"scaler = StandardScaler()\n",
"X_train_std = scaler.fit_transform(X_train)\n",
"X_valid_std = scaler.transform(X_valid)\n",
"\n",
"# 모델 학습 및 예측\n",
"lr = LogisticRegression()\n",
"lr.fit(X_train_std, y_train)\n",
"pred = lr.predict(X_valid_std)\n",
"\n",
"print('Accuracy Score: {:.4f}'.format(accuracy_score(y_valid, pred)))"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"- 하이퍼 파라미터 튜닝을 따로 해주지 않은 **로지스틱 회귀 모델**의 경우, 예측 정확도가 **약 83%**로 나왔다."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"**2. Decision Tree**\n",
"- 결정 트리 모델은 \"표준화\" 또는 \"정규화\" 작업을 수행해주지 않아도 된다"
]
},
{
"cell_type": "code",
"execution_count": 30,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:51.545662Z",
"start_time": "2020-06-10T13:59:51.530653Z"
}
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Accuracy Score: 0.8172\n"
]
}
],
"source": [
"dt_clf = DecisionTreeClassifier(random_state = 2020)\n",
"dt_clf.fit(X_train, y_train)\n",
"pred = dt_clf.predict(X_valid)\n",
"\n",
"print('Accuracy Score: {:.4f}'.format(accuracy_score(y_valid, pred)))"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"- 하이퍼 파라미터 튜닝을 따로 해주지 않은 **결정 트리 모델**의 경우, 예측 정확도가 **약 82%**로 나왔다."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"**3. Random Forest**"
]
},
{
"cell_type": "code",
"execution_count": 31,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T13:59:51.932936Z",
"start_time": "2020-06-10T13:59:51.549664Z"
}
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Accuracy Score: 0.8470\n"
]
}
],
"source": [
"rf_clf = RandomForestClassifier(random_state = 2020)\n",
"rf_clf.fit(X_train, y_train)\n",
"pred = rf_clf.predict(X_valid)\n",
"\n",
"print('Accuracy Score: {:.4f}'.format(accuracy_score(y_valid, pred)))"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"- 하이퍼 파라미터 튜닝을 따로 해주지 않은 **랜덤 포레스트 모델**의 경우, 예측 정확도가 **약 85%**로 나왔다."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"**<3개의 모델 성능 비교 결과>**\n",
"- **랜덤 포레스트 모델**의 예측 정확도가 가장 높게 나왔으므로, 해당 모델을 사용하도록 하겠다!"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Feature 중요도 확인"
]
},
{
"cell_type": "code",
"execution_count": 32,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T14:02:13.983334Z",
"start_time": "2020-06-10T14:02:13.952312Z"
}
},
"outputs": [],
"source": [
"from pandas import Series\n",
"\n",
"feature_importance = rf_clf.feature_importances_\n",
"Series_feat_imp = Series(feature_importance, index = df_test.columns)"
]
},
{
"cell_type": "code",
"execution_count": 33,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T14:02:15.267247Z",
"start_time": "2020-06-10T14:02:15.258241Z"
}
},
"outputs": [
{
"data": {
"text/plain": [
"Index(['Pclass', 'Sex', 'Fare', 'Age_cat', 'FamilySize_cat', 'Initial_0',\n",
" 'Initial_1', 'Initial_2', 'Initial_3', 'Initial_4', 'Embarked_0',\n",
" 'Embarked_1', 'Embarked_2'],\n",
" dtype='object')"
]
},
"execution_count": 33,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df_test.columns"
]
},
{
"cell_type": "code",
"execution_count": 34,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T14:02:21.121407Z",
"start_time": "2020-06-10T14:02:20.551000Z"
}
},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 576x576 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"plt.figure(figsize = (8, 8))\n",
"Series_feat_imp.sort_values(ascending = True).plot.barh()\n",
"plt.xlabel('Feature Importance')\n",
"plt.ylabel('Feature')\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"- **Feature 중요도**를 살펴보면, **Fare 변수**의 **중요도가 엄청나게 높은 것을 확인**할 수 있다."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## 테스트 데이터 셋에 대해서 예측을 수행\n",
"- 이제 모델이 학습하지 않았던 테스트 데이터 셋을 input으로 넣어주고, 각 탑승객의 생존 여부를 예측해보겠다.\n",
"- Kaggle에서 준 파일인 **gender_submission.csv** 파일을 읽어와서 제출할 준비를 하겠다."
]
},
{
"cell_type": "code",
"execution_count": 35,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T14:04:38.557138Z",
"start_time": "2020-06-10T14:04:38.537107Z"
},
"scrolled": true
},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>PassengerId</th>\n",
" <th>Survived</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>892</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>893</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>894</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>895</td>\n",
" <td>0</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>896</td>\n",
" <td>1</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" PassengerId Survived\n",
"0 892 0\n",
"1 893 1\n",
"2 894 0\n",
"3 895 0\n",
"4 896 1"
]
},
"execution_count": 35,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"submission = pd.read_csv('../titanic/gender_submission.csv')\n",
"submission.head()"
]
},
{
"cell_type": "code",
"execution_count": 36,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T14:05:28.558637Z",
"start_time": "2020-06-10T14:05:28.523612Z"
}
},
"outputs": [],
"source": [
"prediction = rf_clf.predict(X_test)\n",
"submission['Survived'] = prediction"
]
},
{
"cell_type": "code",
"execution_count": 37,
"metadata": {
"ExecuteTime": {
"end_time": "2020-06-10T14:06:05.650983Z",
"start_time": "2020-06-10T14:06:05.632970Z"
}
},
"outputs": [],
"source": [
"submission.to_csv('./my_second_submission.csv', index = False)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"**여기까지 해서 타이타닉 Advanced <Part 2>를 마무리하도록 하겠다!**\n",
"\n",
"**비록 튜토리얼에서 수행해 준 전처리 방법을 거의 참고했지만, 튜토리얼을 할 때보다는 다양한 모델들 사용해서 예측 모델을 만들어보았다.**\n",
"- 이번 타아타닉 생존자 예측을 수행하면서 데이터 전처리의 중요성을 다시 한 번 깨달았다. 명심하자. ***Garbage in, Garbage out!!***"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.7.6"
},
"toc": {
"base_numbering": 1,
"nav_menu": {},
"number_sections": true,
"sideBar": true,
"skip_h1_title": false,
"title_cell": "Table of Contents",
"title_sidebar": "Contents",
"toc_cell": false,
"toc_position": {},
"toc_section_display": true,
"toc_window_display": false
}
},
"nbformat": 4,
"nbformat_minor": 4
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment