chetanambi/aikit-xgboost-demo.ipynb

## aikit-xgboost-demo.ipynb
{
 "cells": [
  {
   "cell_type": "markdown",
   "id": "1209e45b",
   "metadata": {},
   "source": [
    "# Intel optimized XGBoost"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "3a8d37af",
   "metadata": {},
   "outputs": [],
   "source": [
    "import xgboost as xgb\n",
    "from sklearn.metrics import mean_squared_error\n",
    "from sklearn.datasets import fetch_california_housing\n",
    "from sklearn.model_selection import train_test_split\n",
    "import pandas as pd\n",
    "import numpy as np\n",
    "from sklearn.metrics import accuracy_score"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "id": "87814bfe",
   "metadata": {},
   "outputs": [],
   "source": [
    "# Dataset: https://www.kaggle.com/datasets/kamilpytlak/personal-key-indicators-of-heart-disease"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "id": "dd03bdb3",
   "metadata": {},
   "outputs": [],
   "source": [
    "df = pd.read_csv('heart_2020_cleaned.csv')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "id": "56c3a636",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(319795, 18)"
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.shape"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "id": "083bc9b5",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>HeartDisease</th>\n",
       "      <th>BMI</th>\n",
       "      <th>Smoking</th>\n",
       "      <th>AlcoholDrinking</th>\n",
       "      <th>Stroke</th>\n",
       "      <th>PhysicalHealth</th>\n",
       "      <th>MentalHealth</th>\n",
       "      <th>DiffWalking</th>\n",
       "      <th>Sex</th>\n",
       "      <th>AgeCategory</th>\n",
       "      <th>Race</th>\n",
       "      <th>Diabetic</th>\n",
       "      <th>PhysicalActivity</th>\n",
       "      <th>GenHealth</th>\n",
       "      <th>SleepTime</th>\n",
       "      <th>Asthma</th>\n",
       "      <th>KidneyDisease</th>\n",
       "      <th>SkinCancer</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>No</td>\n",
       "      <td>16.60</td>\n",
       "      <td>Yes</td>\n",
       "      <td>No</td>\n",
       "      <td>No</td>\n",
       "      <td>3.0</td>\n",
       "      <td>30.0</td>\n",
       "      <td>No</td>\n",
       "      <td>Female</td>\n",
       "      <td>55-59</td>\n",
       "      <td>White</td>\n",
       "      <td>Yes</td>\n",
       "      <td>Yes</td>\n",
       "      <td>Very good</td>\n",
       "      <td>5.0</td>\n",
       "      <td>Yes</td>\n",
       "      <td>No</td>\n",
       "      <td>Yes</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>No</td>\n",
       "      <td>20.34</td>\n",
       "      <td>No</td>\n",
       "      <td>No</td>\n",
       "      <td>Yes</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.0</td>\n",
       "      <td>No</td>\n",
       "      <td>Female</td>\n",
       "      <td>80 or older</td>\n",
       "      <td>White</td>\n",
       "      <td>No</td>\n",
       "      <td>Yes</td>\n",
       "      <td>Very good</td>\n",
       "      <td>7.0</td>\n",
       "      <td>No</td>\n",
       "      <td>No</td>\n",
       "      <td>No</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>No</td>\n",
       "      <td>26.58</td>\n",
       "      <td>Yes</td>\n",
       "      <td>No</td>\n",
       "      <td>No</td>\n",
       "      <td>20.0</td>\n",
       "      <td>30.0</td>\n",
       "      <td>No</td>\n",
       "      <td>Male</td>\n",
       "      <td>65-69</td>\n",
       "      <td>White</td>\n",
       "      <td>Yes</td>\n",
       "      <td>Yes</td>\n",
       "      <td>Fair</td>\n",
       "      <td>8.0</td>\n",
       "      <td>Yes</td>\n",
       "      <td>No</td>\n",
       "      <td>No</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>No</td>\n",
       "      <td>24.21</td>\n",
       "      <td>No</td>\n",
       "      <td>No</td>\n",
       "      <td>No</td>\n",
       "      <td>0.0</td>\n",
       "      <td>0.0</td>\n",
       "      <td>No</td>\n",
       "      <td>Female</td>\n",
       "      <td>75-79</td>\n",
       "      <td>White</td>\n",
       "      <td>No</td>\n",
       "      <td>No</td>\n",
       "      <td>Good</td>\n",
       "      <td>6.0</td>\n",
       "      <td>No</td>\n",
       "      <td>No</td>\n",
       "      <td>Yes</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>No</td>\n",
       "      <td>23.71</td>\n",
       "      <td>No</td>\n",
       "      <td>No</td>\n",
       "      <td>No</td>\n",
       "      <td>28.0</td>\n",
       "      <td>0.0</td>\n",
       "      <td>Yes</td>\n",
       "      <td>Female</td>\n",
       "      <td>40-44</td>\n",
       "      <td>White</td>\n",
       "      <td>No</td>\n",
       "      <td>Yes</td>\n",
       "      <td>Very good</td>\n",
       "      <td>8.0</td>\n",
       "      <td>No</td>\n",
       "      <td>No</td>\n",
       "      <td>No</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "  HeartDisease    BMI Smoking AlcoholDrinking Stroke  PhysicalHealth  \\\n",
       "0           No  16.60     Yes              No     No             3.0   \n",
       "1           No  20.34      No              No    Yes             0.0   \n",
       "2           No  26.58     Yes              No     No            20.0   \n",
       "3           No  24.21      No              No     No             0.0   \n",
       "4           No  23.71      No              No     No            28.0   \n",
       "\n",
       "   MentalHealth DiffWalking     Sex  AgeCategory   Race Diabetic  \\\n",
       "0          30.0          No  Female        55-59  White      Yes   \n",
       "1           0.0          No  Female  80 or older  White       No   \n",
       "2          30.0          No    Male        65-69  White      Yes   \n",
       "3           0.0          No  Female        75-79  White       No   \n",
       "4           0.0         Yes  Female        40-44  White       No   \n",
       "\n",
       "  PhysicalActivity  GenHealth  SleepTime Asthma KidneyDisease SkinCancer  \n",
       "0              Yes  Very good        5.0    Yes            No        Yes  \n",
       "1              Yes  Very good        7.0     No            No         No  \n",
       "2              Yes       Fair        8.0    Yes            No         No  \n",
       "3               No       Good        6.0     No            No        Yes  \n",
       "4              Yes  Very good        8.0     No            No         No  "
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.head(5)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "id": "d688fa27",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "No     292422\n",
       "Yes     27373\n",
       "Name: HeartDisease, dtype: int64"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df['HeartDisease'].value_counts()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "id": "c63e6055",
   "metadata": {},
   "outputs": [],
   "source": [
    "df['HeartDisease'] = df['HeartDisease'].map({'Yes': 1, 'No': 0})"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "id": "9e1ceedc",
   "metadata": {},
   "outputs": [],
   "source": [
    "cat_cols = df.select_dtypes(include='object').columns.tolist()\n",
    "df = pd.get_dummies(df, columns=cat_cols)    "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "id": "165e6fad",
   "metadata": {},
   "outputs": [],
   "source": [
    "X, y = df.drop('HeartDisease', axis=1), df['HeartDisease']\n",
    "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "id": "5f3d26e4",
   "metadata": {},
   "outputs": [],
   "source": [
    "xg_reg = xgb.XGBRegressor(objective ='binary:hinge', \n",
    "                          eval_metric='logloss',\n",
    "                          colsample_bytree = 0.3, \n",
    "                          learning_rate = 0.1,\n",
    "                          max_depth = 5, \n",
    "                          alpha = 10, \n",
    "                          n_estimators = 10)\n",
    "\n",
    "xg_reg.fit(X_train, y_train)\n",
    "preds = xg_reg.predict(X_test)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "id": "4ed09ae7",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Accuracy: 0.9067780710202754\n"
     ]
    }
   ],
   "source": [
    "print(\"Accuracy:\",accuracy_score(y_test, preds))"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.11"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}
	{
	"cells": [
	{
	"cell_type": "markdown",
	"id": "1209e45b",
	"metadata": {},
	"source": [
	"# Intel optimized XGBoost"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 1,
	"id": "3a8d37af",
	"metadata": {},
	"outputs": [],
	"source": [
	"import xgboost as xgb\n",
	"from sklearn.metrics import mean_squared_error\n",
	"from sklearn.datasets import fetch_california_housing\n",
	"from sklearn.model_selection import train_test_split\n",
	"import pandas as pd\n",
	"import numpy as np\n",
	"from sklearn.metrics import accuracy_score"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 2,
	"id": "87814bfe",
	"metadata": {},
	"outputs": [],
	"source": [
	"# Dataset: https://www.kaggle.com/datasets/kamilpytlak/personal-key-indicators-of-heart-disease"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 3,
	"id": "dd03bdb3",
	"metadata": {},
	"outputs": [],
	"source": [
	"df = pd.read_csv('heart_2020_cleaned.csv')"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 4,
	"id": "56c3a636",
	"metadata": {},
	"outputs": [
	{
	"data": {
	"text/plain": [
	"(319795, 18)"
	]
	},
	"execution_count": 4,
	"metadata": {},
	"output_type": "execute_result"
	}
	],
	"source": [
	"df.shape"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 5,
	"id": "083bc9b5",
	"metadata": {},
	"outputs": [
	{
	"data": {
	"text/html": [
	"<div>\n",
	"<style scoped>\n",
	" .dataframe tbody tr th:only-of-type {\n",
	" vertical-align: middle;\n",
	" }\n",
	"\n",
	" .dataframe tbody tr th {\n",
	" vertical-align: top;\n",
	" }\n",
	"\n",
	" .dataframe thead th {\n",
	" text-align: right;\n",
	" }\n",
	"</style>\n",
	"<table border=\"1\" class=\"dataframe\">\n",
	" <thead>\n",
	" <tr style=\"text-align: right;\">\n",
	" <th></th>\n",
	" <th>HeartDisease</th>\n",
	" <th>BMI</th>\n",
	" <th>Smoking</th>\n",
	" <th>AlcoholDrinking</th>\n",
	" <th>Stroke</th>\n",
	" <th>PhysicalHealth</th>\n",
	" <th>MentalHealth</th>\n",
	" <th>DiffWalking</th>\n",
	" <th>Sex</th>\n",
	" <th>AgeCategory</th>\n",
	" <th>Race</th>\n",
	" <th>Diabetic</th>\n",
	" <th>PhysicalActivity</th>\n",
	" <th>GenHealth</th>\n",
	" <th>SleepTime</th>\n",
	" <th>Asthma</th>\n",
	" <th>KidneyDisease</th>\n",
	" <th>SkinCancer</th>\n",
	" </tr>\n",
	" </thead>\n",
	" <tbody>\n",
	" <tr>\n",
	" <th>0</th>\n",
	" <td>No</td>\n",
	" <td>16.60</td>\n",
	" <td>Yes</td>\n",
	" <td>No</td>\n",
	" <td>No</td>\n",
	" <td>3.0</td>\n",
	" <td>30.0</td>\n",
	" <td>No</td>\n",
	" <td>Female</td>\n",
	" <td>55-59</td>\n",
	" <td>White</td>\n",
	" <td>Yes</td>\n",
	" <td>Yes</td>\n",
	" <td>Very good</td>\n",
	" <td>5.0</td>\n",
	" <td>Yes</td>\n",
	" <td>No</td>\n",
	" <td>Yes</td>\n",
	" </tr>\n",
	" <tr>\n",
	" <th>1</th>\n",
	" <td>No</td>\n",
	" <td>20.34</td>\n",
	" <td>No</td>\n",
	" <td>No</td>\n",
	" <td>Yes</td>\n",
	" <td>0.0</td>\n",
	" <td>0.0</td>\n",
	" <td>No</td>\n",
	" <td>Female</td>\n",
	" <td>80 or older</td>\n",
	" <td>White</td>\n",
	" <td>No</td>\n",
	" <td>Yes</td>\n",
	" <td>Very good</td>\n",
	" <td>7.0</td>\n",
	" <td>No</td>\n",
	" <td>No</td>\n",
	" <td>No</td>\n",
	" </tr>\n",
	" <tr>\n",
	" <th>2</th>\n",
	" <td>No</td>\n",
	" <td>26.58</td>\n",
	" <td>Yes</td>\n",
	" <td>No</td>\n",
	" <td>No</td>\n",
	" <td>20.0</td>\n",
	" <td>30.0</td>\n",
	" <td>No</td>\n",
	" <td>Male</td>\n",
	" <td>65-69</td>\n",
	" <td>White</td>\n",
	" <td>Yes</td>\n",
	" <td>Yes</td>\n",
	" <td>Fair</td>\n",
	" <td>8.0</td>\n",
	" <td>Yes</td>\n",
	" <td>No</td>\n",
	" <td>No</td>\n",
	" </tr>\n",
	" <tr>\n",
	" <th>3</th>\n",
	" <td>No</td>\n",
	" <td>24.21</td>\n",
	" <td>No</td>\n",
	" <td>No</td>\n",
	" <td>No</td>\n",
	" <td>0.0</td>\n",
	" <td>0.0</td>\n",
	" <td>No</td>\n",
	" <td>Female</td>\n",
	" <td>75-79</td>\n",
	" <td>White</td>\n",
	" <td>No</td>\n",
	" <td>No</td>\n",
	" <td>Good</td>\n",
	" <td>6.0</td>\n",
	" <td>No</td>\n",
	" <td>No</td>\n",
	" <td>Yes</td>\n",
	" </tr>\n",
	" <tr>\n",
	" <th>4</th>\n",
	" <td>No</td>\n",
	" <td>23.71</td>\n",
	" <td>No</td>\n",
	" <td>No</td>\n",
	" <td>No</td>\n",
	" <td>28.0</td>\n",
	" <td>0.0</td>\n",
	" <td>Yes</td>\n",
	" <td>Female</td>\n",
	" <td>40-44</td>\n",
	" <td>White</td>\n",
	" <td>No</td>\n",
	" <td>Yes</td>\n",
	" <td>Very good</td>\n",
	" <td>8.0</td>\n",
	" <td>No</td>\n",
	" <td>No</td>\n",
	" <td>No</td>\n",
	" </tr>\n",
	" </tbody>\n",
	"</table>\n",
	"</div>"
	],
	"text/plain": [
	" HeartDisease BMI Smoking AlcoholDrinking Stroke PhysicalHealth \\\n",
	"0 No 16.60 Yes No No 3.0 \n",
	"1 No 20.34 No No Yes 0.0 \n",
	"2 No 26.58 Yes No No 20.0 \n",
	"3 No 24.21 No No No 0.0 \n",
	"4 No 23.71 No No No 28.0 \n",
	"\n",
	" MentalHealth DiffWalking Sex AgeCategory Race Diabetic \\\n",
	"0 30.0 No Female 55-59 White Yes \n",
	"1 0.0 No Female 80 or older White No \n",
	"2 30.0 No Male 65-69 White Yes \n",
	"3 0.0 No Female 75-79 White No \n",
	"4 0.0 Yes Female 40-44 White No \n",
	"\n",
	" PhysicalActivity GenHealth SleepTime Asthma KidneyDisease SkinCancer \n",
	"0 Yes Very good 5.0 Yes No Yes \n",
	"1 Yes Very good 7.0 No No No \n",
	"2 Yes Fair 8.0 Yes No No \n",
	"3 No Good 6.0 No No Yes \n",
	"4 Yes Very good 8.0 No No No "
	]
	},
	"execution_count": 5,
	"metadata": {},
	"output_type": "execute_result"
	}
	],
	"source": [
	"df.head(5)"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 6,
	"id": "d688fa27",
	"metadata": {},
	"outputs": [
	{
	"data": {
	"text/plain": [
	"No 292422\n",
	"Yes 27373\n",
	"Name: HeartDisease, dtype: int64"
	]
	},
	"execution_count": 6,
	"metadata": {},
	"output_type": "execute_result"
	}
	],
	"source": [
	"df['HeartDisease'].value_counts()"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 7,
	"id": "c63e6055",
	"metadata": {},
	"outputs": [],
	"source": [
	"df['HeartDisease'] = df['HeartDisease'].map({'Yes': 1, 'No': 0})"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 8,
	"id": "9e1ceedc",
	"metadata": {},
	"outputs": [],
	"source": [
	"cat_cols = df.select_dtypes(include='object').columns.tolist()\n",
	"df = pd.get_dummies(df, columns=cat_cols) "
	]
	},
	{
	"cell_type": "code",
	"execution_count": 9,
	"id": "165e6fad",
	"metadata": {},
	"outputs": [],
	"source": [
	"X, y = df.drop('HeartDisease', axis=1), df['HeartDisease']\n",
	"X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 10,
	"id": "5f3d26e4",
	"metadata": {},
	"outputs": [],
	"source": [
	"xg_reg = xgb.XGBRegressor(objective ='binary:hinge', \n",
	" eval_metric='logloss',\n",
	" colsample_bytree = 0.3, \n",
	" learning_rate = 0.1,\n",
	" max_depth = 5, \n",
	" alpha = 10, \n",
	" n_estimators = 10)\n",
	"\n",
	"xg_reg.fit(X_train, y_train)\n",
	"preds = xg_reg.predict(X_test)"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 11,
	"id": "4ed09ae7",
	"metadata": {},
	"outputs": [
	{
	"name": "stdout",
	"output_type": "stream",
	"text": [
	"Accuracy: 0.9067780710202754\n"
	]
	}
	],
	"source": [
	"print(\"Accuracy:\",accuracy_score(y_test, preds))"
	]
	}
	],
	"metadata": {
	"kernelspec": {
	"display_name": "Python 3 (ipykernel)",
	"language": "python",
	"name": "python3"
	},
	"language_info": {
	"codemirror_mode": {
	"name": "ipython",
	"version": 3
	},
	"file_extension": ".py",
	"mimetype": "text/x-python",
	"name": "python",
	"nbconvert_exporter": "python",
	"pygments_lexer": "ipython3",
	"version": "3.7.11"
	}
	},
	"nbformat": 4,
	"nbformat_minor": 5
	}