Skip to content

Instantly share code, notes, and snippets.

@rafaelvareto
Last active February 21, 2024 20:31
Show Gist options
  • Save rafaelvareto/9912ce817838f5442cfcb23b4c584fb0 to your computer and use it in GitHub Desktop.
Save rafaelvareto/9912ce817838f5442cfcb23b4c584fb0 to your computer and use it in GitHub Desktop.
20_02-revisao-de-ml-gabarito.ipynb
Display the source blob
Display the rendered blob
Raw
{
"nbformat": 4,
"nbformat_minor": 0,
"metadata": {
"colab": {
"provenance": [],
"include_colab_link": true
},
"kernelspec": {
"name": "python3",
"display_name": "Python 3"
},
"language_info": {
"name": "python"
}
},
"cells": [
{
"cell_type": "markdown",
"metadata": {
"id": "view-in-github",
"colab_type": "text"
},
"source": [
"<a href=\"https://colab.research.google.com/gist/rafaelvareto/9912ce817838f5442cfcb23b4c584fb0/20_02-revisao-de-ml-gabarito.ipynb\" target=\"_parent\"><img src=\"https://colab.research.google.com/assets/colab-badge.svg\" alt=\"Open In Colab\"/></a>"
]
},
{
"cell_type": "markdown",
"source": [
"# CIAG 2024 - Introdução ao Aprendizado de Máquina\n",
"\n",
"> Indented block\n",
"\n",
"\n",
"\n",
"- Neste notebook, iremos rever conceitos importantes referentes à Aprendizagem de Máquina, como problemas de regressão vs. classificação, divisão dos dados em conjuntos de treino, validação e teste e avaliação dos modelos utilizados (métricas de precisão e revocação, por exemplo). Iremos utilizar basicamente dois *toy-datasets* que podem ser encontrados na documentação da biblioteca `scikit-learn`, sendo eles a base de dados [Iris](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html#sklearn.datasets.load_iris), para classificação, e de [Diabetes](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_diabetes.html#sklearn.datasets.load_diabetes), para regressão."
],
"metadata": {
"id": "JiZ_scQLKx46"
}
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"id": "e7-9mfYyNJds",
"colab": {
"base_uri": "https://localhost:8080/"
},
"outputId": "b1bcdd5c-822c-4e34-aa10-5a484fbf6e0c"
},
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
"Python 3.9.16\n"
]
}
],
"source": [
"# Caso queira saber a versão do Python que está sendo executada neste notebook, basta executar esta célula\n",
"!python --version"
]
},
{
"cell_type": "markdown",
"source": [
"## 1. Conjunto de Exercícios - Carregamento das bases de dados\n",
"\n",
"- Para começarmos a revisão de aprendizagem de máquina, primeiro devemos ser capazes de carregar as bases de dados em memória. Iremos definir em detalhes um *pipeline* de processamento completo, ou seja, desde o carregamento dos dados até o treinamento dos modelos, para a base de dados Iris, e a sua tarefa, posteriormente, será de replicar as mesmas ideias para a base de dados de Diabetes.\n",
"\n"
],
"metadata": {
"id": "1r-7o-i9L_-m"
}
},
{
"cell_type": "code",
"source": [
"# Importando as funções para carregar os dados em memória\n",
"from sklearn.datasets import load_iris, load_diabetes"
],
"metadata": {
"id": "styHLg22L4Wq"
},
"execution_count": null,
"outputs": []
},
{
"cell_type": "code",
"source": [
"# Podemos brincar com alguns parâmetros presentes na documentação.\n",
"# Aqui, iremos carregar os dados como tabelas Pandas, apenas para uma visualização mais limpa.\n",
"\n",
"X, y = load_iris(return_X_y=True, as_frame=True)"
],
"metadata": {
"id": "_2u-shnwMh1B"
},
"execution_count": null,
"outputs": []
},
{
"cell_type": "code",
"source": [
"X.head()"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/",
"height": 206
},
"id": "e8Z2DMn1MvE5",
"outputId": "e93a8947-6005-4ba9-c92e-7893f7a88ce5"
},
"execution_count": null,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
" sepal length (cm) sepal width (cm) petal length (cm) petal width (cm)\n",
"0 5.1 3.5 1.4 0.2\n",
"1 4.9 3.0 1.4 0.2\n",
"2 4.7 3.2 1.3 0.2\n",
"3 4.6 3.1 1.5 0.2\n",
"4 5.0 3.6 1.4 0.2"
],
"text/html": [
"\n",
" <div id=\"df-0bfd22ff-6e77-40eb-845d-7aa19803617d\">\n",
" <div class=\"colab-df-container\">\n",
" <div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>sepal length (cm)</th>\n",
" <th>sepal width (cm)</th>\n",
" <th>petal length (cm)</th>\n",
" <th>petal width (cm)</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>5.1</td>\n",
" <td>3.5</td>\n",
" <td>1.4</td>\n",
" <td>0.2</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>4.9</td>\n",
" <td>3.0</td>\n",
" <td>1.4</td>\n",
" <td>0.2</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>4.7</td>\n",
" <td>3.2</td>\n",
" <td>1.3</td>\n",
" <td>0.2</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>4.6</td>\n",
" <td>3.1</td>\n",
" <td>1.5</td>\n",
" <td>0.2</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>5.0</td>\n",
" <td>3.6</td>\n",
" <td>1.4</td>\n",
" <td>0.2</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>\n",
" <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-0bfd22ff-6e77-40eb-845d-7aa19803617d')\"\n",
" title=\"Convert this dataframe to an interactive table.\"\n",
" style=\"display:none;\">\n",
" \n",
" <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
" width=\"24px\">\n",
" <path d=\"M0 0h24v24H0V0z\" fill=\"none\"/>\n",
" <path d=\"M18.56 5.44l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94zm-11 1L8.5 8.5l.94-2.06 2.06-.94-2.06-.94L8.5 2.5l-.94 2.06-2.06.94zm10 10l.94 2.06.94-2.06 2.06-.94-2.06-.94-.94-2.06-.94 2.06-2.06.94z\"/><path d=\"M17.41 7.96l-1.37-1.37c-.4-.4-.92-.59-1.43-.59-.52 0-1.04.2-1.43.59L10.3 9.45l-7.72 7.72c-.78.78-.78 2.05 0 2.83L4 21.41c.39.39.9.59 1.41.59.51 0 1.02-.2 1.41-.59l7.78-7.78 2.81-2.81c.8-.78.8-2.07 0-2.86zM5.41 20L4 18.59l7.72-7.72 1.47 1.35L5.41 20z\"/>\n",
" </svg>\n",
" </button>\n",
" \n",
" <style>\n",
" .colab-df-container {\n",
" display:flex;\n",
" flex-wrap:wrap;\n",
" gap: 12px;\n",
" }\n",
"\n",
" .colab-df-convert {\n",
" background-color: #E8F0FE;\n",
" border: none;\n",
" border-radius: 50%;\n",
" cursor: pointer;\n",
" display: none;\n",
" fill: #1967D2;\n",
" height: 32px;\n",
" padding: 0 0 0 0;\n",
" width: 32px;\n",
" }\n",
"\n",
" .colab-df-convert:hover {\n",
" background-color: #E2EBFA;\n",
" box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
" fill: #174EA6;\n",
" }\n",
"\n",
" [theme=dark] .colab-df-convert {\n",
" background-color: #3B4455;\n",
" fill: #D2E3FC;\n",
" }\n",
"\n",
" [theme=dark] .colab-df-convert:hover {\n",
" background-color: #434B5C;\n",
" box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
" filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
" fill: #FFFFFF;\n",
" }\n",
" </style>\n",
"\n",
" <script>\n",
" const buttonEl =\n",
" document.querySelector('#df-0bfd22ff-6e77-40eb-845d-7aa19803617d button.colab-df-convert');\n",
" buttonEl.style.display =\n",
" google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
"\n",
" async function convertToInteractive(key) {\n",
" const element = document.querySelector('#df-0bfd22ff-6e77-40eb-845d-7aa19803617d');\n",
" const dataTable =\n",
" await google.colab.kernel.invokeFunction('convertToInteractive',\n",
" [key], {});\n",
" if (!dataTable) return;\n",
"\n",
" const docLinkHtml = 'Like what you see? Visit the ' +\n",
" '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
" + ' to learn more about interactive tables.';\n",
" element.innerHTML = '';\n",
" dataTable['output_type'] = 'display_data';\n",
" await google.colab.output.renderOutput(dataTable, element);\n",
" const docLink = document.createElement('div');\n",
" docLink.innerHTML = docLinkHtml;\n",
" element.appendChild(docLink);\n",
" }\n",
" </script>\n",
" </div>\n",
" </div>\n",
" "
]
},
"metadata": {},
"execution_count": 5
}
]
},
{
"cell_type": "code",
"source": [
"y.head()"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "YFrB2mSUMwcx",
"outputId": "fcf93e45-3834-4538-dbc9-af31c464e78f"
},
"execution_count": null,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"0 0\n",
"1 0\n",
"2 0\n",
"3 0\n",
"4 0\n",
"Name: target, dtype: int64"
]
},
"metadata": {},
"execution_count": 6
}
]
},
{
"cell_type": "markdown",
"source": [
"## 2. Conjunto de Exercícios - Divisão entre treino/validação/teste\n",
"\n",
"- Como visto em sala de aula, tipicamente separamos os dados em 3 conjuntos: Treino, Validação e Teste, onde cada um deles possuem um propósito específico, como podemos ver a seguir:\n",
" - **Treino:** Como o nome diz, esse conjunto dos dados serve para treinarmos os nossos modelos. Em outras palavras, encontrar os pesos dos nossos modelos que minimizam um certo erro;\n",
"\n",
" - **Validação:** Como o nome diz, esse conjunto dos dados serve para validarmos os nossos modelos. Tipicamente, quando trabalhamos com aprendizagem de máquina, temos diversos modelos com hiperparâmetros que devemos otimizar de acordo com os nossos dados, como por exemplo: a profundidade de uma árvore, o número de vizinhos de um KNN, entre outros. Para isso, utilizamos o conjunto de validação para verificar qual variação dos hiperparâmetros do nosso modelo é a mais promissora;\n",
" \n",
" - **Teste:** O conjunto de teste é o conjunto que não iremos utilizar nem durante o treinamento nem durante a a validação do nosso modelo. O intuito desse conjunto de dados é representar dados novos, que o nosso modelo não viu ainda, a fim de mensurar a qualidade das nossas predições em dados reais."
],
"metadata": {
"id": "a59dZr4ONLMq"
}
},
{
"cell_type": "markdown",
"source": [
"1. Utilizando a função [`train_test_split`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html), divida os dados carregados anteriormente em dois conjunos: treino e teste. Posteriormente, iremos definir o conjunto de validação utilizando validação cruzada em N-Folds, durante o treinamento dos nossos modelo.\n",
"\n",
"**Dica:** Após implementar o treinamento dos modelos, volte nessa célula e brinque com a porcentagem dos dados que serão destinados para o conjunto de treino e teste. Além disso, para fins de reprodutibilidade, sugerimos que você defina um `random_state`, para evitar eventuais dores de cabeça com resultados inconsistentes.\n",
"- Uma outra dica útil é realizar um `shuffle` durante a divisão dos dados, já que as *labels* nessa base de dados estão agrupadas, introduzindo assim um potencial desbalanceamento de classes nos conjuntos. Leia a documentação da função para obter mais informações sobre como realizar esse `shuffle`."
],
"metadata": {
"id": "bJaB_KlVOpdb"
}
},
{
"cell_type": "code",
"source": [
"from sklearn.model_selection import train_test_split\n",
"\n",
"# Convertendo os valores para matrizes e vetores numpy\n",
"X = X.values\n",
"y = y.values\n",
"\n",
"# Implemente aqui a sua solução\n",
"X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)\n",
"\n",
"print('Tamanho do conjunto de treino:', X_train.shape)\n",
"print('Tamanho do conjunto de teste:', X_test.shape)"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "FNzU8dm9NIsv",
"outputId": "d7482cec-a973-4ec4-d916-44bf5ffd301a"
},
"execution_count": null,
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
"Tamanho do conjunto de treino: (100, 4)\n",
"Tamanho do conjunto de teste: (50, 4)\n"
]
}
]
},
{
"cell_type": "markdown",
"source": [
"2. Implemente também uma visualização da distribuição das classes nos dois conjuntos de dados através de gráficos de barra, utilizando a biblioteca `matplotlib`.\n",
"\n",
"**Dica:** Utilize a classe `Counter` do módulo `collections`, nativo do Python, para contar quantas classes temos nas anotações de cada conjunto."
],
"metadata": {
"id": "bLELeN30QnTX"
}
},
{
"cell_type": "code",
"source": [
"import matplotlib.pyplot as plt\n",
"from collections import Counter\n",
"\n",
"# Função auxiliar para ordenar um dicionário baseado nas chaves (caso precise)\n",
"def sort_dict(d):\n",
" return {key: d[key] for key in sorted(d)}\n",
"\n",
"# Implemente aqui a sua solução\n",
"train_labels = sort_dict(Counter(y_train))\n",
"test_labels = sort_dict(Counter(y_test))\n",
"\n",
"fig, axs = plt.subplots(1, 2, figsize=(8, 4))\n",
"\n",
"axs[0].set_title('Conjunto de treino')\n",
"axs[0].bar(train_labels.keys(), train_labels.values())\n",
"axs[0].set_xticks(list(train_labels.keys()))\n",
"\n",
"axs[1].set_title('Conjunto de teste')\n",
"axs[1].bar(test_labels.keys(), test_labels.values())\n",
"axs[1].set_xticks(list(test_labels.keys()))\n",
"\n",
"fig.supxlabel('Classes')\n",
"fig.supylabel('Quantidade')\n",
"\n",
"fig.tight_layout()\n",
"plt.show()"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/",
"height": 305
},
"id": "A5EjhqeeQeQh",
"outputId": "124e11ad-c60b-4ed1-be05-09f8b32eb311"
},
"execution_count": null,
"outputs": [
{
"output_type": "display_data",
"data": {
"text/plain": [
"<Figure size 576x288 with 2 Axes>"
],
"image/png": "\n"
},
"metadata": {
"needs_background": "light"
}
}
]
},
{
"cell_type": "markdown",
"source": [
"## 3. Conjunto de Exercícios - Treinamento dos modelos\n",
"\n",
"- Como mencionado anteriormente, durante o treinamento dos modelos iremos utilizar uma validação cruzada com N-Folds. Além disso, iremos explorar 3 modelos clássicos durante os nossos exercícios, sendo eles: (i) Naive Bayes, que servirá como *baseline* para comparações futuras; (ii) árvores de decisão, podendo ficar livre para explorar \"variantes\" *ensemble* como no caso de modelos de *bagging* e *boosting*; e finalmente (iii) K-Nearest Neighbors."
],
"metadata": {
"id": "MAa-8EcgQVIL"
}
},
{
"cell_type": "code",
"source": [
"# Definindo todos os imports necessários para esse conjunto de exercícios\n",
"# Caso necessário, inclua outros imports (principalmente se quiserem trabalhar com outros modelos)\n",
"from sklearn.model_selection import KFold\n",
"\n",
"from sklearn.naive_bayes import GaussianNB\n",
"from sklearn.tree import DecisionTreeClassifier\n",
"from sklearn.neighbors import KNeighborsClassifier"
],
"metadata": {
"id": "UZNIpAQiUvD9"
},
"execution_count": null,
"outputs": []
},
{
"cell_type": "markdown",
"source": [
"1. Instancie um objeto da classe `KFold`, passando o número de *folds* que deseja utilizar durante o processo de validação cruzada (sugerimos um valor de 5 *folds*, mas fique a vontade para testar outros valores).\n",
"\n",
"**Dica:** A mesma dica de definir um `random_state` se aplica também durante a definição do seu objeto da classe `KFold` se desejar habilitar a opção de `shuffle` da classe."
],
"metadata": {
"id": "rV9DTN9yVOCA"
}
},
{
"cell_type": "code",
"source": [
"# Implemente a sua solução aqui\n",
"kf = KFold(n_splits=5, shuffle=True, random_state=42)\n",
"print('Número de splits:', kf.get_n_splits(X_train))"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "NnsyoSbbVM9z",
"outputId": "96d79155-09a6-4052-87c1-b0d7f1f4397d"
},
"execution_count": null,
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
"Número de splits: 5\n"
]
}
]
},
{
"cell_type": "markdown",
"source": [
"2. Treine o modelo Naive Bayes utilizando os dados de treino para realizar o loop de validação cruzada. Como o modelo a ser utilizado não possui hiperparâmetros, ele servirá como um ótimo *baseline* para o nosso problema.\n",
"\n",
"**Dica:** Para mensurar a qualidade do seu modelo, utilize as métricas: acurácia, revocação e precisão. A biblioteca `sklearn` implementa tais funções, mas, caso queira, sinta-se a vontade para implementar as suas próprias funções para tais métricas."
],
"metadata": {
"id": "27nhWNiyWGQ6"
}
},
{
"cell_type": "code",
"source": [
"# Caso queira utilizar as implementações padrões da biblioteca para as métricas\n",
"# Caso for utilizar precision e recall_score, lembre-se de definir o parâmetro 'average' para None. Dessa forma,\n",
"# as métricas serão calculadas para cada classe, ao invés de realizarmos algum tipo de sumarização.\n",
"from sklearn.metrics import recall_score\n",
"from sklearn.metrics import accuracy_score\n",
"from sklearn.metrics import precision_score"
],
"metadata": {
"id": "D9AAyBuxWFbP"
},
"execution_count": null,
"outputs": []
},
{
"cell_type": "markdown",
"source": [
"- Utilize o seguinte trecho de código para implementar a validação cruzada utilizando N-Folds. Você pode utilizar `train_index` e `validation_index` para indexar as variáveis `X_train` e `y_train` para obter os conjuntos de treino e validação, respectivamente, da sua validação cruzada!\n",
"\n",
"```python\n",
"# kf é um objeto da classe KFold\n",
"for i, (train_index, validation_index) in enumerate(kf.split(X_train)):\n",
" print(f\"Fold {i}:\")\n",
" print(f\" Train: index={train_index}\")\n",
" print(f\" Validation: index={validation_index}\")\n",
"```\n",
"\n"
],
"metadata": {
"id": "jqXk9FsyXYwF"
}
},
{
"cell_type": "code",
"source": [
"# Implemente aqui a sua solução\n",
"for i, (train_index, val_index) in enumerate(kf.split(X_train)):\n",
" gnb = GaussianNB()\n",
" gnb.fit(X_train[train_index], y_train[train_index])\n",
"\n",
" preds = gnb.predict(X_train[val_index])\n",
" print(f'\\nResultados para o Fold-{i+1}:')\n",
" print(f' - Acurácia:', accuracy_score(y_train[val_index], preds))\n",
" print(f' - Precisão:', precision_score(y_train[val_index], preds, average=None))\n",
" print(f' - Revocação:', recall_score(y_train[val_index], preds, average=None))"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "uhvnvGkhXWcS",
"outputId": "6c4fcfe8-605b-4056-a464-aca3d898dc9a"
},
"execution_count": null,
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
"\n",
"Resultados para o Fold-1:\n",
" - Acurácia: 0.95\n",
" - Precisão: [1. 1. 0.9]\n",
" - Revocação: [1. 0.875 1. ]\n",
"\n",
"Resultados para o Fold-2:\n",
" - Acurácia: 0.9\n",
" - Precisão: [1. 0.9 0.75]\n",
" - Revocação: [1. 0.9 0.75]\n",
"\n",
"Resultados para o Fold-3:\n",
" - Acurácia: 0.9\n",
" - Precisão: [1. 1. 0.71428571]\n",
" - Revocação: [1. 0.71428571 1. ]\n",
"\n",
"Resultados para o Fold-4:\n",
" - Acurácia: 0.9\n",
" - Precisão: [1. 0.71428571 1. ]\n",
" - Revocação: [1. 1. 0.77777778]\n",
"\n",
"Resultados para o Fold-5:\n",
" - Acurácia: 1.0\n",
" - Precisão: [1. 1. 1.]\n",
" - Revocação: [1. 1. 1.]\n"
]
}
]
},
{
"cell_type": "markdown",
"source": [
"3. Utilizando o mesmo *pipeline* de treinamento, treine agora um modelo baseado em Árvore de Decisão de K-Nearest Neighbors. Como hiperparâmetros, experimente variar a profundidade da sua árvore de decisão e o número de vizinhos mais próximos que o algoritmo de KNN deve considerar para as estimações.\n",
"\n",
"**Dica:** Após cada loop por todos os *folds* da validação cruzada, tire a média das métricas para obter uma sumarização da qualidade do seu modelo ao utilizar um valor de hiperparâmetro específico. É recomendado você fazer um plot para aumentar a interpretação dos resultados, onde o eixo-x pode ser, por exemplo, o valor do hiperparâmetro e o eixo-y a acurácia tanto nos dados de treino quanto nos dados de validação."
],
"metadata": {
"id": "xTsVDUqAaHCI"
}
},
{
"cell_type": "code",
"source": [
"# Implemente a sua solução aqui\n",
"import numpy as np\n",
"\n",
"heights = [1, 2, 4, 8, 16, 32, 64]\n",
"mean_accuracy = {\n",
" 'train': [],\n",
" 'validation': []\n",
"}\n",
"\n",
"for height in heights:\n",
" accuracy = {\n",
" 'train': [],\n",
" 'validation': []\n",
" }\n",
"\n",
" for i, (train_index, val_index) in enumerate(kf.split(X_train)):\n",
" dt = DecisionTreeClassifier(max_depth=height)\n",
" dt.fit(X_train[train_index], y_train[train_index])\n",
"\n",
" preds = dt.predict(X_train[train_index])\n",
" accuracy['train'].append(accuracy_score(y_train[train_index], preds))\n",
"\n",
" preds = dt.predict(X_train[val_index])\n",
" accuracy['validation'].append(accuracy_score(y_train[val_index], preds))\n",
"\n",
" mean_accuracy['train'].append(np.mean(accuracy['train']))\n",
" mean_accuracy['validation'].append(np.mean(accuracy['validation']))\n",
"\n",
"plt.title('Performance da Árvore de Decisão')\n",
"plt.ylabel('Acurácia')\n",
"plt.xlabel('Profundidade da Árvore')\n",
"\n",
"plt.plot(heights, mean_accuracy['train'], label='treino')\n",
"plt.plot(heights, mean_accuracy['validation'], label='validação')\n",
"\n",
"plt.legend()\n",
"plt.show()"
],
"metadata": {
"id": "9CxOxFWhaEtv"
},
"execution_count": null,
"outputs": []
},
{
"cell_type": "code",
"source": [
"# Implemente a sua solução aqui\n",
"import numpy as np\n",
"neighbors = [1, 2, 4, 8, 16, 32, 64]\n",
"mean_accuracy = {\n",
" 'train': [],\n",
" 'validation': []\n",
"}\n",
"\n",
"for neighbor in neighbors:\n",
" accuracy = {\n",
" 'train': [],\n",
" 'validation': []\n",
" }\n",
"\n",
" for i, (train_index, val_index) in enumerate(kf.split(X_train)):\n",
" nn = KNeighborsClassifier(n_neighbors=neighbor)\n",
" nn.fit(X_train[train_index], y_train[train_index])\n",
"\n",
" preds = nn.predict(X_train[train_index])\n",
" accuracy['train'].append(accuracy_score(y_train[train_index], preds))\n",
"\n",
" preds = nn.predict(X_train[val_index])\n",
" accuracy['validation'].append(accuracy_score(y_train[val_index], preds))\n",
"\n",
" mean_accuracy['train'].append(np.mean(accuracy['train']))\n",
" mean_accuracy['validation'].append(np.mean(accuracy['validation']))\n",
"\n",
"plt.title('Performance do KNN')\n",
"plt.ylabel('Acurácia')\n",
"plt.xlabel('Número de Vizinhos')\n",
"\n",
"plt.plot(neighbors, mean_accuracy['train'], label='treino')\n",
"plt.plot(neighbors, mean_accuracy['validation'], label='validação')\n",
"\n",
"plt.legend()\n",
"plt.show()"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/",
"height": 295
},
"id": "qsWVJ6bYgqyZ",
"outputId": "4de3594f-f605-4208-e9a7-8539c04766ec"
},
"execution_count": null,
"outputs": [
{
"output_type": "display_data",
"data": {
"text/plain": [
"<Figure size 432x288 with 1 Axes>"
],
"image/png": "\n"
},
"metadata": {
"needs_background": "light"
}
}
]
},
{
"cell_type": "markdown",
"source": [
"4. Sumarize os seus resultados. Qual modelo que você utilizou obteve o melhor resultado? Para isso, escolha os melhores modelos obtidos através da validação cruzada e avalie eles utilizando o conjunto de teste. O resultado condiz com as suas expectativas?"
],
"metadata": {
"id": "07D-x5ImaumL"
}
},
{
"cell_type": "code",
"source": [
"# Implemente a sua solução aqui\n",
"gnb = GaussianNB()\n",
"dt = DecisionTreeClassifier(max_depth=8)\n",
"nn = KNeighborsClassifier(n_neighbors=8)\n",
"\n",
"gnb_preds = gnb.fit(X_train, y_train).predict(X_test)\n",
"dt_preds = dt.fit(X_train, y_train).predict(X_test)\n",
"nn_preds = nn.fit(X_train, y_train).predict(X_test)\n",
"\n",
"print(f'Resultados para o Naive Bayes:')\n",
"print(f' - Acurácia:', accuracy_score(y_test, gnb_preds))\n",
"print(f' - Precisão:', precision_score(y_test, gnb_preds, average=None))\n",
"print(f' - Revocação:', recall_score(y_test, gnb_preds, average=None))\n",
"\n",
"print(f'\\nResultados para a Árvore de Decisão:')\n",
"print(f' - Acurácia:', accuracy_score(y_test, dt_preds))\n",
"print(f' - Precisão:', precision_score(y_test, dt_preds, average=None))\n",
"print(f' - Revocação:', recall_score(y_test, dt_preds, average=None))\n",
"\n",
"print(f'\\nResultados para o KNN:')\n",
"print(f' - Acurácia:', accuracy_score(y_test, nn_preds))\n",
"print(f' - Precisão:', precision_score(y_test, nn_preds, average=None))\n",
"print(f' - Revocação:', recall_score(y_test, nn_preds, average=None))"
],
"metadata": {
"id": "SuIEgdO9auLn"
},
"execution_count": null,
"outputs": []
},
{
"cell_type": "markdown",
"source": [
"5. **Extra:** Ainda utilizando o conjunto de teste, para enriquecer os seus resultados, plote uma matriz de confusão para cada modelo."
],
"metadata": {
"id": "r1Bjq14kbIRy"
}
},
{
"cell_type": "code",
"source": [
"import seaborn as sns # para visualização da matriz de confusão\n",
"from sklearn.metrics import confusion_matrix # para geração da matriz de confusão\n",
"\n",
"# Implemente a sua solução aqui\n",
"cf_matrix = confusion_matrix(y_test, gnb_preds)\n",
"sns.heatmap(cf_matrix/np.sum(cf_matrix), annot=True, fmt='.2%', cmap='Blues').set(title='Matriz de confusão para Naive Bayes')\n",
"plt.show()"
],
"metadata": {
"id": "aB_zwGxBbi_8"
},
"execution_count": null,
"outputs": []
},
{
"cell_type": "code",
"source": [
"cf_matrix = confusion_matrix(y_test, dt_preds)\n",
"sns.heatmap(cf_matrix/np.sum(cf_matrix), annot=True, fmt='.2%', cmap='Blues').set(title='Matriz de confusão para Árvore de Decisão')\n",
"plt.show()"
],
"metadata": {
"id": "J0zAF5Vokqvf"
},
"execution_count": null,
"outputs": []
},
{
"cell_type": "code",
"source": [
"cf_matrix = confusion_matrix(y_test, nn_preds)\n",
"sns.heatmap(cf_matrix/np.sum(cf_matrix), annot=True, fmt='.2%', cmap='Blues').set(title='Matriz de confusão para KNN')\n",
"plt.show()"
],
"metadata": {
"id": "8hAPETJwkwBW"
},
"execution_count": null,
"outputs": []
},
{
"cell_type": "markdown",
"source": [
"## 4. Conjunto de Exercícios - Tarefa de Regressão (desafio)\n",
"\n",
"- Agora é com você! Repita os mesmos passos definidos para a tarefa de classificação sobre os dados da tarefa de regressão (base de dados de diabetes). Fique atento às nuâncias que existem entre os dois tipos de problemas, principalmente aos modelos que irá utilizar e as métricas! Sinta-se livre para explorar outros *pipelines*, preprocessamentos, e até mesmo uma outra base de dados! A ideia deste exercício é fazer com que você coloque a mão na massa por conta própria, enfrentando os problemas que encontrar ao longo do caminho."
],
"metadata": {
"id": "hNykUxuibmvL"
}
},
{
"cell_type": "code",
"source": [],
"metadata": {
"id": "T6H9JFa4cNMZ"
},
"execution_count": null,
"outputs": []
}
]
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment