Skip to content

Instantly share code, notes, and snippets.

@alyferryhalo
Created June 11, 2021 10:47
Show Gist options
  • Save alyferryhalo/1a7c2d45901bc8fced43afd25bdc2dee to your computer and use it in GitHub Desktop.
Save alyferryhalo/1a7c2d45901bc8fced43afd25bdc2dee to your computer and use it in GitHub Desktop.
NLP_test_4inetnts.ipynb
Display the source blob
Display the rendered blob
Raw
{
"nbformat": 4,
"nbformat_minor": 0,
"metadata": {
"colab": {
"name": "NLP_test_4inetnts.ipynb",
"provenance": [],
"collapsed_sections": [],
"authorship_tag": "ABX9TyMeZR0cm5DPoaMna2sOuXu5",
"include_colab_link": true
},
"kernelspec": {
"name": "python3",
"display_name": "Python 3"
},
"language_info": {
"name": "python"
}
},
"cells": [
{
"cell_type": "markdown",
"metadata": {
"id": "view-in-github",
"colab_type": "text"
},
"source": [
"<a href=\"https://colab.research.google.com/gist/alyferryhalo/1a7c2d45901bc8fced43afd25bdc2dee/nlp_test_4inetnts.ipynb\" target=\"_parent\"><img src=\"https://colab.research.google.com/assets/colab-badge.svg\" alt=\"Open In Colab\"/></a>"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "aaZO70UE18DA"
},
"source": [
"# Тестовое задание “Классификация интентов”\n",
"\n",
"Для разработки бота, надо решить подзадачу классификации интентов. Необходимо определить намерение пользователя.\n",
"\n",
"Интенты могут быть:\n",
"\n",
"* **Положительное намерение** - готовность пользователя поддерживать разговор, заинтересованность в предложение итд.\n",
"* **Отрицательное намерение** - нежелание общаться, незаинтересованность в предложении итд.\n",
"* **Желание общения с живым человеком** - пользователь просит общения с оператором итд.\n",
"* **Нейтральный интент** - когда не подходит ничего из вышеперечисленного.\n",
"\n",
"Датасет можно получить [по ссылке.](https://drive.google.com/file/d/1CH9rocsHcsykBCfu6wFBwVbedC0M3noT/view)\n",
"\n",
"Текст, получен из системы распознавания разговорной речи пользователей.\n",
"\n",
"### Классы меток:\n",
"1. положительный интент\n",
"2. отрицательный интент\n",
"3. перевод на оператора\n",
"4. нейтральный интент (другое)\n",
"\n",
"Нужно решить задачу многоклассовой классификации текста. При решении задачи, предоставляется свобода при выборе модели/моделей, анализе данных. Суть заключается в демонстрации подхода к решению задачи. "
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "tGLlvtf631I_"
},
"source": [
"# Импорты"
]
},
{
"cell_type": "code",
"metadata": {
"id": "Xknbm0_j34A0"
},
"source": [
"import io\n",
"from io import BytesIO\n",
"from google.colab import files\n",
"\n",
"import re\n",
"import nltk\n",
"import keras\n",
"import codecs\n",
"import sklearn\n",
"import itertools\n",
"import numpy as np\n",
"import pandas as pd\n",
"import matplotlib\n",
"import matplotlib.pyplot as plt\n",
"import matplotlib.patches as mpatches\n",
"\n",
"from nltk.tokenize import sent_tokenize, word_tokenize\n",
"\n",
"from sklearn.metrics import confusion_matrix\n",
"from sklearn.decomposition import PCA, TruncatedSVD\n",
"from sklearn.linear_model import LogisticRegression\n",
"from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score, classification_report\n",
"\n",
"from keras.preprocessing.text import Tokenizer\n",
"from keras.preprocessing.sequence import pad_sequences\n",
"from tensorflow.keras.utils import to_categorical\n",
"from sklearn.model_selection import train_test_split\n",
"from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer"
],
"execution_count": 20,
"outputs": []
},
{
"cell_type": "code",
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "NVL0z_h2IErB",
"outputId": "3fc8cbd1-f5a1-4ae2-90cc-340e4b93226d"
},
"source": [
"nltk.download('punkt')"
],
"execution_count": 2,
"outputs": [
{
"output_type": "stream",
"text": [
"[nltk_data] Downloading package punkt to /root/nltk_data...\n",
"[nltk_data] Unzipping tokenizers/punkt.zip.\n"
],
"name": "stdout"
},
{
"output_type": "execute_result",
"data": {
"text/plain": [
"True"
]
},
"metadata": {
"tags": []
},
"execution_count": 2
}
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "2SnSYCS33KnO"
},
"source": [
"# Загрузка данных"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "IMTSH6hCM2Vq"
},
"source": [
"Прежде всего я открыла датасет у себя, чтобы посмотреть, как он выглядит. Предполагалось, что будут только дв еколонки: данные и метка класса, однако в некоторых наблюдениях случилась проблема, из-за которой данные нормально не загружались: колонок оказалось более двух. Я испраивла это вручную. Полагаю, есть способ быстрее.\n",
"\n",
"Также на строке **3950 ваш а ничего не забили\t24.0** обнаружилась ошибка заполнения: метки 24 не существует. Я не была уверена, какой это класс, и решила убрать наблюдение.\n",
"\n",
"Ещё замечу, что некоторые наблюдения имели класс 0. Основываясь на своих соображениях, я распределила нули по имеющимся классами.\n",
"\n",
"Некоторая часть работы с датасетом была проведена в гугл таблицах."
]
},
{
"cell_type": "code",
"metadata": {
"colab": {
"resources": {
"http://localhost:8080/nbextensions/google.colab/files.js": {
"data": "Ly8gQ29weXJpZ2h0IDIwMTcgR29vZ2xlIExMQwovLwovLyBMaWNlbnNlZCB1bmRlciB0aGUgQXBhY2hlIExpY2Vuc2UsIFZlcnNpb24gMi4wICh0aGUgIkxpY2Vuc2UiKTsKLy8geW91IG1heSBub3QgdXNlIHRoaXMgZmlsZSBleGNlcHQgaW4gY29tcGxpYW5jZSB3aXRoIHRoZSBMaWNlbnNlLgovLyBZb3UgbWF5IG9idGFpbiBhIGNvcHkgb2YgdGhlIExpY2Vuc2UgYXQKLy8KLy8gICAgICBodHRwOi8vd3d3LmFwYWNoZS5vcmcvbGljZW5zZXMvTElDRU5TRS0yLjAKLy8KLy8gVW5sZXNzIHJlcXVpcmVkIGJ5IGFwcGxpY2FibGUgbGF3IG9yIGFncmVlZCB0byBpbiB3cml0aW5nLCBzb2Z0d2FyZQovLyBkaXN0cmlidXRlZCB1bmRlciB0aGUgTGljZW5zZSBpcyBkaXN0cmlidXRlZCBvbiBhbiAiQVMgSVMiIEJBU0lTLAovLyBXSVRIT1VUIFdBUlJBTlRJRVMgT1IgQ09ORElUSU9OUyBPRiBBTlkgS0lORCwgZWl0aGVyIGV4cHJlc3Mgb3IgaW1wbGllZC4KLy8gU2VlIHRoZSBMaWNlbnNlIGZvciB0aGUgc3BlY2lmaWMgbGFuZ3VhZ2UgZ292ZXJuaW5nIHBlcm1pc3Npb25zIGFuZAovLyBsaW1pdGF0aW9ucyB1bmRlciB0aGUgTGljZW5zZS4KCi8qKgogKiBAZmlsZW92ZXJ2aWV3IEhlbHBlcnMgZm9yIGdvb2dsZS5jb2xhYiBQeXRob24gbW9kdWxlLgogKi8KKGZ1bmN0aW9uKHNjb3BlKSB7CmZ1bmN0aW9uIHNwYW4odGV4dCwgc3R5bGVBdHRyaWJ1dGVzID0ge30pIHsKICBjb25zdCBlbGVtZW50ID0gZG9jdW1lbnQuY3JlYXRlRWxlbWVudCgnc3BhbicpOwogIGVsZW1lbnQudGV4dENvbnRlbnQgPSB0ZXh0OwogIGZvciAoY29uc3Qga2V5IG9mIE9iamVjdC5rZXlzKHN0eWxlQXR0cmlidXRlcykpIHsKICAgIGVsZW1lbnQuc3R5bGVba2V5XSA9IHN0eWxlQXR0cmlidXRlc1trZXldOwogIH0KICByZXR1cm4gZWxlbWVudDsKfQoKLy8gTWF4IG51bWJlciBvZiBieXRlcyB3aGljaCB3aWxsIGJlIHVwbG9hZGVkIGF0IGEgdGltZS4KY29uc3QgTUFYX1BBWUxPQURfU0laRSA9IDEwMCAqIDEwMjQ7CgpmdW5jdGlvbiBfdXBsb2FkRmlsZXMoaW5wdXRJZCwgb3V0cHV0SWQpIHsKICBjb25zdCBzdGVwcyA9IHVwbG9hZEZpbGVzU3RlcChpbnB1dElkLCBvdXRwdXRJZCk7CiAgY29uc3Qgb3V0cHV0RWxlbWVudCA9IGRvY3VtZW50LmdldEVsZW1lbnRCeUlkKG91dHB1dElkKTsKICAvLyBDYWNoZSBzdGVwcyBvbiB0aGUgb3V0cHV0RWxlbWVudCB0byBtYWtlIGl0IGF2YWlsYWJsZSBmb3IgdGhlIG5leHQgY2FsbAogIC8vIHRvIHVwbG9hZEZpbGVzQ29udGludWUgZnJvbSBQeXRob24uCiAgb3V0cHV0RWxlbWVudC5zdGVwcyA9IHN0ZXBzOwoKICByZXR1cm4gX3VwbG9hZEZpbGVzQ29udGludWUob3V0cHV0SWQpOwp9CgovLyBUaGlzIGlzIHJvdWdobHkgYW4gYXN5bmMgZ2VuZXJhdG9yIChub3Qgc3VwcG9ydGVkIGluIHRoZSBicm93c2VyIHlldCksCi8vIHdoZXJlIHRoZXJlIGFyZSBtdWx0aXBsZSBhc3luY2hyb25vdXMgc3RlcHMgYW5kIHRoZSBQeXRob24gc2lkZSBpcyBnb2luZwovLyB0byBwb2xsIGZvciBjb21wbGV0aW9uIG9mIGVhY2ggc3RlcC4KLy8gVGhpcyB1c2VzIGEgUHJvbWlzZSB0byBibG9jayB0aGUgcHl0aG9uIHNpZGUgb24gY29tcGxldGlvbiBvZiBlYWNoIHN0ZXAsCi8vIHRoZW4gcGFzc2VzIHRoZSByZXN1bHQgb2YgdGhlIHByZXZpb3VzIHN0ZXAgYXMgdGhlIGlucHV0IHRvIHRoZSBuZXh0IHN0ZXAuCmZ1bmN0aW9uIF91cGxvYWRGaWxlc0NvbnRpbnVlKG91dHB1dElkKSB7CiAgY29uc3Qgb3V0cHV0RWxlbWVudCA9IGRvY3VtZW50LmdldEVsZW1lbnRCeUlkKG91dHB1dElkKTsKICBjb25zdCBzdGVwcyA9IG91dHB1dEVsZW1lbnQuc3RlcHM7CgogIGNvbnN0IG5leHQgPSBzdGVwcy5uZXh0KG91dHB1dEVsZW1lbnQubGFzdFByb21pc2VWYWx1ZSk7CiAgcmV0dXJuIFByb21pc2UucmVzb2x2ZShuZXh0LnZhbHVlLnByb21pc2UpLnRoZW4oKHZhbHVlKSA9PiB7CiAgICAvLyBDYWNoZSB0aGUgbGFzdCBwcm9taXNlIHZhbHVlIHRvIG1ha2UgaXQgYXZhaWxhYmxlIHRvIHRoZSBuZXh0CiAgICAvLyBzdGVwIG9mIHRoZSBnZW5lcmF0b3IuCiAgICBvdXRwdXRFbGVtZW50Lmxhc3RQcm9taXNlVmFsdWUgPSB2YWx1ZTsKICAgIHJldHVybiBuZXh0LnZhbHVlLnJlc3BvbnNlOwogIH0pOwp9CgovKioKICogR2VuZXJhdG9yIGZ1bmN0aW9uIHdoaWNoIGlzIGNhbGxlZCBiZXR3ZWVuIGVhY2ggYXN5bmMgc3RlcCBvZiB0aGUgdXBsb2FkCiAqIHByb2Nlc3MuCiAqIEBwYXJhbSB7c3RyaW5nfSBpbnB1dElkIEVsZW1lbnQgSUQgb2YgdGhlIGlucHV0IGZpbGUgcGlja2VyIGVsZW1lbnQuCiAqIEBwYXJhbSB7c3RyaW5nfSBvdXRwdXRJZCBFbGVtZW50IElEIG9mIHRoZSBvdXRwdXQgZGlzcGxheS4KICogQHJldHVybiB7IUl0ZXJhYmxlPCFPYmplY3Q+fSBJdGVyYWJsZSBvZiBuZXh0IHN0ZXBzLgogKi8KZnVuY3Rpb24qIHVwbG9hZEZpbGVzU3RlcChpbnB1dElkLCBvdXRwdXRJZCkgewogIGNvbnN0IGlucHV0RWxlbWVudCA9IGRvY3VtZW50LmdldEVsZW1lbnRCeUlkKGlucHV0SWQpOwogIGlucHV0RWxlbWVudC5kaXNhYmxlZCA9IGZhbHNlOwoKICBjb25zdCBvdXRwdXRFbGVtZW50ID0gZG9jdW1lbnQuZ2V0RWxlbWVudEJ5SWQob3V0cHV0SWQpOwogIG91dHB1dEVsZW1lbnQuaW5uZXJIVE1MID0gJyc7CgogIGNvbnN0IHBpY2tlZFByb21pc2UgPSBuZXcgUHJvbWlzZSgocmVzb2x2ZSkgPT4gewogICAgaW5wdXRFbGVtZW50LmFkZEV2ZW50TGlzdGVuZXIoJ2NoYW5nZScsIChlKSA9PiB7CiAgICAgIHJlc29sdmUoZS50YXJnZXQuZmlsZXMpOwogICAgfSk7CiAgfSk7CgogIGNvbnN0IGNhbmNlbCA9IGRvY3VtZW50LmNyZWF0ZUVsZW1lbnQoJ2J1dHRvbicpOwogIGlucHV0RWxlbWVudC5wYXJlbnRFbGVtZW50LmFwcGVuZENoaWxkKGNhbmNlbCk7CiAgY2FuY2VsLnRleHRDb250ZW50ID0gJ0NhbmNlbCB1cGxvYWQnOwogIGNvbnN0IGNhbmNlbFByb21pc2UgPSBuZXcgUHJvbWlzZSgocmVzb2x2ZSkgPT4gewogICAgY2FuY2VsLm9uY2xpY2sgPSAoKSA9PiB7CiAgICAgIHJlc29sdmUobnVsbCk7CiAgICB9OwogIH0pOwoKICAvLyBXYWl0IGZvciB0aGUgdXNlciB0byBwaWNrIHRoZSBmaWxlcy4KICBjb25zdCBmaWxlcyA9IHlpZWxkIHsKICAgIHByb21pc2U6IFByb21pc2UucmFjZShbcGlja2VkUHJvbWlzZSwgY2FuY2VsUHJvbWlzZV0pLAogICAgcmVzcG9uc2U6IHsKICAgICAgYWN0aW9uOiAnc3RhcnRpbmcnLAogICAgfQogIH07CgogIGNhbmNlbC5yZW1vdmUoKTsKCiAgLy8gRGlzYWJsZSB0aGUgaW5wdXQgZWxlbWVudCBzaW5jZSBmdXJ0aGVyIHBpY2tzIGFyZSBub3QgYWxsb3dlZC4KICBpbnB1dEVsZW1lbnQuZGlzYWJsZWQgPSB0cnVlOwoKICBpZiAoIWZpbGVzKSB7CiAgICByZXR1cm4gewogICAgICByZXNwb25zZTogewogICAgICAgIGFjdGlvbjogJ2NvbXBsZXRlJywKICAgICAgfQogICAgfTsKICB9CgogIGZvciAoY29uc3QgZmlsZSBvZiBmaWxlcykgewogICAgY29uc3QgbGkgPSBkb2N1bWVudC5jcmVhdGVFbGVtZW50KCdsaScpOwogICAgbGkuYXBwZW5kKHNwYW4oZmlsZS5uYW1lLCB7Zm9udFdlaWdodDogJ2JvbGQnfSkpOwogICAgbGkuYXBwZW5kKHNwYW4oCiAgICAgICAgYCgke2ZpbGUudHlwZSB8fCAnbi9hJ30pIC0gJHtmaWxlLnNpemV9IGJ5dGVzLCBgICsKICAgICAgICBgbGFzdCBtb2RpZmllZDogJHsKICAgICAgICAgICAgZmlsZS5sYXN0TW9kaWZpZWREYXRlID8gZmlsZS5sYXN0TW9kaWZpZWREYXRlLnRvTG9jYWxlRGF0ZVN0cmluZygpIDoKICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgJ24vYSd9IC0gYCkpOwogICAgY29uc3QgcGVyY2VudCA9IHNwYW4oJzAlIGRvbmUnKTsKICAgIGxpLmFwcGVuZENoaWxkKHBlcmNlbnQpOwoKICAgIG91dHB1dEVsZW1lbnQuYXBwZW5kQ2hpbGQobGkpOwoKICAgIGNvbnN0IGZpbGVEYXRhUHJvbWlzZSA9IG5ldyBQcm9taXNlKChyZXNvbHZlKSA9PiB7CiAgICAgIGNvbnN0IHJlYWRlciA9IG5ldyBGaWxlUmVhZGVyKCk7CiAgICAgIHJlYWRlci5vbmxvYWQgPSAoZSkgPT4gewogICAgICAgIHJlc29sdmUoZS50YXJnZXQucmVzdWx0KTsKICAgICAgfTsKICAgICAgcmVhZGVyLnJlYWRBc0FycmF5QnVmZmVyKGZpbGUpOwogICAgfSk7CiAgICAvLyBXYWl0IGZvciB0aGUgZGF0YSB0byBiZSByZWFkeS4KICAgIGxldCBmaWxlRGF0YSA9IHlpZWxkIHsKICAgICAgcHJvbWlzZTogZmlsZURhdGFQcm9taXNlLAogICAgICByZXNwb25zZTogewogICAgICAgIGFjdGlvbjogJ2NvbnRpbnVlJywKICAgICAgfQogICAgfTsKCiAgICAvLyBVc2UgYSBjaHVua2VkIHNlbmRpbmcgdG8gYXZvaWQgbWVzc2FnZSBzaXplIGxpbWl0cy4gU2VlIGIvNjIxMTU2NjAuCiAgICBsZXQgcG9zaXRpb24gPSAwOwogICAgZG8gewogICAgICBjb25zdCBsZW5ndGggPSBNYXRoLm1pbihmaWxlRGF0YS5ieXRlTGVuZ3RoIC0gcG9zaXRpb24sIE1BWF9QQVlMT0FEX1NJWkUpOwogICAgICBjb25zdCBjaHVuayA9IG5ldyBVaW50OEFycmF5KGZpbGVEYXRhLCBwb3NpdGlvbiwgbGVuZ3RoKTsKICAgICAgcG9zaXRpb24gKz0gbGVuZ3RoOwoKICAgICAgY29uc3QgYmFzZTY0ID0gYnRvYShTdHJpbmcuZnJvbUNoYXJDb2RlLmFwcGx5KG51bGwsIGNodW5rKSk7CiAgICAgIHlpZWxkIHsKICAgICAgICByZXNwb25zZTogewogICAgICAgICAgYWN0aW9uOiAnYXBwZW5kJywKICAgICAgICAgIGZpbGU6IGZpbGUubmFtZSwKICAgICAgICAgIGRhdGE6IGJhc2U2NCwKICAgICAgICB9LAogICAgICB9OwoKICAgICAgbGV0IHBlcmNlbnREb25lID0gZmlsZURhdGEuYnl0ZUxlbmd0aCA9PT0gMCA/CiAgICAgICAgICAxMDAgOgogICAgICAgICAgTWF0aC5yb3VuZCgocG9zaXRpb24gLyBmaWxlRGF0YS5ieXRlTGVuZ3RoKSAqIDEwMCk7CiAgICAgIHBlcmNlbnQudGV4dENvbnRlbnQgPSBgJHtwZXJjZW50RG9uZX0lIGRvbmVgOwoKICAgIH0gd2hpbGUgKHBvc2l0aW9uIDwgZmlsZURhdGEuYnl0ZUxlbmd0aCk7CiAgfQoKICAvLyBBbGwgZG9uZS4KICB5aWVsZCB7CiAgICByZXNwb25zZTogewogICAgICBhY3Rpb246ICdjb21wbGV0ZScsCiAgICB9CiAgfTsKfQoKc2NvcGUuZ29vZ2xlID0gc2NvcGUuZ29vZ2xlIHx8IHt9OwpzY29wZS5nb29nbGUuY29sYWIgPSBzY29wZS5nb29nbGUuY29sYWIgfHwge307CnNjb3BlLmdvb2dsZS5jb2xhYi5fZmlsZXMgPSB7CiAgX3VwbG9hZEZpbGVzLAogIF91cGxvYWRGaWxlc0NvbnRpbnVlLAp9Owp9KShzZWxmKTsK",
"ok": true,
"headers": [
[
"content-type",
"application/javascript"
]
],
"status": 200,
"status_text": "OK"
}
},
"base_uri": "https://localhost:8080/",
"height": 72
},
"id": "kxccygUf3OoD",
"outputId": "a39ca600-8da2-4a4f-8aa9-9ae1d5a2025c"
},
"source": [
"uploaded = files.upload()"
],
"execution_count": 3,
"outputs": [
{
"output_type": "display_data",
"data": {
"text/html": [
"\n",
" <input type=\"file\" id=\"files-68be58f7-a962-4eab-9ced-d86fadd54314\" name=\"files[]\" multiple disabled\n",
" style=\"border:none\" />\n",
" <output id=\"result-68be58f7-a962-4eab-9ced-d86fadd54314\">\n",
" Upload widget is only available when the cell has been executed in the\n",
" current browser session. Please rerun this cell to enable.\n",
" </output>\n",
" <script src=\"/nbextensions/google.colab/files.js\"></script> "
],
"text/plain": [
"<IPython.core.display.HTML object>"
]
},
"metadata": {
"tags": []
}
},
{
"output_type": "stream",
"text": [
"Saving data.csv to data.csv\n"
],
"name": "stdout"
}
]
},
{
"cell_type": "code",
"metadata": {
"id": "Hz0vBATP3XbU"
},
"source": [
"data = pd.read_csv(io.BytesIO(uploaded['data.csv']))"
],
"execution_count": 4,
"outputs": []
},
{
"cell_type": "code",
"metadata": {
"id": "1miHq9oO6cJx",
"colab": {
"base_uri": "https://localhost:8080/",
"height": 206
},
"outputId": "fc5d7a85-ca76-4634-9954-60b54e161a1e"
},
"source": [
"data.head()"
],
"execution_count": 5,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>text</th>\n",
" <th>label</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>удалить мой телефон номер у себя не надо</td>\n",
" <td>2</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>вы о чем вообще алексей вы кто</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>в смысле для чего это</td>\n",
" <td>4</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>на счет чего на счет чего</td>\n",
" <td>4</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>а у меня минимальная пенсия она не подлежит ув...</td>\n",
" <td>4</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" text label\n",
"0 удалить мой телефон номер у себя не надо 2\n",
"1 вы о чем вообще алексей вы кто 1\n",
"2 в смысле для чего это 4\n",
"3 на счет чего на счет чего 4\n",
"4 а у меня минимальная пенсия она не подлежит ув... 4"
]
},
"metadata": {
"tags": []
},
"execution_count": 5
}
]
},
{
"cell_type": "code",
"metadata": {
"id": "XcZakFDb6tJk",
"colab": {
"base_uri": "https://localhost:8080/",
"height": 300
},
"outputId": "bd574209-b782-47d6-baef-dc879dc74be5"
},
"source": [
"data.describe()"
],
"execution_count": 6,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>label</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>count</th>\n",
" <td>99995.000000</td>\n",
" </tr>\n",
" <tr>\n",
" <th>mean</th>\n",
" <td>2.190460</td>\n",
" </tr>\n",
" <tr>\n",
" <th>std</th>\n",
" <td>1.225115</td>\n",
" </tr>\n",
" <tr>\n",
" <th>min</th>\n",
" <td>1.000000</td>\n",
" </tr>\n",
" <tr>\n",
" <th>25%</th>\n",
" <td>1.000000</td>\n",
" </tr>\n",
" <tr>\n",
" <th>50%</th>\n",
" <td>2.000000</td>\n",
" </tr>\n",
" <tr>\n",
" <th>75%</th>\n",
" <td>4.000000</td>\n",
" </tr>\n",
" <tr>\n",
" <th>max</th>\n",
" <td>4.000000</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" label\n",
"count 99995.000000\n",
"mean 2.190460\n",
"std 1.225115\n",
"min 1.000000\n",
"25% 1.000000\n",
"50% 2.000000\n",
"75% 4.000000\n",
"max 4.000000"
]
},
"metadata": {
"tags": []
},
"execution_count": 6
}
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "JG00NWDSisMW"
},
"source": [
"Проверим балансировку классов:"
]
},
{
"cell_type": "code",
"metadata": {
"id": "o02E5QSp6poj",
"colab": {
"base_uri": "https://localhost:8080/",
"height": 206
},
"outputId": "cebdc7cf-4f27-41b8-f31f-27c0c43d22ca"
},
"source": [
"data.groupby(\"label\").count()"
],
"execution_count": 7,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>text</th>\n",
" </tr>\n",
" <tr>\n",
" <th>label</th>\n",
" <th></th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>39443</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>29950</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>2713</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>27887</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" text\n",
"label \n",
"1 39443\n",
"2 29950\n",
"3 2713\n",
"4 27887"
]
},
"metadata": {
"tags": []
},
"execution_count": 7
}
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "hqYk-UW9jBtp"
},
"source": [
"В целом, заметно, что класс 3 имеет в 10 раз меньше наблюдений, чем остальные классы. Попробуем пока что обойтись без балансировки классов и продолжим."
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "1WwPruTN0e0E"
},
"source": [
"В идеале сейчас надо почистить немного датасет и убрать спецсимволы. Пока я смотрела датасет, я заметила, что в нём присутствуют астериксы, которые маскируют нецензурную лексику, однако она является важным показателем для определения класса 2, насколько я тоже заметила. Поэтому, как мне кажется, стоит убрать прочие спецсимволы, включая точки, а поскольку весь текст уже приведён к нижнему регистру, то так и оставим:"
]
},
{
"cell_type": "code",
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/",
"height": 206
},
"id": "V5SHxsMi0tc7",
"outputId": "2b9ea42e-4116-48e4-8451-747b3aceec51"
},
"source": [
"def standart_text(df, text_field):\n",
" df[text_field] = df[text_field].str.replace(r\"[.,-]\", \"\")\n",
" return df\n",
"\n",
"data = standart_text(data, \"text\")\n",
"\n",
"data.to_csv(\"clean_data.csv\")\n",
"data.head()"
],
"execution_count": 8,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>text</th>\n",
" <th>label</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>удалить мой телефон номер у себя не надо</td>\n",
" <td>2</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>вы о чем вообще алексей вы кто</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>в смысле для чего это</td>\n",
" <td>4</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>на счет чего на счет чего</td>\n",
" <td>4</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>а у меня минимальная пенсия она не подлежит ув...</td>\n",
" <td>4</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" text label\n",
"0 удалить мой телефон номер у себя не надо 2\n",
"1 вы о чем вообще алексей вы кто 1\n",
"2 в смысле для чего это 4\n",
"3 на счет чего на счет чего 4\n",
"4 а у меня минимальная пенсия она не подлежит ув... 4"
]
},
"metadata": {
"tags": []
},
"execution_count": 8
}
]
},
{
"cell_type": "code",
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/",
"height": 206
},
"id": "w9PH8p1-0eYR",
"outputId": "5f48c847-4b4e-4c89-bd0b-1418c774b708"
},
"source": [
"clean_data = pd.read_csv(\"clean_data.csv\")\n",
"clean_data.tail()"
],
"execution_count": 9,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>Unnamed: 0</th>\n",
" <th>text</th>\n",
" <th>label</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>99990</th>\n",
" <td>99990</td>\n",
" <td>а скидки вы можете звонить уже даным давно заб...</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>99991</th>\n",
" <td>99991</td>\n",
" <td>у думаю что да</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>99992</th>\n",
" <td>99992</td>\n",
" <td>алло девушка вам нужен торт</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>99993</th>\n",
" <td>99993</td>\n",
" <td>хорошо я поняла вас ясно поняла передам обязат...</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>99994</th>\n",
" <td>99994</td>\n",
" <td>ну давайте посмотрим как я мне восемьдесят вос...</td>\n",
" <td>1</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" Unnamed: 0 text label\n",
"99990 99990 а скидки вы можете звонить уже даным давно заб... 1\n",
"99991 99991 у думаю что да 1\n",
"99992 99992 алло девушка вам нужен торт 1\n",
"99993 99993 хорошо я поняла вас ясно поняла передам обязат... 1\n",
"99994 99994 ну давайте посмотрим как я мне восемьдесят вос... 1"
]
},
"metadata": {
"tags": []
},
"execution_count": 9
}
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "wYAXqZAj4377"
},
"source": [
"# Токенизация"
]
},
{
"cell_type": "code",
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/",
"height": 206
},
"id": "EdFVOuSl5Ptt",
"outputId": "4621e3d2-44c3-43e3-be6e-4076c348fb9f"
},
"source": [
"clean_data.head()"
],
"execution_count": 10,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>Unnamed: 0</th>\n",
" <th>text</th>\n",
" <th>label</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>0</td>\n",
" <td>удалить мой телефон номер у себя не надо</td>\n",
" <td>2</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>1</td>\n",
" <td>вы о чем вообще алексей вы кто</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>2</td>\n",
" <td>в смысле для чего это</td>\n",
" <td>4</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>3</td>\n",
" <td>на счет чего на счет чего</td>\n",
" <td>4</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>4</td>\n",
" <td>а у меня минимальная пенсия она не подлежит ув...</td>\n",
" <td>4</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" Unnamed: 0 text label\n",
"0 0 удалить мой телефон номер у себя не надо 2\n",
"1 1 вы о чем вообще алексей вы кто 1\n",
"2 2 в смысле для чего это 4\n",
"3 3 на счет чего на счет чего 4\n",
"4 4 а у меня минимальная пенсия она не подлежит ув... 4"
]
},
"metadata": {
"tags": []
},
"execution_count": 10
}
]
},
{
"cell_type": "code",
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/",
"height": 206
},
"id": "S2SMM3x85VU3",
"outputId": "ad382cac-c5ff-485f-f283-60f710c30aa3"
},
"source": [
"del clean_data['Unnamed: 0']\n",
"clean_data.head()"
],
"execution_count": 11,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>text</th>\n",
" <th>label</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>удалить мой телефон номер у себя не надо</td>\n",
" <td>2</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>вы о чем вообще алексей вы кто</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>в смысле для чего это</td>\n",
" <td>4</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>на счет чего на счет чего</td>\n",
" <td>4</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>а у меня минимальная пенсия она не подлежит ув...</td>\n",
" <td>4</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" text label\n",
"0 удалить мой телефон номер у себя не надо 2\n",
"1 вы о чем вообще алексей вы кто 1\n",
"2 в смысле для чего это 4\n",
"3 на счет чего на счет чего 4\n",
"4 а у меня минимальная пенсия она не подлежит ув... 4"
]
},
"metadata": {
"tags": []
},
"execution_count": 11
}
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "4PF9G-_4jrFk"
},
"source": [
"Проверим, остались ли пустые строки, и удалим их. При токенизации могут возникнуть проблемы с NaN-нами в текста."
]
},
{
"cell_type": "code",
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "_pEEXe6i6AXG",
"outputId": "88c661f7-a835-4e99-c3d5-e1e3eda40001"
},
"source": [
"clean_data.isna().sum()"
],
"execution_count": 12,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"text 3\n",
"label 0\n",
"dtype: int64"
]
},
"metadata": {
"tags": []
},
"execution_count": 12
}
]
},
{
"cell_type": "code",
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/",
"height": 423
},
"id": "elJOlzfq6Sa5",
"outputId": "e6fcfd86-82c7-4c80-d8f2-0ae963e26e92"
},
"source": [
"clean_data.dropna()"
],
"execution_count": 13,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>text</th>\n",
" <th>label</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>удалить мой телефон номер у себя не надо</td>\n",
" <td>2</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>вы о чем вообще алексей вы кто</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>в смысле для чего это</td>\n",
" <td>4</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>на счет чего на счет чего</td>\n",
" <td>4</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>а у меня минимальная пенсия она не подлежит ув...</td>\n",
" <td>4</td>\n",
" </tr>\n",
" <tr>\n",
" <th>...</th>\n",
" <td>...</td>\n",
" <td>...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>99990</th>\n",
" <td>а скидки вы можете звонить уже даным давно заб...</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>99991</th>\n",
" <td>у думаю что да</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>99992</th>\n",
" <td>алло девушка вам нужен торт</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>99993</th>\n",
" <td>хорошо я поняла вас ясно поняла передам обязат...</td>\n",
" <td>1</td>\n",
" </tr>\n",
" <tr>\n",
" <th>99994</th>\n",
" <td>ну давайте посмотрим как я мне восемьдесят вос...</td>\n",
" <td>1</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"<p>99992 rows × 2 columns</p>\n",
"</div>"
],
"text/plain": [
" text label\n",
"0 удалить мой телефон номер у себя не надо 2\n",
"1 вы о чем вообще алексей вы кто 1\n",
"2 в смысле для чего это 4\n",
"3 на счет чего на счет чего 4\n",
"4 а у меня минимальная пенсия она не подлежит ув... 4\n",
"... ... ...\n",
"99990 а скидки вы можете звонить уже даным давно заб... 1\n",
"99991 у думаю что да 1\n",
"99992 алло девушка вам нужен торт 1\n",
"99993 хорошо я поняла вас ясно поняла передам обязат... 1\n",
"99994 ну давайте посмотрим как я мне восемьдесят вос... 1\n",
"\n",
"[99992 rows x 2 columns]"
]
},
"metadata": {
"tags": []
},
"execution_count": 13
}
]
},
{
"cell_type": "code",
"metadata": {
"id": "vIpJqFV_IYet"
},
"source": [
"clean_data['text'] = clean_data['text'].astype(str)"
],
"execution_count": 14,
"outputs": []
},
{
"cell_type": "markdown",
"metadata": {
"id": "r_H2Qe60jz5x"
},
"source": [
"Добавим, наконец, токены:"
]
},
{
"cell_type": "code",
"metadata": {
"id": "MJVBmV6WracJ"
},
"source": [
"clean_data['tokens'] = clean_data['text'].apply(word_tokenize)"
],
"execution_count": 15,
"outputs": []
},
{
"cell_type": "code",
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/",
"height": 206
},
"id": "Ik4en1YTIh1K",
"outputId": "3ad81856-3faf-4457-f878-62e898d86854"
},
"source": [
"clean_data.head()"
],
"execution_count": 16,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>text</th>\n",
" <th>label</th>\n",
" <th>tokens</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>удалить мой телефон номер у себя не надо</td>\n",
" <td>2</td>\n",
" <td>[удалить, мой, телефон, номер, у, себя, не, надо]</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>вы о чем вообще алексей вы кто</td>\n",
" <td>1</td>\n",
" <td>[вы, о, чем, вообще, алексей, вы, кто]</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>в смысле для чего это</td>\n",
" <td>4</td>\n",
" <td>[в, смысле, для, чего, это]</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>на счет чего на счет чего</td>\n",
" <td>4</td>\n",
" <td>[на, счет, чего, на, счет, чего]</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>а у меня минимальная пенсия она не подлежит ув...</td>\n",
" <td>4</td>\n",
" <td>[а, у, меня, минимальная, пенсия, она, не, под...</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" text ... tokens\n",
"0 удалить мой телефон номер у себя не надо ... [удалить, мой, телефон, номер, у, себя, не, надо]\n",
"1 вы о чем вообще алексей вы кто ... [вы, о, чем, вообще, алексей, вы, кто]\n",
"2 в смысле для чего это ... [в, смысле, для, чего, это]\n",
"3 на счет чего на счет чего ... [на, счет, чего, на, счет, чего]\n",
"4 а у меня минимальная пенсия она не подлежит ув... ... [а, у, меня, минимальная, пенсия, она, не, под...\n",
"\n",
"[5 rows x 3 columns]"
]
},
"metadata": {
"tags": []
},
"execution_count": 16
}
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "Jmy8p3cRkDDu"
},
"source": [
"Посмотрим, что получилось со словами, и изучим их немного:"
]
},
{
"cell_type": "code",
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "T9Pt7PXkInGw",
"outputId": "83814d55-3387-4dfd-81a3-5adddb392b60"
},
"source": [
"all_words = [word for tokens in clean_data[\"tokens\"] for word in tokens]\n",
"sentence_lengths = [len(tokens) for tokens in clean_data[\"tokens\"]]\n",
"VOCAB = sorted(list(set(all_words)))\n",
"print(\"%s words total, with a vocabulary size of %s\" % (len(all_words), len(VOCAB)))\n",
"print(\"Max sentence length is %s\" % max(sentence_lengths))"
],
"execution_count": 17,
"outputs": [
{
"output_type": "stream",
"text": [
"658642 words total, with a vocabulary size of 28559\n",
"Max sentence length is 34\n"
],
"name": "stdout"
}
]
},
{
"cell_type": "code",
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/",
"height": 606
},
"id": "5wzlTHlkJIIU",
"outputId": "349ffc77-e0f6-4508-e7e5-7f200a845cfd"
},
"source": [
"fig = plt.figure(figsize=(10, 10)) \n",
"plt.xlabel('Sentence length')\n",
"plt.ylabel('Number of sentences')\n",
"plt.hist(sentence_lengths)\n",
"plt.show()"
],
"execution_count": 18,
"outputs": [
{
"output_type": "display_data",
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 720x720 with 1 Axes>"
]
},
"metadata": {
"tags": [],
"needs_background": "light"
}
}
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "fkEY_rxmkKm7"
},
"source": [
"Теперь, думаю, можно приступатьк машинному обучению."
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "mdmzhGJ0kNPO"
},
"source": [
"# Машинное обучение"
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "Nf_vVzOAklnL"
},
"source": [
"Для компьютерного представления используются несколько моделей, однако я решила оставиться на мешке слов.\n",
"\n",
"**Мешок слов** – это модель представления текста в виде вектора (набора слов). Каждому слову в тексте сопоставляется число его вхождений. Модель связывает индекс с каждым словом в нашем словаре и представляет каждое предложение как нули, где 1 в каждом индексе соответствует слову, присутствующему в предложении."
]
},
{
"cell_type": "code",
"metadata": {
"id": "JIymCQDbJNCt"
},
"source": [
"def cv(data):\n",
" count_vectorizer = CountVectorizer()\n",
" emb = count_vectorizer.fit_transform(data)\n",
" return emb, count_vectorizer\n",
"\n",
"list_corpus = clean_data[\"text\"].tolist()\n",
"list_labels = clean_data[\"label\"].tolist()\n",
"\n",
"X_train, X_test, y_train, y_test = train_test_split(list_corpus, list_labels, test_size=0.2, random_state=40)\n",
"\n",
"X_train_counts, count_vectorizer = cv(X_train)\n",
"X_test_counts = count_vectorizer.transform(X_test)"
],
"execution_count": 19,
"outputs": []
},
{
"cell_type": "code",
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/",
"height": 918
},
"id": "ndeI46g2lPxu",
"outputId": "3addf848-8953-41d6-bb47-df3d6248fa15"
},
"source": [
"def plot_LSA(test_data, test_labels, savepath=\"PCA.csv\", plot=True):\n",
" lsa = TruncatedSVD(n_components=2)\n",
" lsa.fit(test_data)\n",
" lsa_scores = lsa.transform(test_data)\n",
" color_mapper = {label:idx for idx,label in enumerate(set(test_labels))}\n",
" color_column = [color_mapper[label] for label in test_labels]\n",
" colors = ['orange', 'blue', 'green', 'red']\n",
" if plot:\n",
" plt.scatter(lsa_scores[:,0], lsa_scores[:,1], s=8, alpha=.8, c=test_labels, cmap=matplotlib.colors.ListedColormap(colors))\n",
" orange_patch = mpatches.Patch(color='orange', label='class 1')\n",
" blue_patch = mpatches.Patch(color='blue', label='class 2')\n",
" green_patch = mpatches.Patch(color='green', label='class 3')\n",
" red_patch = mpatches.Patch(color='red', label='class 4')\n",
" plt.legend(handles=[orange_patch, blue_patch, green_patch, red_patch], prop={'size': 30})\n",
"\n",
"\n",
"fig = plt.figure(figsize=(16, 16)) \n",
"plot_LSA(X_train_counts, y_train)\n",
"plt.show()"
],
"execution_count": 21,
"outputs": [
{
"output_type": "display_data",
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 1152x1152 with 1 Axes>"
]
},
"metadata": {
"tags": [],
"needs_background": "light"
}
}
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "_SH0x6FbmFk9"
},
"source": [
"Что же, выглядит немного невкусно и грустно, однако попробуем обучить логистическую регрессию. Зелёные так вообще потерялись :("
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "bHSZ4sZpmpD5"
},
"source": [
"## Логистическая регрессия"
]
},
{
"cell_type": "code",
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "18HLbz_tNYUX",
"outputId": "0f716324-65ea-4fdd-c9e1-c8d22054c099"
},
"source": [
"clf = LogisticRegression(C=30.0, class_weight='balanced', solver='newton-cg', multi_class='multinomial', n_jobs=-1, random_state=40)\n",
"clf.fit(X_train_counts, y_train)\n",
"y_predicted_counts = clf.predict(X_test_counts)\n",
"\n",
"def get_metrics(y_test, y_predicted): \n",
" precision = precision_score(y_test, y_predicted, pos_label=None, average='weighted') \n",
" recall = recall_score(y_test, y_predicted, pos_label=None, average='weighted')\n",
" f1 = f1_score(y_test, y_predicted, pos_label=None, average='weighted')\n",
" accuracy = accuracy_score(y_test, y_predicted)\n",
" return accuracy, precision, recall, f1\n",
"\n",
"accuracy, precision, recall, f1 = get_metrics(y_test, y_predicted_counts)\n",
"print(\"accuracy = %.3f, precision = %.3f, recall = %.3f, f1 = %.3f\" % (accuracy, precision, recall, f1))"
],
"execution_count": 22,
"outputs": [
{
"output_type": "stream",
"text": [
"accuracy = 0.567, precision = 0.599, recall = 0.567, f1 = 0.580\n"
],
"name": "stdout"
}
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "QJd4co8Am01J"
},
"source": [
"Метрики — это хорошо, но важно понимать, где ошибается классификатор, какие классы предсказывает хорошо, а какие — уже не очень. Поэтому надо построить **confusion matrix**:"
]
},
{
"cell_type": "code",
"metadata": {
"id": "9aEe8KpbnMeX"
},
"source": [
"def get_confusion_matrix(cm, classes, normalize=False, title='Confusion matrix', cmap=plt.cm.winter):\n",
" if normalize:\n",
" cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]\n",
" plt.imshow(cm, interpolation='nearest', cmap=cmap)\n",
" plt.title(title, fontsize=30)\n",
" plt.colorbar()\n",
" tick_marks = np.arange(len(classes))\n",
" plt.xticks(tick_marks, classes, fontsize=20)\n",
" plt.yticks(tick_marks, classes, fontsize=20)\n",
" \n",
" fmt = '.2f' if normalize else 'd'\n",
" thresh = cm.max() / 2.\n",
"\n",
" for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):\n",
" plt.text(j, i, format(cm[i, j], fmt), horizontalalignment=\"center\", \n",
" color=\"white\" if cm[i, j] < thresh else \"black\", fontsize=40)\n",
" \n",
" plt.tight_layout()\n",
" plt.ylabel('True label', fontsize=30)\n",
" plt.xlabel('Predicted label', fontsize=30)\n",
"\n",
" return plt"
],
"execution_count": 23,
"outputs": []
},
{
"cell_type": "code",
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/",
"height": 798
},
"id": "hlyve__dnZV_",
"outputId": "c77a8cab-fc16-45eb-8090-781fa63bbc56"
},
"source": [
"cm = confusion_matrix(y_test, y_predicted_counts)\n",
"fig = plt.figure(figsize=(10, 10))\n",
"plot = get_confusion_matrix(cm, classes=['Class 1','Class 2','Class 3', 'Class 4'], normalize=False, title='Confusion matrix')\n",
"plt.show()\n",
"print(cm)"
],
"execution_count": 24,
"outputs": [
{
"output_type": "display_data",
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 720x720 with 2 Axes>"
]
},
"metadata": {
"tags": [],
"needs_background": "light"
}
},
{
"output_type": "stream",
"text": [
"[[4619 819 779 1621]\n",
" [ 756 4160 320 872]\n",
" [ 156 60 192 110]\n",
" [1736 857 570 2372]]\n"
],
"name": "stdout"
}
]
},
{
"cell_type": "markdown",
"metadata": {
"id": "oW0NFApynuMq"
},
"source": [
"Как и следовало ожидать, класс 3 предсказывается не очень хорошо: изначально его как раз было меньше. Пожалуй, в следующий раз надо будет воспользоваться аугментаций!"
]
},
{
"cell_type": "code",
"metadata": {
"id": "zRUq1u9bntsM"
},
"source": [
""
],
"execution_count": null,
"outputs": []
}
]
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment