akrisanov/sprint_2_theme_3_task_3.py

## sprint_2_theme_3_task_3.py
import pandas as pd
stock = pd.read_csv('/datasets/stock_upd.csv')

stock['item_lowercase'] = stock['item'].str.lower()

apple = stock[stock['item_lowercase'].str.contains('apple')]['count'].sum()
samsung = stock[stock['item_lowercase'].str.contains('samsung')]['count'].sum()

stock['item_lowercase'] = stock['item_lowercase'].drop_duplicates()
stock = stock.dropna().reset_index(drop=True)

stock.at[3, 'count'] = apple
stock.at[1, 'count'] = samsung

print(stock)

# Результат
#           id                              item  count                    item_lowercase
# 0  100480924     Смартфон Xiaomi Redmi 6A 16GB     44     смартфон xiaomi redmi 6a 16gb
# 1  100480938  Смартфон Samsung Galaxy A30 32GB     60  смартфон samsung galaxy a30 32gb
# 2  100480959          Смартфон HUAWEI P30 lite     38          смартфон huawei p30 lite
# 3  100480975     Смартфон Apple iPhone Xr 64gb     29     смартфон apple iphone xr 64gb
# 4  100480988            Смартфон Honor 8X 64GB     64            смартфон honor 8x 64gb

## sprint_2_theme_3_task_4.py
from nltk.stem import SnowballStemmer
russian_stemmer = SnowballStemmer('russian')

queries = ["эпл айфоны",
           "купить эпл телефон",
           "лучшие смартфоны",
           "барон фон",
           "смартфон эпл айфон",
           "смартфоны 2019",
           "эплан",
           "фоновая музыка",
           "эпл айфоны икс",
           "эпл айфон 64гб",
           "фон для фото",
           "купить эпл",
           "эпл айфон купить",
           "эплеренон купить",
           "смартфон где купить",
           "эплан показания",
           "смартфон huawei",
           "эпл"]

for stemmed_query in queries:
    for word in stemmed_query.split():
        stemmed_word = russian_stemmer.stem(word)
        if stemmed_word == 'эпл':
            print(stemmed_query)


# Результат
# эпл айфоны
# купить эпл телефон
# смартфон эпл айфон
# эпл айфоны икс
# эпл айфон 64гб
# купить эпл
# эпл айфон купить
# эпл

## sprint_2_theme_3_task_5.py
import pandas as pd
from pymystem3 import Mystem
from collections import Counter

feedback = pd.read_csv('/datasets/feedback.csv')

m = Mystem()
lemmas = m.lemmatize(feedback.at[1, 'text'])

print(Counter(lemmas))

# Counter({' ': 16, 'на': 2, '- ': 1, 'огромный': 1, 'качественный': 1, 'экран': 1, 'запас': 1, 'производительность': 1, 'хватить': 1, 'несколько': 1, 'год': 1, 'замечательный': 1, 'камера': 1, 'очень': 1, 'емкий': 1, 'батарея': 1, '. ': 1, 'хватать': 1, 'целый': 1, 'день': 1, '.': 1, '\n': 1})

## sprint_2_theme_4.py
import pandas as pd

def alert_group(messages):
    if messages <= 300:
        return 'средний'
    elif messages > 300 and messages < 500:
        return 'высокий'
    else:
        return 'критичный'

support_log = pd.read_csv('/datasets/support_log.csv')
support_log_grouped = support_log.groupby('type_id').count()
support_log_grouped['alert_group'] = support_log_grouped['user_id'].apply(alert_group)
print(support_log_grouped['alert_group'].value_counts())

# Результат
# высокий      4
# критичный    2
# средний      2
# Name: alert_group, dtype: int64

## sprint_2_theme_5.py
import pandas as pd


def alert_group_importance(row):
    if row['alert_group'] == 'средний' and row['importance'] == 1:
        return 'обратить внимание'
    elif row['alert_group'] == 'высокий' and row['importance'] == 1:
        return 'высокий риск'
    return 'в порядке очереди'


support_log_grouped = pd.read_csv('/datasets/support_log_grouped.csv')

# print(alert_group_importance({'alert_group': 'высокий', 'importance': 1}))

support_log_grouped['importance_status'] = support_log_grouped.apply(alert_group_importance, axis=1)

print(support_log_grouped)

# Результат
#    type_id  user_id  timestamp alert_group  importance  importance_status
# 0        1      311        311     высокий           1       высокий риск
# 1        2      302        302     высокий           0  в порядке очереди
# 2        3      606        606   критичный           0  в порядке очереди
# 3        4      312        312     высокий           1       высокий риск
# 4        5      586        586   критичный           1  в порядке очереди
# 5        6      303        303     высокий           1       высокий риск
# 6        7      283        283     средний           1  обратить внимание
# 7        8      297        297     средний           0  в порядке очереди
	import pandas as pd
	stock = pd.read_csv('/datasets/stock_upd.csv')

	stock['item_lowercase'] = stock['item'].str.lower()

	apple = stock[stock['item_lowercase'].str.contains('apple')]['count'].sum()
	samsung = stock[stock['item_lowercase'].str.contains('samsung')]['count'].sum()

	stock['item_lowercase'] = stock['item_lowercase'].drop_duplicates()
	stock = stock.dropna().reset_index(drop=True)

	stock.at[3, 'count'] = apple
	stock.at[1, 'count'] = samsung

	print(stock)

	# Результат
	# id item count item_lowercase
	# 0 100480924 Смартфон Xiaomi Redmi 6A 16GB 44 смартфон xiaomi redmi 6a 16gb
	# 1 100480938 Смартфон Samsung Galaxy A30 32GB 60 смартфон samsung galaxy a30 32gb
	# 2 100480959 Смартфон HUAWEI P30 lite 38 смартфон huawei p30 lite
	# 3 100480975 Смартфон Apple iPhone Xr 64gb 29 смартфон apple iphone xr 64gb
	# 4 100480988 Смартфон Honor 8X 64GB 64 смартфон honor 8x 64gb
	from nltk.stem import SnowballStemmer
	russian_stemmer = SnowballStemmer('russian')

	queries = ["эпл айфоны",
	"купить эпл телефон",
	"лучшие смартфоны",
	"барон фон",
	"смартфон эпл айфон",
	"смартфоны 2019",
	"эплан",
	"фоновая музыка",
	"эпл айфоны икс",
	"эпл айфон 64гб",
	"фон для фото",
	"купить эпл",
	"эпл айфон купить",
	"эплеренон купить",
	"смартфон где купить",
	"эплан показания",
	"смартфон huawei",
	"эпл"]

	for stemmed_query in queries:
	for word in stemmed_query.split():
	stemmed_word = russian_stemmer.stem(word)
	if stemmed_word == 'эпл':
	print(stemmed_query)


	# Результат
	# эпл айфоны
	# купить эпл телефон
	# смартфон эпл айфон
	# эпл айфоны икс
	# эпл айфон 64гб
	# купить эпл
	# эпл айфон купить
	# эпл
	import pandas as pd
	from pymystem3 import Mystem
	from collections import Counter

	feedback = pd.read_csv('/datasets/feedback.csv')

	m = Mystem()
	lemmas = m.lemmatize(feedback.at[1, 'text'])

	print(Counter(lemmas))

	# Counter({' ': 16, 'на': 2, '- ': 1, 'огромный': 1, 'качественный': 1, 'экран': 1, 'запас': 1, 'производительность': 1, 'хватить': 1, 'несколько': 1, 'год': 1, 'замечательный': 1, 'камера': 1, 'очень': 1, 'емкий': 1, 'батарея': 1, '. ': 1, 'хватать': 1, 'целый': 1, 'день': 1, '.': 1, '\n': 1})
	import pandas as pd

	def alert_group(messages):
	if messages <= 300:
	return 'средний'
	elif messages > 300 and messages < 500:
	return 'высокий'
	else:
	return 'критичный'

	support_log = pd.read_csv('/datasets/support_log.csv')
	support_log_grouped = support_log.groupby('type_id').count()
	support_log_grouped['alert_group'] = support_log_grouped['user_id'].apply(alert_group)
	print(support_log_grouped['alert_group'].value_counts())

	# Результат
	# высокий 4
	# критичный 2
	# средний 2
	# Name: alert_group, dtype: int64
	import pandas as pd


	def alert_group_importance(row):
	if row['alert_group'] == 'средний' and row['importance'] == 1:
	return 'обратить внимание'
	elif row['alert_group'] == 'высокий' and row['importance'] == 1:
	return 'высокий риск'
	return 'в порядке очереди'


	support_log_grouped = pd.read_csv('/datasets/support_log_grouped.csv')

	# print(alert_group_importance({'alert_group': 'высокий', 'importance': 1}))

	support_log_grouped['importance_status'] = support_log_grouped.apply(alert_group_importance, axis=1)

	print(support_log_grouped)

	# Результат
	# type_id user_id timestamp alert_group importance importance_status
	# 0 1 311 311 высокий 1 высокий риск
	# 1 2 302 302 высокий 0 в порядке очереди
	# 2 3 606 606 критичный 0 в порядке очереди
	# 3 4 312 312 высокий 1 высокий риск
	# 4 5 586 586 критичный 1 в порядке очереди
	# 5 6 303 303 высокий 1 высокий риск
	# 6 7 283 283 средний 1 обратить внимание
	# 7 8 297 297 средний 0 в порядке очереди