Nikita Furin nokados

## keras_scores_class.py
import keras.backend as K


def recall(y_true, y_pred):
    true_positives = K.sum(K.round(K.clip(y_true * y_pred, 0, 1)))
    possible_positives = K.sum(K.round(K.clip(y_true, 0, 1)))
    recall = true_positives / (possible_positives + K.epsilon())
    return recall

def precision(y_true, y_pred):

## embedding.py
import numpy as np
from gensim.models import KeyedVectors, Word2Vec
from gensim.models.fasttext import FastText as FT_gensim
from nltk.tokenize import sent_tokenize, word_tokenize
import json
import pandas as pd
from tqdm import trange

W2V_PATH = 'data/GoogleNews-vectors-negative300.bin'

## wordcloud.py
%%time
clusters = dbscan.fit(doc2vec_list)

cl_labels = clusters.labels_.tolist()

def wordcloud_cluster_byIds(cluId):
    texts = []
    for i in range(0, len(cl_labels)):
        if cl_labels[i] == cluId:
            for word in word_tokenize(dialogs_concatted.iloc[i].TEXT):

## doc2vec.py
def calc_embedding(text):
    tokens = word_tokenize(text)
    vec = np.zeros(100)
    num_tokens = 0
    for token in tokens:
        if token in stopwords_list:
            continue
        if token in new_model:
            vec += new_model[token]
            num_tokens += 1

## clear_punctuation.py
import string
translator = str.maketrans('', '', re.sub(r'[\?-]', '', string.punctuation+'«»”“', flags=re.MULTILINE))
def clear_punctuation(sentence):
    return sentence.translate(translator)

## tqdm_pandas.py
from tqdm import tqdm_notebook
tqdm_notebook().pandas()
	import keras.backend as K


	def recall(y_true, y_pred):
	true_positives = K.sum(K.round(K.clip(y_true * y_pred, 0, 1)))
	possible_positives = K.sum(K.round(K.clip(y_true, 0, 1)))
	recall = true_positives / (possible_positives + K.epsilon())
	return recall

	def precision(y_true, y_pred):
	import numpy as np
	from gensim.models import KeyedVectors, Word2Vec
	from gensim.models.fasttext import FastText as FT_gensim
	from nltk.tokenize import sent_tokenize, word_tokenize
	import json
	import pandas as pd
	from tqdm import trange

	W2V_PATH = 'data/GoogleNews-vectors-negative300.bin'
	%%time
	clusters = dbscan.fit(doc2vec_list)

	cl_labels = clusters.labels_.tolist()

	def wordcloud_cluster_byIds(cluId):
	texts = []
	for i in range(0, len(cl_labels)):
	if cl_labels[i] == cluId:
	for word in word_tokenize(dialogs_concatted.iloc[i].TEXT):
	def calc_embedding(text):
	tokens = word_tokenize(text)
	vec = np.zeros(100)
	num_tokens = 0
	for token in tokens:
	if token in stopwords_list:
	continue
	if token in new_model:
	vec += new_model[token]
	num_tokens += 1
	import string
	translator = str.maketrans('', '', re.sub(r'[\?-]', '', string.punctuation+'«»”“', flags=re.MULTILINE))
	def clear_punctuation(sentence):
	return sentence.translate(translator)