Egemen Zeytinci egemenzeytinci

## rfm_part2.py
# three quantiles to rfm values
df['r_val'] = pd.qcut(df['recency'], q=3, labels=range(3, 0, -1))
df['f_val'] = pd.qcut(df['frequency'], q=3, labels=range(1, 4))
df['m_val'] = pd.qcut(df['monetary'], q=3, labels=range(1, 4))

# create the segment value
df['rfm_val'] = (
    df['r_val'].astype(str) +
    df['f_val'].astype(str) +
    df['m_val'].astype(str)

## rfm_part1.py
from py2neo import Graph
import pandas as pd

host = 'localhost'
port = 7687
user = ''
password = ''

graph = Graph(
    host=host,

## ycimpute_test.ipynb

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                egemenzeytinci
                / ycimpute_test.ipynb
            
            
              Last active
              April 30, 2020 10:59
            
          
        Loading

      Sorry, something went wrong. Reload?
      Sorry, we cannot display this file.
      Sorry, this file is invalid so it cannot be displayed.
      
          Viewer requires iframe.
      
    
## classification_report.py
class Report:
    def __init__(self, X_test, y_test):
        self.X = X_test
        self.y = y_test

    def metrics(self, model):
        y_pred = model.predict(self.X)

        print('Accuracy score:\n')
        print(accuracy_score(self.y, y_pred))

## compare.py
def compare():
    for is_le in [True, False]:
        method = 'label encoder'

        if is_le:
            selected = df_le[selects_le + ['is_canceled']]
        else:
            selected = df_hot[selects_hot + ['is_canceled']]
            method = 'dummy variables'


## feature_selection.py
def select(X):
    selects = []

    selector = SelectKBest(chi2, k='all').fit(X, y)
    scores = selector.scores_

    q3 = np.quantile(scores, 0.75)
    q1 = np.quantile(scores, 0.25)
    iqr = q3 - q1
    threshold = q3 + 1.5 * iqr

## iqr.py
cleaned = df.copy()

columns = [
    'lead_time',
    'stays_in_weekend_nights',
    'stays_in_week_nights',
    'adults',
    'children',
    'babies',
    'adr',

## tweet_dumper.py
#!/usr/bin/env python
# encoding: utf-8

import tweepy #https://github.com/tweepy/tweepy
import csv

#Twitter API credentials
consumer_key = ""
consumer_secret = ""
access_key = ""

## feature_importance.py
from rfpimp import permutation_importances
from sklearn.base import clone
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split
import pandas as pd


def imp_df(column_names, importances):
    data = {

## preprocessing.py
from nltk.corpus import stopwords
from stemming.porter2 import stem
import nltk
import re
import string

nltk.download('punkt')
nltk.download('stopwords')
default_stopwords = stopwords.words('english')
	# three quantiles to rfm values
	df['r_val'] = pd.qcut(df['recency'], q=3, labels=range(3, 0, -1))
	df['f_val'] = pd.qcut(df['frequency'], q=3, labels=range(1, 4))
	df['m_val'] = pd.qcut(df['monetary'], q=3, labels=range(1, 4))

	# create the segment value
	df['rfm_val'] = (
	df['r_val'].astype(str) +
	df['f_val'].astype(str) +
	df['m_val'].astype(str)
	from py2neo import Graph
	import pandas as pd

	host = 'localhost'
	port = 7687
	user = ''
	password = ''

	graph = Graph(
	host=host,
	class Report:
	def __init__(self, X_test, y_test):
	self.X = X_test
	self.y = y_test

	def metrics(self, model):
	y_pred = model.predict(self.X)

	print('Accuracy score:\n')
	print(accuracy_score(self.y, y_pred))
	def compare():
	for is_le in [True, False]:
	method = 'label encoder'

	if is_le:
	selected = df_le[selects_le + ['is_canceled']]
	else:
	selected = df_hot[selects_hot + ['is_canceled']]
	method = 'dummy variables'
	def select(X):
	selects = []

	selector = SelectKBest(chi2, k='all').fit(X, y)
	scores = selector.scores_

	q3 = np.quantile(scores, 0.75)
	q1 = np.quantile(scores, 0.25)
	iqr = q3 - q1
	threshold = q3 + 1.5 * iqr
	cleaned = df.copy()

	columns = [
	'lead_time',
	'stays_in_weekend_nights',
	'stays_in_week_nights',
	'adults',
	'children',
	'babies',
	'adr',
	#!/usr/bin/env python
	# encoding: utf-8

	import tweepy #https://github.com/tweepy/tweepy
	import csv

	#Twitter API credentials
	consumer_key = ""
	consumer_secret = ""
	access_key = ""
	from rfpimp import permutation_importances
	from sklearn.base import clone
	from sklearn.ensemble import RandomForestRegressor
	from sklearn.metrics import r2_score
	from sklearn.model_selection import train_test_split
	import pandas as pd


	def imp_df(column_names, importances):
	data = {
	from nltk.corpus import stopwords
	from stemming.porter2 import stem
	import nltk
	import re
	import string

	nltk.download('punkt')
	nltk.download('stopwords')
	default_stopwords = stopwords.words('english')