Manmohan Singh manmohan24nov

## sales_raw_data_agg.py
In [1]: import pandas as pd
   ...: import numpy as np
   ...: import matplotlib.pyplot as plt
   ...: import seaborn as sns
   ...: from collections import Counter

 In [2]: sales_data = pd.read_csv('sales_data_set.csv')

In [3]: sales_data
Out[3]:

## row_number_agg.py
In [2]: weekly_sales_df = sales_data[['Store',
   ...:                               'Date',
   ...:                               'Weekly_Sales']].groupby(['Store',
   ...:                                                         'Date']).agg({'Weekly_Sales':'sum'})

In [3]: weekly_sales_df.reset_index(inplace=True)

In [4]: weekly_sales_df['Date']= pd.to_datetime(weekly_sales_df['Date'])

In [5]: weekly_sales_df = weekly_sales_df.sort_values(by='Weekly_Sales',ascending=False)

## rolling_agg_function.py
In [2]: sales_data_ordered = sales_data.sort_values(by=['Date'],ascending=False)

In [3]: sales_data_ordered['Date']= pd.to_datetime(sales_data_ordered['Date'])

In [5]: weekly_sales_df = sales_data_ordered[['Store',
   ...:                               'Date',
   ...:                               'Weekly_Sales']].groupby(['Store',
   ...:                                                         'Date']).agg({'Weekly_Sales':'mean'})

In [6]: weekly_sales_df.reset_index(inplace=True)

## percentile_groupby.py
In [2]: weekly_sales_df = sales_data[['Store',
   ...:                               'Date',
   ...:                               'Weekly_Sales']].groupby(['Store',
   ...:                                                         'Date']).agg({'Weekly_Sales':'mean'})

In [3]: weekly_sales_df.reset_index(inplace=True)

In [4]: weekly_sales_df['Percent_weekly_sales'] = weekly_sales_df.groupby(['Date'])['Weekly_Sales'].rank(pct=True,
   ...:                                                                                      ascending=False)

## rank_dense_rank_agg.py
In [3]: weekly_sales_df = sales_data[['Store',
   ...:                               'Date',
   ...:                               'Weekly_Sales']].groupby(['Date',
   ...:                                                         'Store']).agg({'Weekly_Sales':'sum'})

In [4]: weekly_sales_df.reset_index(inplace=True)

In [5]: weekly_sales_df['rank']=weekly_sales_df.groupby(['Store'])['Weekly_Sales'].rank(ascending=False)
   ...: weekly_sales_df['dense_rank'] = weekly_sales_df.groupby(['Store'])['Weekly_Sales'].rank(method='dense',
   ...:                                                                                      ascending=False)

## percentiles_descriptive.py
# prtint min, max, median, first quartile, third quartile and random quartile
# using .quartile()
for i in num_col:
    print(f'Min: {train[i].quantile(0)} First Quartile: {train[i].quantile(0.25)}'
          f'Median: {train[i].quantile(0.5)} Third Quartile: {train[i].quantile(0.75)}'
          f'Max: {train[i].quantile(0)} Random Quartile(90%): {train[i].quantile(0.9)}')

# quartile for categorical variables
def percentile(n):
    def percentile_(x):

## count_descriptive_statistics.py
# import the
import pandas as pd
from matplotlib import cm
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as patches
import matplotlib.path as path
import matplotlib.ticker as ticker
import matplotlib.animation as animation
import pandas as pd

## eda_descriptive.py
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter

# Loat the train and test data
train_df = pd.read_csv('train.csv')
train_df['df_type'] = 'train'
test_df = pd.read_csv('test.csv')

## reuters_ner.py
import spacy
from matplotlib import cm
from matplotlib.pyplot import plt

nlp = spacy.load('en_core_web_sm')
ner_collection = {"Location":[],"Person":[],"Date":[],"Quantity":[],"Organisation":[]}
location = []
person = []
date = []
quantity = []

## reuters_unigram_code.py
from gensim.parsing.preprocessing
import remove_stopwords
import genism
from wordcloud import WordCloud
import numpy as np
import random

# import stopwords from gensim methods to stop_list variable
# You can also manually add stopwords
gensim_stopwords = gensim.parsing.preprocessing.STOPWORDS
	In [1]: import pandas as pd
	...: import numpy as np
	...: import matplotlib.pyplot as plt
	...: import seaborn as sns
	...: from collections import Counter

	In [2]: sales_data = pd.read_csv('sales_data_set.csv')

	In [3]: sales_data
	Out[3]:
	In [2]: weekly_sales_df = sales_data[['Store',
	...: 'Date',
	...: 'Weekly_Sales']].groupby(['Store',
	...: 'Date']).agg({'Weekly_Sales':'sum'})

	In [3]: weekly_sales_df.reset_index(inplace=True)

	In [4]: weekly_sales_df['Date']= pd.to_datetime(weekly_sales_df['Date'])

	In [5]: weekly_sales_df = weekly_sales_df.sort_values(by='Weekly_Sales',ascending=False)
	In [2]: sales_data_ordered = sales_data.sort_values(by=['Date'],ascending=False)

	In [3]: sales_data_ordered['Date']= pd.to_datetime(sales_data_ordered['Date'])

	In [5]: weekly_sales_df = sales_data_ordered[['Store',
	...: 'Date',
	...: 'Weekly_Sales']].groupby(['Store',
	...: 'Date']).agg({'Weekly_Sales':'mean'})

	In [6]: weekly_sales_df.reset_index(inplace=True)
	In [3]: weekly_sales_df = sales_data[['Store',
	...: 'Date',
	...: 'Weekly_Sales']].groupby(['Date',
	...: 'Store']).agg({'Weekly_Sales':'sum'})

	In [4]: weekly_sales_df.reset_index(inplace=True)

	In [5]: weekly_sales_df['rank']=weekly_sales_df.groupby(['Store'])['Weekly_Sales'].rank(ascending=False)
	...: weekly_sales_df['dense_rank'] = weekly_sales_df.groupby(['Store'])['Weekly_Sales'].rank(method='dense',
	...: ascending=False)
	# prtint min, max, median, first quartile, third quartile and random quartile
	# using .quartile()
	for i in num_col:
	print(f'Min: {train[i].quantile(0)} First Quartile: {train[i].quantile(0.25)}'
	f'Median: {train[i].quantile(0.5)} Third Quartile: {train[i].quantile(0.75)}'
	f'Max: {train[i].quantile(0)} Random Quartile(90%): {train[i].quantile(0.9)}')

	# quartile for categorical variables
	def percentile(n):
	def percentile_(x):
	# import the
	import pandas as pd
	from matplotlib import cm
	import numpy as np
	import matplotlib.pyplot as plt
	import matplotlib.patches as patches
	import matplotlib.path as path
	import matplotlib.ticker as ticker
	import matplotlib.animation as animation
	import pandas as pd
	import spacy
	from matplotlib import cm
	from matplotlib.pyplot import plt

	nlp = spacy.load('en_core_web_sm')
	ner_collection = {"Location":[],"Person":[],"Date":[],"Quantity":[],"Organisation":[]}
	location = []
	person = []
	date = []
	quantity = []
	from gensim.parsing.preprocessing
	import remove_stopwords
	import genism
	from wordcloud import WordCloud
	import numpy as np
	import random

	# import stopwords from gensim methods to stop_list variable
	# You can also manually add stopwords
	gensim_stopwords = gensim.parsing.preprocessing.STOPWORDS