jinhangjiang/boilerplate.py

## boilerplate.py
df['Boilerplate'] = mts.Boilerplate(sent_tok, n = 4, min_doc = 5, get_ngram = False)

## data_clean1.py
df['cleaned_data'] = pd.Series()
for i in range(len(df['sent_tok'])):
    df['cleaned_data'][i] = [mts.clean_data(x,\
                                            lower = True,\
                                            punctuations = True,\
                                            number = False,\
                                            unicode = True,\
                                            stop_words = False) for x in df['sent_tok'][i]]

## data_clean2.py
df['cleaned_data'] = df.text.apply(mts.clean_data, args=(True, True, False, True, False))

## import.py
import MoreThanSentiments as mts

## installation.py
pip install MoreThanSentiments

## read_txt.py
my_dir_path = "D:/YourDataFolder"
df = mts.read_txt_files(PATH = my_dir_path)

## redundancy.py
df['Redundancy'] = mts.Redundancy(df.cleaned_data, n = 10)

## relative_prevalence.py
df['Relative_prevalence'] = mts.Relative_prevalence(df.text)

## sent_tok.py
df['sent_tok'] = df.text.apply(mts.sent_tok)

## specificity.py
df['Specificity'] = mts.Specificity(df.text)
	df['cleaned_data'] = pd.Series()
	for i in range(len(df['sent_tok'])):
	df['cleaned_data'][i] = [mts.clean_data(x,\
	lower = True,\
	punctuations = True,\
	number = False,\
	unicode = True,\
	stop_words = False) for x in df['sent_tok'][i]]
	my_dir_path = "D:/YourDataFolder"
	df = mts.read_txt_files(PATH = my_dir_path)