ronykroy/NewsGroup20_dataPrep.py

## NewsGroup20_dataPrep.py
from sklearn.datasets import fetch_20newsgroups
dataset = fetch_20newsgroups(shuffle=True, random_state=1, remove=('headers', 'footers', 'quotes'))
documents = dataset.data
df = pd.DataFrame({'label':dataset.target, 'text':dataset.data})
df.rename({'label':'target','text':text},inplace=True) # renaming cols

from sklearn.model_selection import train_test_split
df_trn, df_test = train_test_split(df, stratify = df['label'], test_size = 0.15, random_state = 11)
df_trn, df_val = train_test_split(df_trn, stratify = df_trn['label'], test_size = 0.15,
                                  random_state = 11)
	from sklearn.datasets import fetch_20newsgroups
	dataset = fetch_20newsgroups(shuffle=True, random_state=1, remove=('headers', 'footers', 'quotes'))
	documents = dataset.data
	df = pd.DataFrame({'label':dataset.target, 'text':dataset.data})
	df.rename({'label':'target','text':text},inplace=True) # renaming cols

	from sklearn.model_selection import train_test_split
	df_trn, df_test = train_test_split(df, stratify = df['label'], test_size = 0.15, random_state = 11)
	df_trn, df_val = train_test_split(df_trn, stratify = df_trn['label'], test_size = 0.15,
	random_state = 11)