davidlenz/20_newsgroup_to_csv.py

## 20_newsgroup_to_csv.py
from sklearn.datasets import fetch_20newsgroups
import pandas as pd

def twenty_newsgroup_to_csv():
    newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))

    df = pd.DataFrame([newsgroups_train.data, newsgroups_train.target.tolist()]).T
    df.columns = ['text', 'target']

    targets = pd.DataFrame( newsgroups_train.target_names)
    targets.columns=['title']

    out = pd.merge(df, targets, left_on='target', right_index=True)
    out['date'] = pd.to_datetime('now')
    out.to_csv('20_newsgroup.csv')

twenty_newsgroup_to_csv()
	from sklearn.datasets import fetch_20newsgroups
	import pandas as pd

	def twenty_newsgroup_to_csv():
	newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))

	df = pd.DataFrame([newsgroups_train.data, newsgroups_train.target.tolist()]).T
	df.columns = ['text', 'target']

	targets = pd.DataFrame( newsgroups_train.target_names)
	targets.columns=['title']

	out = pd.merge(df, targets, left_on='target', right_index=True)
	out['date'] = pd.to_datetime('now')
	out.to_csv('20_newsgroup.csv')

	twenty_newsgroup_to_csv()