andrea-dagostino/clustering_eng_1.py

## clustering_eng_1.py
# import the dataset from sklearn
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA

# import other required libs
import pandas as pd
import numpy as np

# string manipulation libs
import re
import string
import nltk
from nltk.corpus import stopwords

# viz libs
import matplotlib.pyplot as plt
import seaborn as sns


categories = [
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'alt.atheism',
 'soc.religion.christian',
]
dataset = fetch_20newsgroups(subset='train', categories=categories, shuffle=True, remove=('headers', 'footers', 'quotes'))
	# import the dataset from sklearn
	from sklearn.datasets import fetch_20newsgroups
	from sklearn.feature_extraction.text import TfidfVectorizer
	from sklearn.cluster import KMeans
	from sklearn.decomposition import PCA

	# import other required libs
	import pandas as pd
	import numpy as np

	# string manipulation libs
	import re
	import string
	import nltk
	from nltk.corpus import stopwords

	# viz libs
	import matplotlib.pyplot as plt
	import seaborn as sns


	categories = [
	'comp.graphics',
	'comp.os.ms-windows.misc',
	'rec.sport.baseball',
	'rec.sport.hockey',
	'alt.atheism',
	'soc.religion.christian',
	]
	dataset = fetch_20newsgroups(subset='train', categories=categories, shuffle=True, remove=('headers', 'footers', 'quotes'))