astoeckl/Clustering newsgroups

## Clustering newsgroups
from sklearn.cluster import KMeans
from tqdm.notebook import tqdm
from sklearn.metrics import silhouette_score

X = matrix
cluster_results_km = pd.DataFrame({'K': range(6, 25), 'SIL': np.nan})
cluster_results_km.set_index('K', inplace=True)
for k in tqdm(cluster_results_km.index):
    km_model = KMeans(n_clusters = k, init ='k-means++', random_state = 42)
    y = km_model.fit_predict(X)
    cluster_results_km.loc[k, 'SIL'] = silhouette_score(X, y)

cluster_results_km.idxmax(), cluster_results_km.max()
	from sklearn.cluster import KMeans
	from tqdm.notebook import tqdm
	from sklearn.metrics import silhouette_score

	X = matrix
	cluster_results_km = pd.DataFrame({'K': range(6, 25), 'SIL': np.nan})
	cluster_results_km.set_index('K', inplace=True)
	for k in tqdm(cluster_results_km.index):
	km_model = KMeans(n_clusters = k, init ='k-means++', random_state = 42)
	y = km_model.fit_predict(X)
	cluster_results_km.loc[k, 'SIL'] = silhouette_score(X, y)

	cluster_results_km.idxmax(), cluster_results_km.max()