Tathagatd96/gist:5956acaae32f7a6046a957b127ebbd15

## gistfile1.txt
print len(twenty_train.data)

print("\n".join(twenty_train.data[0].split("\n")[:3]))

print(twenty_train.target_names[twenty_train.target[0]])

print(twenty_train.target[:10])

for t in twenty_train.target[:10]:
    print(twenty_train.target_names[t])

#Preprocessing

#Tokenizing text

count_vect=CountVectorizer()
X_train_counts=count_vect.fit_transform(twenty_train.data)

print(X_train_counts.shape)

print(count_vect.vocabulary_.get(u'algorithm'))
	print len(twenty_train.data)

	print("\n".join(twenty_train.data[0].split("\n")[:3]))

	print(twenty_train.target_names[twenty_train.target[0]])

	print(twenty_train.target[:10])

	for t in twenty_train.target[:10]:
	print(twenty_train.target_names[t])

	#Preprocessing

	#Tokenizing text

	count_vect=CountVectorizer()
	X_train_counts=count_vect.fit_transform(twenty_train.data)

	print(X_train_counts.shape)

	print(count_vect.vocabulary_.get(u'algorithm'))