Tathagat Dasgupta Tathagatd96

## gist:4204d1567960bb60d7ea1127d5c14876
sklearn.datasets.load_files("C://Users/Tathagat Dasgupta/Desktop/ML Project/20news-18828")

categories=['alt.atheism','soc.religion.christian','comp.graphics','sci.med']
print "hello"

twenty_train=fetch_20newsgroups(subset='train',categories=categories,shuffle=True,random_state=42)

#twenty_train.target_names=['alt.atheism','comp.graphics','sci.med','soc.religion.christian']

print len(twenty_train.data)

## gist:b45a7a81f1da07aaa84fcca36d99b5d3
#tf-idf
tfidf_transformer=TfidfTransformer()

X_train_tfidf=tfidf_transformer.fit_transform(X_train_counts)
print(X_train_tfidf.shape)

## gist:fd616f734bce299f5b7f1502046a9127
#Classifier Training


clf=MultinomialNB().fit(X_train_tfidf,twenty_train.target)

docs_new=['God is love','OpenGL on the GPU is fast']
X_new_counts=count_vect.transform(docs_new)
X_new_tfidf=tfidf_transformer.transform(X_new_counts)

predicted=clf.predict(X_new_tfidf)

## gist:835f2ba0e0d2cbea845c5d78f53f0a3d
#Performance on test set

twenty_test=fetch_20newsgroups(subset='test',categories=categories,shuffle=True,random_state=42)
doc_test=twenty_test.data
predicted=text_clf.predict(doc_test)
print "Classifier Accuracy:"
print(np.mean(predicted==twenty_test.target))

## gist:4a4714705eff7492c6a5fd509b63a757
from sklearn.datasets import fetch_20newsgroups
import sklearn.datasets
from sklearn.feature_extraction.text import CountVectorizer,CharNGramAnalyzer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.linear_model import SGDClassifier

from sklearn.svm.sparse import LinearSVC
import numpy as np

## gist:7943e7d62986338962b9eacb6a3ac433
sklearn.datasets.load_files("C://Users/Tathagat Dasgupta/Desktop/ML Project/20news-18828")

categories=['alt.atheism','soc.religion.christian','comp.graphics','sci.med']
print "hello"

twenty_train=fetch_20newsgroups(subset='train',categories=categories,shuffle=True,random_state=42)

## gist:0b05a46c5705a7dbc403d4c0d62272cb
print len(twenty_train.data)

print("\n".join(twenty_train.data[0].split("\n")[:3]))

print(twenty_train.target_names[twenty_train.target[0]])

#Preprocessing

#Tokenizing text

## gist:592836736210f3dabfec9266f1c14d60
from sklearn.datasets import fetch_20newsgroups
import sklearn.datasets
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.linear_model import SGDClassifier
import numpy as np

## gist:b98c26e83b64a6ce18684b57e8f0c39a
sklearn.datasets.load_files("C://Users/Tathagat Dasgupta/Desktop/ML Project/20news-18828")

categories=['alt.atheism','soc.religion.christian','comp.graphics','sci.med']
print "hello"

twenty_train=fetch_20newsgroups(subset='train',categories=categories,shuffle=True,random_state=42)

## gist:5956acaae32f7a6046a957b127ebbd15
print len(twenty_train.data)

print("\n".join(twenty_train.data[0].split("\n")[:3]))

print(twenty_train.target_names[twenty_train.target[0]])

print(twenty_train.target[:10])

for t in twenty_train.target[:10]:
    print(twenty_train.target_names[t])
	sklearn.datasets.load_files("C://Users/Tathagat Dasgupta/Desktop/ML Project/20news-18828")

	categories=['alt.atheism','soc.religion.christian','comp.graphics','sci.med']
	print "hello"

	twenty_train=fetch_20newsgroups(subset='train',categories=categories,shuffle=True,random_state=42)

	#twenty_train.target_names=['alt.atheism','comp.graphics','sci.med','soc.religion.christian']

	print len(twenty_train.data)
	#tf-idf
	tfidf_transformer=TfidfTransformer()

	X_train_tfidf=tfidf_transformer.fit_transform(X_train_counts)
	print(X_train_tfidf.shape)
	#Classifier Training


	clf=MultinomialNB().fit(X_train_tfidf,twenty_train.target)

	docs_new=['God is love','OpenGL on the GPU is fast']
	X_new_counts=count_vect.transform(docs_new)
	X_new_tfidf=tfidf_transformer.transform(X_new_counts)

	predicted=clf.predict(X_new_tfidf)
	#Performance on test set

	twenty_test=fetch_20newsgroups(subset='test',categories=categories,shuffle=True,random_state=42)
	doc_test=twenty_test.data
	predicted=text_clf.predict(doc_test)
	print "Classifier Accuracy:"
	print(np.mean(predicted==twenty_test.target))
	from sklearn.datasets import fetch_20newsgroups
	import sklearn.datasets
	from sklearn.feature_extraction.text import CountVectorizer,CharNGramAnalyzer
	from sklearn.feature_extraction.text import TfidfTransformer
	from sklearn.naive_bayes import MultinomialNB
	from sklearn.pipeline import Pipeline
	from sklearn.linear_model import SGDClassifier

	from sklearn.svm.sparse import LinearSVC
	import numpy as np
	print len(twenty_train.data)

	print("\n".join(twenty_train.data[0].split("\n")[:3]))

	print(twenty_train.target_names[twenty_train.target[0]])

	#Preprocessing

	#Tokenizing text