danemacaulay/add_additional_features_bag_of_words.py

## add_additional_features_bag_of_words.py
from sklearn.feature_extraction.text import CountVectorizer

import numpy as np
import pandas as pd
import scipy as sp
posts = pd.read_csv('posts.csv')

# Create vectorizer for function to use
vectorizer = CountVectorizer(binary=False)
y = posts["score"].values.astype(np.float32)

X = sp.sparse.hstack((vectorizer.fit_transform(posts.message),
                      posts[['feature_1', 'feature_2']].values),
                      format='csr')
X_columns = vectorizer.get_feature_names() +
            posts[['feature_1', 'feature_2']].columns.tolist()


print(posts)

print(X_columns)

print(X.toarray())

## posts.csv

          
            ID
            message
            feature_1
            feature_2
            score

            
              1
              'This is the text'
              4
              7
              10

            
              2
              'This is more text'
              3
              2
              8
	from sklearn.feature_extraction.text import CountVectorizer

	import numpy as np
	import pandas as pd
	import scipy as sp
	posts = pd.read_csv('posts.csv')

	# Create vectorizer for function to use
	vectorizer = CountVectorizer(binary=False)
	y = posts["score"].values.astype(np.float32)

	X = sp.sparse.hstack((vectorizer.fit_transform(posts.message),
	posts[['feature_1', 'feature_2']].values),
	format='csr')
	X_columns = vectorizer.get_feature_names() +
	posts[['feature_1', 'feature_2']].columns.tolist()


	print(posts)

	print(X_columns)

	print(X.toarray())
ID	message	feature_1	feature_2	score
1	'This is the text'	4	7	10
2	'This is more text'	3	2	8