jnothman/pandasvectorizer.py

## pandasvectorizer.py
from sklearn.feature_extraction import DictVectorizer

class PandasVectorizer(DictVectorizer):
    def fit(self, x, y=None):
        return super(PandasVectorizer, self).fit(x.to_dict('records'))

    def fit_transform(self, x, y=None):
        return super(PandasVectorizer, self).fit_transform(x.to_dict('records'))

    def transform(self, x):
        return super(PandasVectorizer, self).transform(x.to_dict('records'))

## zzexample.py
"""
>>> import pandas as pd
>>> from pandasvectorizer import PandasVectorizer
>>> df = pd.DataFrame({'a': [1,2,3], 'b': ['a', 'b', 'a']})
>>> PandasVectorizer().fit_transform(df).toarray()
array([[ 1.,  1.,  0.],
       [ 2.,  0.,  1.],
       [ 3.,  1.,  0.]])
"""
	from sklearn.feature_extraction import DictVectorizer

	class PandasVectorizer(DictVectorizer):
	def fit(self, x, y=None):
	return super(PandasVectorizer, self).fit(x.to_dict('records'))

	def fit_transform(self, x, y=None):
	return super(PandasVectorizer, self).fit_transform(x.to_dict('records'))

	def transform(self, x):
	return super(PandasVectorizer, self).transform(x.to_dict('records'))
	"""
	>>> import pandas as pd
	>>> from pandasvectorizer import PandasVectorizer
	>>> df = pd.DataFrame({'a': [1,2,3], 'b': ['a', 'b', 'a']})
	>>> PandasVectorizer().fit_transform(df).toarray()
	array([[ 1., 1., 0.],
	[ 2., 0., 1.],
	[ 3., 1., 0.]])
	"""