shinob/file0.txt

## file0.txt
import pandas as pd

filename = "JDL出納帳-xxxx-xxxx-仕訳.csv"
df = pd.read_csv(filename, encoding="Shift-JIS", skiprows=3)

## file1.txt
columns = ["摘要", "借方科目", "借方科目正式名称"]
df_counts = df[columns].dropna()

## file10.txt
from sklearn.externals import joblib

joblib.dump(vect, 'data/vect.pkl')
joblib.dump(clf, 'data/clf.pkl')
df_rs.to_csv("data/code.csv")

## file11.txt
import pandas as pd

filename = "data/code.csv"
df = pd.read_csv(filename, header=None)
df.index = df.pop(0)
df_rs = df.pop(1)

from sklearn.externals import joblib

clf = joblib.load('data/clf.pkl')
vect = joblib.load('data/vect.pkl')

## file12.txt
from janome.tokenizer import Tokenizer

t = Tokenizer()
tests = [
    "高速道路利用料",
    "パソコン部品代",
    "切手代",
]

notes = []
for note in tests:
    tokens = t.tokenize(note)
    words = ""
    for token in tokens:
        words += " " + token.surface
    notes.append(words)

X = vect.transform(notes)

result = clf.predict(X)

for i in range(len(tests)):
    print(tests[i], "\t[",df_rs.loc[result[i]], "]")

## file13.sh
高速道路利用料   [ 旅費交通 ]
パソコン部品代   [ 消耗品費 ]
切手代   [ 通信費 ]

## file2.sh
$ pip install janome

## file3.txt
from janome.tokenizer import Tokenizer

t = Tokenizer()

notes = []
for ix in df_counts.index:
    note = df_counts.ix[ix,"摘要"]
    tokens = t.tokenize(note.replace('　',' '))
    words = ""
    for token in tokens:
        words += " " + token.surface
    notes.append(words.replace(' \u3000', ''))

## file4.txt
from sklearn.feature_extraction.text import TfidfVectorizer

vect = TfidfVectorizer()
vect.fit(notes)

X = vect.transform(notes)

## file5.txt
y = df_counts.借方科目.as_matrix().astype("int").flatten()

## file6.txt
from sklearn import cross_validation

test_size = 0.2
X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y, test_size=test_size)

## file7.txt
from sklearn.svm import LinearSVC

clf = LinearSVC(C=120.0, random_state=42)
clf.fit(X_train, y_train)

clf.score(X_test, y_test)

## file8.txt
tests = [
    "高速道路利用料",
    "パソコン部品代",
    "切手代"
]

notes = []
for note in tests:
    tokens = t.tokenize(note)
    words = ""
    for token in tokens:
        words += " " + token.surface
    notes.append(words)

X = vect.transform(notes)

result = clf.predict(X)

df_rs = df_counts[["借方科目正式名称", "借方科目"]]
df_rs.index = df_counts["借方科目"].astype("int")
df_rs = df_rs[~df_rs.index.duplicated()]["借方科目正式名称"]

for i in range(len(tests)):
    print(tests[i], "\t[",df_rs.ix[result[i]], "]")

## file9.sh
高速道路利用料   [ 旅費交通 ]
パソコン部品代   [ 消耗品費 ]
切手代   [ 通信費 ]
	import pandas as pd

	filename = "JDL出納帳-xxxx-xxxx-仕訳.csv"
	df = pd.read_csv(filename, encoding="Shift-JIS", skiprows=3)
	columns = ["摘要", "借方科目", "借方科目正式名称"]
	df_counts = df[columns].dropna()
	from sklearn.externals import joblib

	joblib.dump(vect, 'data/vect.pkl')
	joblib.dump(clf, 'data/clf.pkl')
	df_rs.to_csv("data/code.csv")
	import pandas as pd

	filename = "data/code.csv"
	df = pd.read_csv(filename, header=None)
	df.index = df.pop(0)
	df_rs = df.pop(1)

	from sklearn.externals import joblib

	clf = joblib.load('data/clf.pkl')
	vect = joblib.load('data/vect.pkl')
	from janome.tokenizer import Tokenizer

	t = Tokenizer()
	tests = [
	"高速道路利用料",
	"パソコン部品代",
	"切手代",
	]

	notes = []
	for note in tests:
	tokens = t.tokenize(note)
	words = ""
	for token in tokens:
	words += " " + token.surface
	notes.append(words)

	X = vect.transform(notes)

	result = clf.predict(X)

	for i in range(len(tests)):
	print(tests[i], "\t[",df_rs.loc[result[i]], "]")
	高速道路利用料 [ 旅費交通 ]
	パソコン部品代 [ 消耗品費 ]
	切手代 [ 通信費 ]
	from sklearn.feature_extraction.text import TfidfVectorizer

	vect = TfidfVectorizer()
	vect.fit(notes)

	X = vect.transform(notes)
	from sklearn import cross_validation

	test_size = 0.2
	X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y, test_size=test_size)
	from sklearn.svm import LinearSVC

	clf = LinearSVC(C=120.0, random_state=42)
	clf.fit(X_train, y_train)

	clf.score(X_test, y_test)