-
-
Save otknoy/9305975 to your computer and use it in GitHub Desktop.
LDA
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
#!/usr/bin/env python | |
import MeCab | |
import gensim | |
def tokenizer(s): | |
uni = s.encode('utf-8') | |
tagger = MeCab.Tagger("-Ochasen") | |
node = tagger.parseToNode(uni) | |
terms = [] | |
while node: | |
features = node.feature.split(',') | |
basic_form = features[6] | |
if node.posid in range(36, 67+1) and basic_form != '*': | |
terms.append(basic_form) | |
node = node.next | |
return terms[1:-1] | |
def lda(texts, k=10): | |
dictionary = gensim.corpora.Dictionary(texts) | |
corpus = [dictionary.doc2bow(t) for t in texts] | |
model = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=k) | |
return model | |
if __name__ == '__main__': | |
import sys | |
filenames = sys.argv[1:] | |
texts = [] | |
for filename in filenames: | |
f = open(filename) | |
text = f.read().decode('utf-8') | |
f.close() | |
texts.append(tokenizer(text)) | |
model = lda(texts, k=32) | |
topics = model.show_topics(topics=-1, topn=10, formatted=True) | |
for t in topics: | |
print t |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
0.013*企業 + 0.012*化 + 0.012*こと + 0.009*日 + 0.009*日本 + 0.007*情報 + 0.007*事業 + 0.006*国 + 0.006*国交 + 0.006*月 | |
0.034*・ + 0.025*経済 + 0.025*月 + 0.020*景気 + 0.018*年 + 0.013*回復 + 0.013*カ月 + 0.011*成長 + 0.011*日 + 0.011*修正 | |
0.023*円 + 0.017*万 + 0.015*年 + 0.013*月 + 0.012*億 + 0.010*日 + 0.010*年度 + 0.008*兆 + 0.008*削減 + 0.007*車 | |
0.024*日本 + 0.024*政権 + 0.019*の + 0.018*経済 + 0.016*首相 + 0.013*こと + 0.012*氏 + 0.012*民主党 + 0.009*会長 + 0.009*政策 | |
0.019*住友 + 0.019*三井 + 0.017*年 + 0.016*円 + 0.015*証券 + 0.014*日 + 0.013*銀行 + 0.013*億 + 0.012*新党 + 0.011*位 | |
0.018*社長 + 0.017*人 + 0.016*年 + 0.015*会長 + 0.015*氏 + 0.011*こと + 0.011*日 + 0.009*月 + 0.008*者 + 0.007*取締役 | |
0.019*仕分け + 0.012*保険 + 0.011*年 + 0.007*予算 + 0.007*の + 0.006*人 + 0.006*さん + 0.006*者 + 0.006*こと + 0.006*化 | |
0.144*交渉 + 0.136*中 + 0.135*権 + 0.130*著作 + 0.130*為 + 0.130*本文 + 0.003*ジュネーブ + 0.002*死去 + 0.002*年 + 0.002*大枠 | |
0.027*さん + 0.020*の + 0.019*人 + 0.011*たち + 0.008*者 + 0.007*よう + 0.007*今 + 0.007*こと + 0.007*社会 + 0.006*人間 | |
0.027*販売 + 0.023*月 + 0.014*前年 + 0.014*万 + 0.013*台 + 0.012*・ + 0.012*店 + 0.012*年 + 0.011*日 + 0.010*減 | |
0.013*農業 + 0.008*こと + 0.008*アメリカン + 0.008*農家 + 0.008*日 + 0.007*自由 + 0.007*省 + 0.007*補償 + 0.007*国交 + 0.006*費 | |
0.049*円 + 0.047*億 + 0.032*月 + 0.025*年 + 0.021*期 + 0.017*・ + 0.014*赤字 + 0.013*高 + 0.013*前年 + 0.012*日 | |
0.019*月 + 0.017*年 + 0.014*日 + 0.013*億 + 0.013*円 + 0.012*会社 + 0.011*大手 + 0.011*社長 + 0.010*投資 + 0.009*商品 | |
0.016*年 + 0.015*人 + 0.015*者 + 0.010*写真 + 0.009*の + 0.008*こと + 0.007*万 + 0.006*日 + 0.006*月 + 0.005*さ | |
0.030*高速 + 0.014*日 + 0.012*月 + 0.012*円 + 0.011*森林 + 0.011*鉄道 + 0.008*新幹線 + 0.008*品 + 0.008*・ + 0.007*価格 | |
0.016*環境 + 0.014*開発 + 0.013*技術 + 0.012*年 + 0.010*電池 + 0.009*化 + 0.009*車 + 0.008*事業 + 0.008*的 + 0.007*自動車 | |
0.024*日 + 0.023*相 + 0.012*ドバイ + 0.012*会談 + 0.011*財務 + 0.011*経済 + 0.010*国 + 0.009*会合 + 0.009*月 + 0.009*閣僚 | |
0.041*円 + 0.024*ドル + 0.020*市場 + 0.019*日 + 0.017*高 + 0.016*月 + 0.015*米 + 0.011*金融 + 0.010*上昇 + 0.009*・ | |
0.013*の + 0.013*こと + 0.011*円 + 0.010*鳩山 + 0.010*金融 + 0.007*日 + 0.007*政権 + 0.007*企業 + 0.007*相 + 0.006*政府 | |
0.013*円 + 0.011*日 + 0.009*年 + 0.008*月 + 0.007*こと + 0.006*返済 + 0.006*会社 + 0.006*価格 + 0.005*株 + 0.005*者 | |
0.021*株主 + 0.018*日 + 0.015*月 + 0.011*年 + 0.009*円 + 0.009*総会 + 0.009*企業 + 0.008*こと + 0.007*ワールド + 0.006*ため | |
0.024*円 + 0.013*年 + 0.012*日 + 0.011*月 + 0.008*亀井 + 0.008*価格 + 0.007*万 + 0.006*こと + 0.006*店 + 0.006*電力 | |
0.020*統合 + 0.017*会社 + 0.016*郵政 + 0.014*事業 + 0.013*日 + 0.012*郵便 + 0.011*日本 + 0.011*こと + 0.011*総務 + 0.010*経営 | |
0.024*円 + 0.018*資本 + 0.017*億 + 0.017*自己 + 0.016*月 + 0.015*年 + 0.012*・ + 0.012*兆 + 0.011*増資 + 0.011*株 | |
0.014*時 + 0.014*日 + 0.011*パソコン + 0.010*協定 + 0.009*時間 + 0.009*電子 + 0.008*治療 + 0.008*撤廃 + 0.008*午前 + 0.007*薬 | |
0.014*年 + 0.014*日本 + 0.012*の + 0.010*的 + 0.010*企業 + 0.009*こと + 0.008*中国 + 0.007*市場 + 0.007*ギリシャ + 0.007*円 | |
0.021*デフレ + 0.020*月 + 0.015*年 + 0.013*控除 + 0.012*企業 + 0.011*三菱自 + 0.010*・ + 0.008*生産 + 0.008*物価 + 0.008*期 | |
0.043*税 + 0.039*税制 + 0.025*税調 + 0.022*税率 + 0.020*ビール + 0.013*サントリー + 0.012*扶養 + 0.012*改正 + 0.009*キリン + 0.008*増税 | |
0.029*・ + 0.026*円 + 0.021*企業 + 0.018*月 + 0.017*日 + 0.014*調査 + 0.013*業 + 0.013*ポイント + 0.012*製造 + 0.011*年 | |
0.038*日航 + 0.033*航空 + 0.021*日 + 0.018*年 + 0.010*月 + 0.009*路線 + 0.009*日本航空 + 0.009*日本 + 0.008*人 + 0.008*の | |
0.024*円 + 0.016*万 + 0.014*日 + 0.014*位 + 0.013*携帯 + 0.010*電話 + 0.010*年 + 0.008*月 + 0.007*者 + 0.007*本 | |
0.024*金融 + 0.019*政府 + 0.018*金利 + 0.017*支援 + 0.017*日 + 0.017*日銀 + 0.015*資金 + 0.013*政策 + 0.012*米 + 0.011*緩和 |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment