Skip to content

Instantly share code, notes, and snippets.

@kyu999
kyu999 / getFeature
Last active August 29, 2015 14:04
nodeから品詞を取る
def getFeature(node):
unicodedFeature = unicode(node.feature.split(",")[0], "utf-8")
return unicodedFeature
#node = tagger.parseToNode(sentence)
def wakati(self, sentence, tagger=None):
"""
文を単語に分解して、単語間に", "を挿入して返す
@param sentence: 分解対象の文(utf-8を想定)
@kyu999
kyu999 / Direction
Created August 7, 2014 06:22
今後の方針
Flow:
1. ひらがな、漢字、記号などの前後のみのシンプルな形で切る
-> ひらがな::漢字
-> 記号::非記号
-> ひらがな::数字
2. mecabを使って前の品詞を用いる
-> * :: 助詞
3. かぼちゃ?を使って句構造で区切る
4. 機会学習させる
-> naive bayes
@kyu999
kyu999 / 実験の方法
Created August 7, 2014 07:58
実験の方法
# -*- coding: utf-8 -*-
import sys
def split(text):
"""
入力:
text = "aaabbbccc"
出力:
@kyu999
kyu999 / gitで変な変更がpush時に混ざった原因
Created August 7, 2014 08:55
gitで変な変更がpush時に混ざった原因
git branchを切ったらそのbranchは現在のbranchから切られることになるので、必ずdevelopmentからbranchを作る。
developmentがlocalにない場合は
```
git checkout -b development origin/development
```
これでローカルにdevelopmentを作る。引数の -b はbranchを切りつつcheckoutをするということ。
addしてしまったものをいったん横においておきたいときは
@kyu999
kyu999 / TODO_tomorrow
Created August 7, 2014 09:36
明日のTODO
u"「あいつは1424年に死ぬだろう。」ただしそれはあいつの責任じゃないことは誰もが知っていた。そう、1mmの虫でさえ。。。"
現在のnaive title splitter =>
「あいつは | 1424年に | 死ぬだろう。 | 」ただしそれはあいつの | 責任じゃないことは | 誰もが | 知っていた。 | そう、 | 1mmの | 虫でさえ。。
※修正箇所
1. ただし-それは 切りたい
2. 記号の連結は切らない
@kyu999
kyu999 / ナイーブな改行位置抽出結果
Created August 7, 2014 13:47
ナイーブな改行位置抽出結果
def get_break_points(self, sentence):
if len(sentence) <= 0:
return []
else:
#encoded_sentence = sentence.encode('utf-8')
break_points = []
@kyu999
kyu999 / 品詞使った改行ルール
Created August 7, 2014 23:04
品詞使った改行ルール
〜くっつける〜
1. * + 助詞 
2. 形容詞 + 名詞
3. * + 助動詞
つまり切る位置は
1. 助詞の後
@kyu999
kyu999 / 初土日TODO:
Created August 8, 2014 15:16
初土日TODO:
Must : 改行のやつ完成
方針 : 形態素解析+文字種 => 特定の強いルール , つまり複数回す。
課題: 1)記号+記号のケースを一つの名詞と捉えることがある。
=> 1. とりあえず細かく切って、後から修正
2. 危険なとこは斬らないで、あとから別ルールで切る
2)ルールの優先順位を厳格化と動作の共通するパターンをまとめる
@kyu999
kyu999 / 改行ルール
Last active August 29, 2015 14:05
改行ルールほぼ最終
separate編:
1. 助詞もしくは副詞の後は切る
2. 記号のあとは切る
3. 長いと切る
regulate編:
1. 左括弧の前で切れてたらくっつける
2. 記号の連続、助詞の連続の場合もくっつける
@kyu999
kyu999 / 改行からのjson化
Created August 10, 2014 15:42
改行からのjson化
def json_articles(self):
"""
複数動作確認用
"""
f = open("sample_title.txt", "r")
lines = f.readlines()
cleaner = title_cleaner.TitleCleaner()
articles = []