- <訂正>
こちらの記事に,同じ話題をより良い方法で実現する方法があると教えていただきました.↲
MeCabの出力フォーマット - 唯物是真 @Scaled_Wurm
公式の 出力フォーマット一覧 も改めて見たらちゃんと乗ってました,流し読みしてしまっていた...
ちなみに自分のブログ元記事は こちら
MeCabの出力形式として,各形態素の基本形を出力として用いた分かち書きを行うオプション,"wakati_lemma"を追加するパッチ. 未知語については表層形をそのまま出力する.
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
src以下のwriter.cpp, writer.hに変更を加えている. 詳しくは,writer.patchを参照(+で始まっているが,僕の追加した行です.)
ほぼ関数を追加しただけなので変な事にはならないと思いますが,いちおう適用は自己責任でお願いします.
mecab-0.996
% cd path/to/mecab-0.996
% cd src
% wget https://gist.github.com/kiyukuta/6437670/raw/f1e1493a0ee7efabd2e7034801e7a44e7f945c6f/writer.patch
% patch < writer.patch
% cd ..
% make作業(詳しくは公式へ)
% echo "諦めんなよ!" | mecab -Owakati
諦めん な よ !
% echo "諦めんなよ!" | mecab -Owakati_lemma
諦める な よ !
これは!
pythonでパースしてたのが、ばかみたいだ!