Skip to content

Instantly share code, notes, and snippets.

@sowawa
Created March 23, 2012 11:24
Show Gist options
  • Save sowawa/2169750 to your computer and use it in GitHub Desktop.
Save sowawa/2169750 to your computer and use it in GitHub Desktop.
use okura!

http://d.hatena.ne.jp/gnarl/20120319/1332153697

cd
git clone git://gist.github.com/2169750.git try_okura
cd try_okura
gem install okura
wget "http://sourceforge.jp/frs/redir.php?m=jaist&f=%2Fnaist-jdic%2F53500%2Fmecab-naist-jdic-0.6.3b-20111013.tar.gz" -O mecab-naist-jdic-0.6.3b-20111013.tar.gz
okura compile mecab-naist-jdic-0.6.3b-20111013/ okura-dic
ruby play_okura.rb
# -*- encoding: utf-8 -*-
require 'okura/serializer'
dict_dir='コンパイル済み辞書ファイルのディレクトリ'
tagger=Okura::Serializer::FormatInfo.create_tagger dict_dir
str='解析対象の文字列'
# 文字列から単語候補を計算
nodes=tagger.parse(str)
# 単語候補の中で、一番最もらしい組み合わせを選択
nodes.mincost_path.each{|node|
word=node.word
# word.surface : 単語の表記
# word.left.text : 品詞
# 品詞はword.leftとword.rightがありますが、一般的に使われる辞書(IPA辞書やNAIST辞書)では
# 両方同じデータが入ってます
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment