Created
April 20, 2012 15:38
-
-
Save arton/2429713 to your computer and use it in GitHub Desktop.
Using Kuromoji with RJB
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
#coding: utf-8 | |
require 'rjb' | |
module JavaIterator | |
def each | |
i = self.iterator | |
while i.has_next | |
yield i.next | |
end | |
end | |
end | |
Rjb::load('target/kuromoji-0.7.7.jar') | |
Token = Rjb::import('org/atilika/kuromoji/Token') | |
Tokenizer=Rjb::import('org/atilika/kuromoji/Tokenizer') | |
Mode = Rjb::import('org.atilika.kuromoji.Tokenizer$Mode') | |
tknizer = Tokenizer.builder.build | |
s = '変換先のエンコーディングにおいて文字が定義されていない場合に、未定義文字を置換文字で置き換えます。' | |
list = tknizer.tokenize(s) | |
list.extend JavaIterator | |
list.each do |x| | |
puts("#{x.surface_form}:#{x.all_features}".encode('cp932')) | |
end | |
#=> | |
変換:名詞,サ変接続,*,*,*,*,変換,ヘンカン,ヘンカン | |
先:名詞,接尾,一般,*,*,*,先,サキ,サキ | |
の:助詞,連体化,*,*,*,*,の,ノ,ノ | |
エン:名詞,固有名詞,一般,*,*,*,エン,エン,エン | |
コーディング:名詞,一般,*,*,*,*,コーディング,コーディング,コーディング | |
において:助詞,格助詞,連語,*,*,*,において,ニオイテ,ニオイテ | |
文字:名詞,一般,*,*,*,*,文字,モジ,モジ | |
が:助詞,格助詞,一般,*,*,*,が,ガ,ガ | |
定義:名詞,サ変接続,*,*,*,*,定義,テイギ,テイギ | |
さ:動詞,自立,*,*,サ変・スル,未然レル接続,する,サ,サ | |
れ:動詞,接尾,*,*,一段,連用形,れる,レ,レ | |
て:助詞,接続助詞,*,*,*,*,て,テ,テ | |
い:動詞,非自立,*,*,一段,未然形,いる,イ,イ | |
ない:助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ | |
場合:名詞,副詞可能,*,*,*,*,場合,バアイ,バアイ | |
に:助詞,格助詞,一般,*,*,*,に,ニ,ニ | |
、:記号,読点,*,*,*,*,、,、,、 | |
未:接頭詞,名詞接続,*,*,*,*,未,ミ,ミ | |
定義:名詞,サ変接続,*,*,*,*,定義,テイギ,テイギ | |
文字:名詞,一般,*,*,*,*,文字,モジ,モジ | |
を:助詞,格助詞,一般,*,*,*,を,ヲ,ヲ | |
置換:名詞,サ変接続,*,*,*,*,置換,チカン,チカン | |
文字:名詞,一般,*,*,*,*,文字,モジ,モジ | |
で:助詞,格助詞,一般,*,*,*,で,デ,デ | |
置き換え:動詞,自立,*,*,一段,連用形,置き換える,オキカエ,オキカエ | |
ます:助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス | |
。:記号,句点,*,*,*,*,。,。,。 |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment