Skip to content

Instantly share code, notes, and snippets.

@arton
Created April 20, 2012 15:38
Show Gist options
  • Star 2 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save arton/2429713 to your computer and use it in GitHub Desktop.
Save arton/2429713 to your computer and use it in GitHub Desktop.
Using Kuromoji with RJB
#coding: utf-8
require 'rjb'
module JavaIterator
def each
i = self.iterator
while i.has_next
yield i.next
end
end
end
Rjb::load('target/kuromoji-0.7.7.jar')
Token = Rjb::import('org/atilika/kuromoji/Token')
Tokenizer=Rjb::import('org/atilika/kuromoji/Tokenizer')
Mode = Rjb::import('org.atilika.kuromoji.Tokenizer$Mode')
tknizer = Tokenizer.builder.build
s = '変換先のエンコーディングにおいて文字が定義されていない場合に、未定義文字を置換文字で置き換えます。'
list = tknizer.tokenize(s)
list.extend JavaIterator
list.each do |x|
puts("#{x.surface_form}:#{x.all_features}".encode('cp932'))
end
#=>
変換:名詞,サ変接続,*,*,*,*,変換,ヘンカン,ヘンカン
先:名詞,接尾,一般,*,*,*,先,サキ,サキ
の:助詞,連体化,*,*,*,*,の,ノ,ノ
エン:名詞,固有名詞,一般,*,*,*,エン,エン,エン
コーディング:名詞,一般,*,*,*,*,コーディング,コーディング,コーディング
において:助詞,格助詞,連語,*,*,*,において,ニオイテ,ニオイテ
文字:名詞,一般,*,*,*,*,文字,モジ,モジ
が:助詞,格助詞,一般,*,*,*,が,ガ,ガ
定義:名詞,サ変接続,*,*,*,*,定義,テイギ,テイギ
さ:動詞,自立,*,*,サ変・スル,未然レル接続,する,サ,サ
れ:動詞,接尾,*,*,一段,連用形,れる,レ,レ
て:助詞,接続助詞,*,*,*,*,て,テ,テ
い:動詞,非自立,*,*,一段,未然形,いる,イ,イ
ない:助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ
場合:名詞,副詞可能,*,*,*,*,場合,バアイ,バアイ
に:助詞,格助詞,一般,*,*,*,に,ニ,ニ
、:記号,読点,*,*,*,*,、,、,、
未:接頭詞,名詞接続,*,*,*,*,未,ミ,ミ
定義:名詞,サ変接続,*,*,*,*,定義,テイギ,テイギ
文字:名詞,一般,*,*,*,*,文字,モジ,モジ
を:助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
置換:名詞,サ変接続,*,*,*,*,置換,チカン,チカン
文字:名詞,一般,*,*,*,*,文字,モジ,モジ
で:助詞,格助詞,一般,*,*,*,で,デ,デ
置き換え:動詞,自立,*,*,一段,連用形,置き換える,オキカエ,オキカエ
ます:助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。:記号,句点,*,*,*,*,。,。,。
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment