Nemunoki
intro
kagomeを使って(形態素解析を使って)校正補助ツールがつくりたいモチベーション。 処理のモデルで躓いていたのが技術書典5の記事の前半。あれ削ったらすぐ出せるけど、あれの完成度が上がらなくてまだ出せていない。 SudachiのGo実装を作った話が流れてきて思いだした。
最近はLanguage Server Protocol(LSP)を見て、「ええやん」となった。
Japanese Language Serverがあっても良いのでは。やる気マンゴスチンです。
目標
kagomeで解析したトークンを元に日本語文書の誤字脱字指摘、語尾ゆれ指摘、サジェストなどを行うサーバを建てる。 クライアント側でどの機能を使うのか指定できるようにする。
これまでの反省点
ファイルを読みこむ時点で文ごとに区切って格納しようとしてたけれど、省力できるところは省力すべきなので、1行ずつ先ずとってきて、
その後 \n
, \n\n
などをデリミタに再構築したものをノードとして、行情報などは保持しつつマップしたものを形態素解析にかけていくことにする。
ある程度壊れた文法を許容したいけれど、strict modeとかつくれるかな。
日本語のEnd Of Sentense (strict)
kagomeのsplitter.goに基本的に書いてあるけれど、defaultのvar書き換えるだけで日本語2.0的な文に対応できるかはまだわからない。
!
とかをそのままデリミタにしてしまうと、 なんだってー!?
は2文になる。解析するだけなら影響はないかもしれないが修正処理などまで将来的には行いたいので。
- 。
- 」(強調文、引用文としての「」の場合がある)