職場で使っているNamazuの検索精度向上のため、分かち書きのメソッドをkakasiからMeCabに変更。といっても、mknmzrcで
の2行を有効にしただけ。
$MECAB = "module_mecab -Owakati -b 8192";
$WAKATI = $MECAB;
MeCabは単語を追加するためのマ
ニュアルが整備されているため、更なる精度向上を目指して
- 専門的な用語・略語
- 社内でのみ通じる特殊用語や略称
- (IPADICに登録されていない)取引先の社名
作成しているが、単純にmecab-dict-indexを実行して更新される
- matrix.bin
- sys.dic
- char.bin
- unk.dic
る。ついでに多少なりとも速度を稼ぐため、分かち書き専用に辞書を最適
化しておく。
mknmzを--debugオプション付きで起動すると、分かち書きの結果がSTDERRに
出力される。これで確認した結果、辞書追加はかなり効果が高い。おそらく追加しす
ぎると逆効果になるのだろうが、前述のような項目はどこの会社でもある話だと思う
ので、自分の望む検索結果を得るためのノウハウとしては、比較
的お手軽で効果が高いと考える。
単語を追加する際は、当然のことながら現在の辞書に登録されているか否かを検索す
る必要がある(単にgrepすればいいだけ)。その過程で見つけたのが、Noun.org.csvに
ある
というエントリ。同じファイル内に同じ読みで「岡谷鋼機」とい
岡谷網機,1305,1305,5689,名詞,固有名詞,組織,*,*,*,岡谷
網機,オカヤコウキ,オカヤコーキ
う別のエントリがあるので、このエントリは削除されるべきものだと思う。どこにバ
グレポしてよいのか判らないので、とりあえず備忘録として書き留めておく。