mecab-ipadicのチューン(1)


職場で使っているNamazuの検索精度向上のため、分かち書きのメソッドをkakasiからMeCabに変更。といっても、mknmzrcで


$MECAB = "module_mecab -Owakati -b 8192";

$WAKATI = $MECAB;
の2行を有効にしただけ。


MeCab単語を追加するためのマ
ニュアル
が整備されているため、更なる精度向上を目指して

  • 専門的な用語・略語
  • 社内でのみ通じる特殊用語や略称
  • (IPADICに登録されていない)取引先の社名
を300ほどピックアップしてシステム辞書に追加。ちなみにシステム辞書はRHEL3上で
作成しているが、単純にmecab-dict-indexを実行して更新される
  • matrix.bin
  • sys.dic
  • char.bin
  • unk.dic
の4つのファイルをWindows上にコピーしてくるだけで今のところ問題なく使えてい
る。ついでに多少なりとも速度を稼ぐため、分かち書き専用に辞書を最適
しておく。


mknmzを--debugオプション付きで起動すると、分かち書きの結果がSTDERRに
出力される。これで確認した結果、辞書追加はかなり効果が高い。おそらく追加しす
ぎると逆効果になるのだろうが、前述のような項目はどこの会社でもある話だと思う
ので、自分の望む検索結果を得るためのノウハウとしては、比較
的お手軽で効果が高いと考える。


単語を追加する際は、当然のことながら現在の辞書に登録されているか否かを検索す
る必要がある(単にgrepすればいいだけ)。その過程で見つけたのが、Noun.org.csv
ある


岡谷機,1305,1305,5689,名詞,固有名詞,組織,*,*,*,岡谷
機,オカヤコウキ,オカヤコーキ
というエントリ。同じファイル内に同じ読みで「岡谷機」とい
う別のエントリがあるので、このエントリは削除されるべきものだと思う。どこにバ
グレポしてよいのか判らないので、とりあえず備忘録として書き留めておく。