DBCLS 11/26
最近何やったかを書いてなかったので完全にニート化しているように思われてるので、とりあえず進捗
扱える範囲にある辞書をどんどんmecab辞書化している
lifedb-dicを辞書化
dBCLSで扱えるlifedb-dicをmecab辞書化公開できない
wikipedia辞書
タイトルだけで130万件程度
wikipediaのインデックス一覧をmecab辞書化
格助詞が名詞化されていたのを削除
短い平仮名の単語が邪魔をしたので ^[あ-ん]{1, 2},.*\n な行を削除
はてなキーワードを辞書化
20万件程度
精度の面で、wikipediaにくわれ気味だが単体でもいい仕事する
それぞれを mecab-formatのcsv化してしまう。
これら三つを組み合わせてid:y_benjoとゴニョゴニョしてakuma.dicとした
build
mecab-dict-indexはportかbrewかで変わってくるけど
以上のものを
build.sh
mv akuma.dic akuma-old.dic cat wikipedia.csv > akuma.csv cat hatena.csv >> akuma.csv cat costed_lifedb.csv >> akuma.csv /usr/local/Cellar/mecab/0.98/libexec/mecab/mecab-dict-index -d /usr/local/Cellar/mecab/0.98/lib/mecab/dic/ipadic -u ~/workplace/mecab-dic/akuma.dic -f utf-8 -t utf-8 ~/workplace/mecab-dic/akuma.csv
この辞書を使えば形態素解析の精度がぐんと上がる
専門用語抽出部分の作り直し
- オリジナル辞書/コーパスからのパラメータ推定 http://mecab.sourceforge.net/learn.html
- nグラム統計によるコーパスからの未知語抽出 http://ci.nii.ac.jp/naid/110002935038
最初に作った単語連携の部分が微妙なので辞書部分を強化して精度を上げた
ngramの転置インデックスまでは作ったので以上の論文を
考えてること
wikipediaの用語が13万件もあるので後者の論文からうまくパラメータを抽出できそう。