DBCLS 11/26 - mizchi log

最近何やったかを書いてなかったので完全にニート化しているように思われてるので、とりあえず進捗
扱える範囲にある辞書をどんどんmecab辞書化している

lifedb-dicを辞書化

dBCLSで扱えるlifedb-dicをmecab辞書化公開できない

wikipedia辞書

タイトルだけで130万件程度
wikipediaのインデックス一覧をmecab辞書化
格助詞が名詞化されていたのを削除
短い平仮名の単語が邪魔をしたので ^[あ-ん]{1, 2},.*\n な行を削除

はてなキーワードを辞書化

20万件程度
精度の面で、wikipediaにくわれ気味だが単体でもいい仕事する

それぞれを mecab-formatのcsv化してしまう。
これら三つを組み合わせてid:y_benjoとゴニョゴニョしてakuma.dicとした

build

mecab-dict-indexはportかbrewかで変わってくるけど

以上のものを
build.sh

mv akuma.dic akuma-old.dic
cat wikipedia.csv > akuma.csv
cat hatena.csv >> akuma.csv
cat costed_lifedb.csv >> akuma.csv
/usr/local/Cellar/mecab/0.98/libexec/mecab/mecab-dict-index  -d /usr/local/Cellar/mecab/0.98/lib/mecab/dic/ipadic -u ~/workplace/mecab-dic/akuma.dic -f utf-8 -t utf-8 ~/workplace/mecab-dic/akuma.csv

この辞書を使えば形態素解析の精度がぐんと上がる

専門用語抽出部分の作り直し

オリジナル辞書/コーパスからのパラメータ推定 http://mecab.sourceforge.net/learn.html
nグラム統計によるコーパスからの未知語抽出 http://ci.nii.ac.jp/naid/110002935038

最初に作った単語連携の部分が微妙なので辞書部分を強化して精度を上げた
ngramの転置インデックスまでは作ったので以上の論文を

考えてること

wikipediaの用語が13万件もあるので後者の論文からうまくパラメータを抽出できそう。