ExtractTermで専門用語抽出
ExtractTermというPerlで書かれたライブラリがあるらしい。
専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説
CGI版で試してみる
専門用語(キーワード)自動抽出サービス 「言選Web」
「本文」とかゴミは混ざってるけどなかなかの精度。事前に候補を絞る程度には使えそうだ。
インストール
$ wget http://gensen.dl.itc.u-tokyo.ac.jp/soft/TermExtract-4_08.tar.gz $ tar xzvf TermExtract-4.08.tar.gz
$ cd TermExtract $ cp MeCab.pm MeCab.org.pm $ iconv -f euc-jp -t utf-8 MeCab.org.pm > MeCab.pm $ cd ..
$ perl Makefile.PL $ make $ sudo make install
サンプルのスクリプトを使ってみる。
[mizchi]% perl ~/work/TermExtractSamples/UNIX/ex_mecab.pl mecab_out.txt #ここ 790.54 - 659.91 月 479.31 風 449.13 日 339.12 春 338.09 山 264.54 [#「 254.98 酒 246.07 樹明君 231.45
青空文庫の何かを使った。一般語だと厳しい。右はTF*IDFスコアっぽい。
オプションはあとで調べる。