ExtractTermで専門用語抽出

ExtractTermというPerlで書かれたライブラリがあるらしい。
専門用語（キーワード）自動抽出用Perlモジュール "TermExtract"の解説

「本文」とかゴミは混ざってるけどなかなかの精度。事前に候補を絞る程度には使えそうだ。

インストール

$ wget http://gensen.dl.itc.u-tokyo.ac.jp/soft/TermExtract-4_08.tar.gz
$ tar xzvf TermExtract-4.08.tar.gz

makefileをutf-8にしておくらしい

$ cd TermExtract
$ cp MeCab.pm MeCab.org.pm
$ iconv -f euc-jp -t utf-8 MeCab.org.pm > MeCab.pm
$ cd ..

$ perl Makefile.PL
$ make
$ sudo make install

サンプルのスクリプトを使ってみる。

[mizchi]% perl ~/work/TermExtractSamples/UNIX/ex_mecab.pl mecab_out.txt        
＃ここ                                                              790.54
-                                                                      659.91
月                                                                    479.31
風                                                                    449.13
日                                                                    339.12
春                                                                    338.09
山                                                                    264.54
［＃「                                                              254.98
酒                                                                    246.07
樹明君                                                              231.45

青空文庫の何かを使った。一般語だと厳しい。右はTF*IDFスコアっぽい。
オプションはあとで調べる。

参考にしたサイト

TermExtract Perlで出来る特徴語抽出 - プログラマになりたい

おまけ

euc-jpなニオイがする!
日本語の自然言語処理はエンコーディングとの戦いですね！