ExtractTermで専門用語抽出

ExtractTermというPerlで書かれたライブラリがあるらしい。
専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説


CGI版で試してみる
専門用語(キーワード)自動抽出サービス 「言選Web」

http://gyazo.com/ca3dcbfe68d8e98cb33fe7c17560cd6c.png

「本文」とかゴミは混ざってるけどなかなかの精度。事前に候補を絞る程度には使えそうだ。

インストール

$ wget http://gensen.dl.itc.u-tokyo.ac.jp/soft/TermExtract-4_08.tar.gz
$ tar xzvf TermExtract-4.08.tar.gz


makefileutf-8にしておくらしい

$ cd TermExtract
$ cp MeCab.pm MeCab.org.pm
$ iconv -f euc-jp -t utf-8 MeCab.org.pm > MeCab.pm
$ cd ..
$ perl Makefile.PL
$ make
$ sudo make install


サンプルのスクリプトを使ってみる。

[mizchi]% perl ~/work/TermExtractSamples/UNIX/ex_mecab.pl mecab_out.txt        
#ここ                                                              790.54
-                                                                      659.91
月                                                                    479.31
風                                                                    449.13
日                                                                    339.12
春                                                                    338.09
山                                                                    264.54
[#「                                                              254.98
酒                                                                    246.07
樹明君                                                              231.45

青空文庫の何かを使った。一般語だと厳しい。右はTF*IDFスコアっぽい。
オプションはあとで調べる。

おまけ

http://gyazo.com/c440825465b79ea905dd162f9729b68a.png

euc-jpなニオイがする!
日本語の自然言語処理エンコーディングとの戦いですね!