全文検索について調べた
バイトで調べた話。
- Namazu
- HyperEstraier
- TokyoCabinet/TokyoTyrant
- Apache Lucene
mixi Engineers’ Blog » 3行でできる超お手軽全文検索
OSM記事:新世代検索エンジン大集合
全文検索サーバ: これからSolrを始める人のためのApache Solr概要と便利な情報リスト集 | イージーネット Tech Blog
TokyoCabinet/Tyrant
Snow Leopardでやろうとしたらリンカがおかしくてインストール出来なかった。解決策はあとで探す。
しょうがないのでUbuntu10.4でやることに。
sudo apt-get install libzzip-dev wget http://tokyocabinet.sourceforge.net/tyrantpkg/tokyotyrant-1.1.23.tar.gz tar xzvf tokyotyrant-1.1.23.tar.gz cd tokyotyrant-1.1.23 ./configure make sudo make install cd .. wget http://1978th.net/tokyotyrant/tokyotyrant-1.1.40.tar.gz tar xzvf tokyotyrant-1.1.40.tar.gz cd tokyotyrant-1.1.40 ./configure make sudo make install
使ってみる
sudo ttservctl start tcrmgr put localhost foo bar tcrmgr get localhost foo #=> bar sudo ttservctl restart tcrmgr get localhost foo #=> bar
デフォルトのportは1978
Python用ラッパ
sudo easy_install pytyrant
from pytyrant import Tyrant con = Tyrant.open() con.set("hoge","aaa") print con.get("hoge") #=> "aaa"
HyperEstraier
さっくり portsでいれた
$ sudo port install qdbm $ sudo port install hyperestraier $ mkdir test $ cd test $ cp ~/Dropbox/aozora/*.txt . (何か適当な検索用ファイル) $ estcmd gather -il ja -sd -cm -cl casket . $ estcmd search -vh casket '検索'
一応それなりに動くのだけど、なんかportsから入れてしまったせいでNgramしか適用されてない悪寒
MeCabが適用されないと意味が無いのだが... あとでアンインストールしてつくり直すか
