全文検索について調べた

バイトで調べた話。

mixi Engineers’ Blog » 3行でできる超お手軽全文検索
OSM記事:新世代検索エンジン大集合
全文検索サーバ: これからSolrを始める人のためのApache Solr概要と便利な情報リスト集 | イージーネット Tech Blog

TokyoCabinet/Tyrant

Snow Leopardでやろうとしたらリンカがおかしくてインストール出来なかった。解決策はあとで探す。
しょうがないのでUbuntu10.4でやることに。

sudo apt-get install libzzip-dev
wget http://tokyocabinet.sourceforge.net/tyrantpkg/tokyotyrant-1.1.23.tar.gz
tar xzvf tokyotyrant-1.1.23.tar.gz
cd tokyotyrant-1.1.23
./configure
make
sudo make install

cd ..
wget http://1978th.net/tokyotyrant/tokyotyrant-1.1.40.tar.gz
tar xzvf tokyotyrant-1.1.40.tar.gz
cd tokyotyrant-1.1.40
./configure
make sudo make install
使ってみる
sudo ttservctl start
tcrmgr put localhost foo bar
tcrmgr get localhost foo #=> bar

sudo ttservctl restart
tcrmgr get localhost foo #=> bar

デフォルトのportは1978

Python用ラッパ
sudo easy_install pytyrant
from pytyrant import Tyrant
con = Tyrant.open()
con.set("hoge","aaa")
print con.get("hoge") #=> "aaa"

HyperEstraier

さっくり portsでいれた

$ sudo port install qdbm
$ sudo port install hyperestraier

$ mkdir test
$ cd test
$ cp ~/Dropbox/aozora/*.txt .  (何か適当な検索用ファイル)
$ estcmd gather -il ja -sd -cm -cl casket .
$ estcmd search -vh casket '検索'

http://gyazo.com/2925c9529e7cc01ab2c1b072888a2ba6.png

一応それなりに動くのだけど、なんかportsから入れてしまったせいでNgramしか適用されてない悪寒
MeCabが適用されないと意味が無いのだが... あとでアンインストールしてつくり直すか