DBCLS

DBCLS 11/26

最近何やったかを書いてなかったので完全にニート化しているように思われてるので、とりあえず進捗 扱える範囲にある辞書をどんどんmecab辞書化している lifedb-dicを辞書化 dBCLSで扱えるlifedb-dicをmecab辞書化公開できない wikipedia辞書 タイトルだけで…

g86鯖いじりしました

少しだけいじりました [twitter:@micky24] 自分が扱うデータはサーバー側が大量にもっているのだけど、さすがに全部ローカルに持ってくるのは骨が折れるしセキュリティ的にもアレなので、サーバー上に開発環境を作った。 自分の.emacs.d は githubに丸投げし…

全文検索について調べた

バイトで調べた話。 Namazu HyperEstraier TokyoCabinet/TokyoTyrant Apache Lucene mixi Engineers’ Blog » 3行でできる超お手軽全文検索 OSM記事:新世代検索エンジン大集合 全文検索サーバ: これからSolrを始める人のためのApache Solr概要と便利な情報リ…

ExtractTermで専門用語抽出

ExtractTermというPerlで書かれたライブラリがあるらしい。 専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説 CGI版で試してみる 専門用語(キーワード)自動抽出サービス 「言選Web」「本文」とかゴミは混ざってるけどなかなかの精度。…

DBCLS 6/10

引き続きバイトの内容 与えられた辞書データからMeCab辞書を作るところですとりあえず前回のデータから末尾が名詞じゃない単語を省いた。 import MeCab mecab = MeCab.Tagger("-Ochasen") ... def is_nown(text): node = mecab.parseToNode(text) while node…

MeCabでユーザー辞書を登録する

バイトでやってる自然言語処理のお仕事です。 データをMeCab辞書のフォーマットにパースしてcsvで保存 /usr/local/libexec/mecab/mecab-dict-index でコンパイル /usr/local/etc/mecabrc を編集してユーザー辞書を指定する 参考: MeCab: 単語の追加方法 MeCa…