会社のイントラネットのWEBサーバを全文検索する(予定)

  • 投稿日:
  • by

最近、ちょっと仕事が暇?になっているので、こんなことを立ち上げようと考えている。

社内のイントラネット上に存在する多数のWEBサーバを全文検索できるようにするプロジェクト。

 全文検索 - Wikipedia

それには、全文検索エンジンクローラーが必要となる。

クローラーといえば、Webサーバーをくまなく巡回し、Webページを取得し、それを全文検索に渡すという役割がある。

それは、GoogleボットやYahooボットなどがグローバルなネット界では有名だが、当然そんなクローラーやGoogleの検索アルゴリズムをもらうことなんて到底無理な話である(^^;)

そこで目を付けたのが、オープンソース

まず全文検索エンジンで候補に挙げたのが、

Namazu
http://www.namazu.org/
Senna 組み込み型全文検索エンジン
http://qwik.jp/senna/FrontPageJ.html
Unicode版msearch
http://www.marbacka.net/msearch/
Hyper Estraier
http://hyperestraier.sourceforge.net/
Ludia
http://sourceforge.jp/projects/ludia/
Rast
http://projects.netlab.jp/rast/?FrontPage.ja


続いて、クローラーの候補

Hyper Estraier
http://hyperestraier.sourceforge.net/
SUZAKU : The Internet Search Engine
http://hoshizawa.no-ip.com/suzaku/


他にも全文検索やクローラーでいろいろあるだろうけど、、、とりあえずはこのくらいで(^^;)


で、いろいろ検討した結果、「Hyper Estraier」を導入することにした。


理由は、

・全文検索とクローラーが一つのプロジェクトとして公開されている。
・P2Pで検索プロセスを複数のサーバで分散させることができる。
・などなど


現在、クローラー1台、検索サーバ(ノード) 3台でα運用中(^^;)

詳細はまた追って報告する。・・・・



Namazuシステムの構築と活用―日本語全文検索徹底ガイド
馬場 肇
ソフトバンククリエイティブ (2001/06)
売り上げランキング: 384925
おすすめ度の平均: 5.0
5 全文検索システム解説の良書


日本語全文検索システムの構築と活用
馬場 肇
ソフトバンククリエイティブ (1998/09)
売り上げランキング: 667252
おすすめ度の平均: 4.0
4 なまず最高!!
4 高価なデータベースソフトはもう要らない。


全文検索―技術と応用
山本 毅雄 神門 典子 橋爪 宏達 清水 美都子 学術情報センター
丸善 (1998/10)
売り上げランキング: 131027


オープンソースソフトウェアによる全文検索・データベースWebの作り方―超個人的Webテクノロジー活用法
西村 めぐみ
ソシム (2000/08)
売り上げランキング: 409582
おすすめ度の平均: 4.0
4 これからWebデータベースを作る人にお勧めです。