Solr
Solr(ソーラ)は、オープンソースの全文検索システム。Apacheソフトウェア財団のLuceneプロジェクトのサブプロジェクトとして開発されている。
目次 |
概要 [編集]
全文検索エンジンライブラリLuceneをベースに、管理画面やキャッシュ機構を取り入れたアプリケーション。
機能上の特徴は、検索結果にファセットと呼ばれる検索結果を特定の軸でクラスタリング、それぞれの件数情報を付加することができること。商用の検索エンジンでもこの機能があるものは少ない。
構造上の特徴は、内部はいくつかのコンポーネントに分かれ、各所にプラグイン機構を持っているため拡張性に優れる、また、さまざまなキャッシュを持つことからより多くの検索クエリを捌けるようになっていること。
なお、v1.3になって追加されたDataImportHandler (DIH) という追加機能(contribに収録)を使うと、OracleをはじめPostgreSQLなどのデータベースから、JDBCを通じて直接、(検索したい)文書データを取り込む機能が備わり、より便利になった。
開発 [編集]
2007年01月にインキュベータレベル(プロジェクトがひとり立ちして運営できるように支援されるレベル)から卒業し、現在はLuceneのサブプロジェクトとして活動を行っている。
2007年6月6日(水)にv1.2が公開され、現在は2008年9月17日(水)に公開されたv1.3より日本人もコミッタとして参加、2バイト文字対応や半角カナへの対応などが積極的に進められている。2011年9月時点で現在最新版(リリース版)はv3.4.0である。
事例 [編集]
日本国外では小中規模のニュースサイトだけでなく、超大規模なソーシャルニュースサイトDiggや、インターネットアーカイブでなどで利用されている。日本国内ではSHOOTIにおいて約2億のWebページのインデキシングに利用されている。
その他 [編集]
元はCNETから寄贈されたものであり、同社のプリンシパルエンジニアの"Yonik Seeley"が開発をリードしている。2008年5月に日本人もコミッターに加わったことから、日本語サイトでの活用事例が出てくることが予想される。