Apache Lucene

出典: フリー百科事典『ウィキペディア(Wikipedia)』
Luceneから転送)
移動先: 案内検索
Lucene
Lucene logo
開発元 Apache Software Foundation
最新版 6.1.0 / 2016年6月17日(39日前) (2016-06-17
プログラミング言語 Java
対応OS クロスプラットフォーム
サポート状況 Active
種別 全文検索
ライセンス Apache License 2.0
公式サイト lucene.apache.org
テンプレートを表示

Apache Lucene(アパッチ ルシーン)は、Javaで記述された全文検索ソフトウェアである。あらかじめ蓄積した大量のデータから、指定したキーワードを探し出す機能を持つ。Javaのクラスライブラリとして提供される。

概要[編集]

1000万ドキュメントくらいの規模まで1台のマシンで対応できる。それ以上を複数のマシンで分散検索できるようにするHadoopというサブプロジェクトがある。

検索エンジン(ライブラリ)だけの提供であり、ウェブアプリとしての機能はSolr、クローラーの機能はNutchというサブプロジェクトで開発されている。またApache外でも、リアルタイム検索システムのElasticsearchのベースシステムなどに採用されている[1]

日本語のデータをインデックスするためには、CJKAnalyzerかJapaneseAnalyzerを使う。CJKAnalyzerはbi-gram方式である。JapaneseAnalyzerを使うには形態素解析エンジンを組み込む必要があり、2014年現在ではオープンソースのSen(MeCabのJava実装)ベースの「lucene-gosen」、同じくオープンソースのKuromojiベースの2種類の実装がある。また、ベイシステクノロジー社から販売されているJLAでも日本語のデータを形態素解析してインデックスできる。

2007年1月にApacheのトップレベルプロジェクトになり、現在はPMC (Project Management Committee) での開発スタイルをとっている。

書籍[編集]

脚注[編集]

[ヘルプ]
  1. ^ what is elasticsearch? - elastic search

外部リンク[編集]