検索エンジン (情報技術)
検索エンジン(けんさくエンジン 英:Search engine)とは、コンピュータシステムに保存された情報を見つけやすくする目的で設計された情報検索システム。検索結果は、通常だとリスト形式になっており「●件ヒット」などと表示される。検索エンジンは、情報オーバーロードを制御する他の手法と同様、情報を見つけるのに必要な時間および真偽確認が必要となる情報量を最小限に抑えるのに役立つ[1]。
SiriやCortanaなど現在バーチャルアシスタントの一部機能にあたる端末システムのデスクトップ検索およびインターネット検索にこの検索エンジンが活用されている。とりわけ、ウェブ上にある情報の検索に特化したものをWeb検索エンジン(狭義の検索エンジン)という。
本項では、オンラインとオフラインいずれの端末でも使用される、コンピュータ情報処理の検索エンジン(広義の検索エンジン)について主に記述する。
動作の仕組み
[編集]検索エンジンは、興味のある項目に関する語句を利用者に入力させて、同エンジンが一致する項目を拾い出してくれる項目群へのインターフェイス(いわゆる検索ボックス)を提供している。ここで入力する語句を検索クエリと言う[2]。テキスト検索エンジンの場合、検索クエリとは典型的に1つ以上のドキュメントに含まれている可能性のある調べたい概念を識別する一連の言葉のことで[3]、私達が検索エンジンから情報を引き出すべく入力した質問(語句や文字列)のことである[2]。検索クエリ構文には、厳密さが異なる複数の様式がある。2個か3個の単語を空白で区切って入力することを要求するテキスト検索エンジンもあれば、ドキュメント全体・画像・音声など様々な形式の自然言語を利用者が指定できる検索エンジンもある。一部の検索エンジンでは、クエリ拡張と通称される工程を通じて検索クエリに改善を適用することにより、質の高い項目群(検索結果)を提示する可能性を高めている。クエリ言語を標準化するものとしてQuery Understanding[4]という手法が使われている。
クエリで指定された条件を満たす項目リストは通常、何らかの分類(例えばファイルサイズ、作成日時など)で順位付けされている。関連性の高いものから低いものへという項目の順位付けは、欲しかった情報を見つけるのに要する時間を短縮してくれる。確率論を用いる検索エンジンは[5]、繰り返し事後確率を求めることで予測や認識の精度が上がっていく性質があり、各項目とクエリ間の類似度(通常1~0の尺度で、1が最も近似)および、時には知名度や権威(計量書誌学を参照)や関連性フィードバックの使用に基づいて項目を順位付けする。一般にブール検索エンジンは順序関係なく完全一致する項目のみを返すが、この用語は確率論的なコンテンツにおけるブール型構文の使用(AND、OR、NOT、XOR演算子の使用)を単に指す場合もある。
複数の条件に従って分類された一致項目群を素早く表示するために、検索エンジンは一般に検索エンジンインデックスという工程を介して、懸案中の項目群に関するメタデータを事前に収集する。このインデックスは典型的に必要とするストレージ容量が少なく、そのため一部の検索エンジンは各項目のコンテンツ全体ではなくインデックス化された情報のみを保存しておき、代わりに検索エンジンの結果ページ内の項目に移動する方法を提供する。もしくは、インデックス化された時点の項目状態を利用者が閲覧できるように、検索エンジンがキャッシュに各項目のコピーを保存する。他にもアーカイブ目的や、より効率的かつ迅速に反復作業を行う目的でもキャッシュ保存が行われる[6]。
インデックスを保存しない別種の検索エンジンもある。クローラ又はスパイダー型の検索エンジン(いわゆるリアルタイム検索エンジン) は、項目冒頭の内容に基づいて追加項目を動的に勘案し、クエリ検索の時に項目を収集して評価したりもする。メタ検索エンジンはインデックスもキャッシュも保存せず、代わりに複数の検索エンジンのインデックスまたは結果を再利用して、集計された一連の最終結果を提示する。
データベースの大きさ(2000年代初頭まで重要なマーケティング特性だった)は、検索エンジンが一番良好な結果を最初に並べていく手法として関連度順位を重視したことで、その地位が下がった。関連度順位が最初に大きな問題となったのは、結果リスト全体を見直すことが非現実的だと判明した1996年頃であった。結果として、関連度順位のアルゴリズムは随時改善の見直しが行われている。結果を並び変えてしまうためGoogleのページランク法が最も多く報道されるが、全ての主要な検索エンジンが結果の並び順を改善するべくランキング手法を随時改善している。2006年現在、検索エンジンの順位付けはこれまでになく重要となっており、Web開発者が検索順位を上げるのを支援する産業(検索エンジン最適化またはSEO)が生まれたほどで、メタタグでの商標使用など、検索エンジンの順位付けに影響を与える事を中心に判例集全体が発展している。一部の検索エンジンによる検索順位の販売は、消費者保護団体の間でも論争を引き起こしている[7]。
我々が検索エンジンを使った経験は、継続的に蓄積されて強化される。Google ナレッジグラフの追加はインターネットに広範な影響を与え、特定ウェブサイトのトラフィックを制限する可能性すらある。情報を引き出してGoogleのページに表示することで、他のサイトに悪影響を及ぼす可能性があると主張する人もいるが、大きな関心事にはなっていない[8]。
検索エンジンの種類
[編集]関連項目
[編集]- 情報検索
- web検索エンジン(狭義の検索エンジン)
- 自動要約
- エマヌエル・ゴルトベルク(初期の検索エンジンの発明者)
- 検索エンジンインデックス
- 転置インデックス
- 検索エンジンスパム
- SQL
- テキストマイニング
出典
[編集]- ^ Elstner, Joe (2022年1月3日). “Local SEO: A Simplified Guide” (英語). iSimplifyMe. 2022年10月7日閲覧。
- ^ a b SEOラボ「検索クエリとは?意味を理解してキーワードとの違いを把握しよう」2021年12月10日
- ^ Voorhees, E.M. Natural Language Processing and Information Retrieval. National Institute of Standards and Technology. March 2000.
- ^ リクルート「検索体験を向上する Query Understanding とは」2019年12月25日。この記事でも英語表記されており、定訳不明。
- ^ AIZINE「AI(人工知能)に使われる18世紀の確率論!ベイズ理論を理解しよう」4.1節、2021年1月27日
- ^ “Internet Basics: Using Search Engines” (英語). GCFGlobal.org. 2022年7月11日閲覧。
- ^ Stross, Randall (22 September 2009). Planet Google: One Company's Audacious Plan to Organize Everything We Know. Simon and Schuster. ISBN 978-1-4165-4696-2 9 December 2012閲覧。
- ^ “What do we make of Wikipedia's falling traffic?” (英語). The Daily Dot (2014年1月8日). 2020年11月1日閲覧。
- ^ WEB集客ラボ「セマンティック検索とは?4つの事例とSEOへの影響を解説」2022年7月26日