「検索エンジン」の版間の差分

削除された内容追加された内容

インライン

2017年2月11日 (土) 01:45時点における版

検索エンジン（けんさくエンジン、英語: search engine）は、狭義にはインターネットに存在する情報（ウェブページ、ウェブサイト、画像ファイル、ネットニュースなど）を検索する機能およびそのプログラム。インターネットの普及初期には、検索としての機能のみを提供していたウェブサイトそのものを検索エンジンと呼んだが、現在では様々なサービスが加わったポータルサイト化が進んだため、検索をサービスの一つとして提供するウェブサイトを単に検索サイトと呼ぶことはなくなっている。広義には、インターネットに限定せず情報を検索するシステム全般を含む。

狭義の検索エンジンは、ロボット型検索エンジン、ディレクトリ型検索エンジン、メタ検索エンジンなどに分類される。広義の検索エンジンとしては、ある特定のウェブサイト内に登録されているテキスト情報の全文検索機能を備えたソフトウェア（全文検索システム）等がある。

検索エンジンは、検索窓と呼ばれるボックスにキーワードを入力して検索をかけるもので、全文検索が可能なものと不可能なものとがある。検索サイトを一般に「検索エンジン」と呼ぶことはあるが、厳密には検索サイト自体は検索エンジンでない。

検索エンジン（狭義）

ロボット型検索エンジン

与えられた検索式に従って、ウェブページ等を検索するサーバ、システムのこと。検索式は、最も単純な場合はキーワードとなる文字列のみであるが、複数のキーワードにAND（「かつ」、論理積）やOR（「または」、論理和）等の論理条件を組み合わせて指定することができるものが多い。

ロボット型検索エンジンの大きな特徴の一つとして、クローラ（ロボット・スパイダー）を用いることが挙げられる。このことにより、WWW上にある多数の情報を効率よく収集（日本の著作権法では複製）することができる。大規模な検索エンジンでは、80億ページ以上のページから検索が可能になっている。

収集したページの情報は、前もって解析し、索引情報（インデックス）を作成する（日本の著作権法では編集）。日本語などの言語では、自然言語処理機能が生成される索引の質に影響する。このため、多言語対応した検索エンジンの方が精度の高い検索が可能となる。

検索結果の表示順は、検索エンジンの質が最も問われる部分である。ユーザーが期待したページを検索結果の上位に表示することができなければ、ユーザーが離れてしまうからである。そのため、多くの検索エンジンが、表示順を決定するアルゴリズムを非公開にし、その性能を競っている。検索エンジン最適化業者の存在も、アルゴリズムを公開しない要因になっている。Googleは、そのアルゴリズムの一部であるPageRankを公開しているが、やはり、多くの部分が非公開になっている。Googleの場合、創設初期におけるアルゴリズムについては、創設者自身がウェブ上で公表している論文でその一端を知ることができる。参照英語原文^[1]日本語の解説^[2]

ウェブページの更新時刻の情報を用いて、新しい情報に限定して検索できるものや、検索結果をカテゴリ化して表示するものなど、特長のある機能を搭載したり、検索結果をユーザーへ最適化していく動きもある。

従来のウェブページを検索するだけの検索エンジンにとどまらず、最近ではインターネットショッピング専用の検索エンジンなど、特定の分野に特化した検索エンジンの開発も散見される。商品検索では、価格比較サービス日本最大手の価格.comや、ベンチャー企業が開発するQOOPIEなどある。また、職業検索エンジンとしてはCraigslistなどがある。 Google、Yahoo!、インフォシーク、テクノラティ、MARSFLAG、Altavista、ムーター、AlltheWeb、Teoma、WiseNut、Inktomi、SAGOOL、Yahoo! JAPAN (2005.10〜) など。

ディレクトリ型検索エンジン

人手で構築したウェブディレクトリ内を検索するサーバ、システムのこと。

人手で構築しているため、質の高いウェブサイトを検索可能。概要を人手で記入しているため、検索結果の一覧から目的のサイトを探しやすい、サイトのカテゴリ分けがされていることから、特定分野や地区などに限定したサイトを探しやすいという特長がある。

しかし、検索対象となるサイトは人手で入力するため、検索対象となるサイト数が多くできないという欠点がある。

インターネットが一般に使われるようになった初期（1990年代）のころには、ディレクトリ型が主体であったが、WWWの爆発的な拡大によって、あらゆるウェブサイトを即時にディレクトリに反映させることが事実上不可能になり、現在では主流ではなくなっている。このため、ディレクトリ型検索エンジンでは、検索にヒットするサイトが無かった場合、ロボット型検索エンジンを用いて結果を表示するような、併用型のものが多い。

日立国際ビジネスのHole-in-One（〜04.11）、Yahoo! JAPAN（〜05.10）、LookSmart Japan（〜06.05）、goo、infoseek、Open Directory Projectなど。

分散型検索エンジン

P2P通信によってウェブコンテンツのインデックスを多数のピアに分散させ、P2Pネットワーク全体で各ピアの持つインデックスを共有する検索システムのこと。

ウェブのクロールは各ピアが独自に行い、インデクサーはRWI(Reverse Word Index)を作成する。作成されたインデックスの一部はDHT(分散ハッシュテーブル、Distributed Hash Table)として他のピアに分配される。

検索は自分のピアの端末からP2Pネットワーク上にある他のピアにリクエストを送信することにより行うことができる。

分散型検索エンジンの例としてはYaCyがある。YaCyは「人民による人民のためのウェブ検索」を標榜し、分散型であることにより検閲を防ぐことができるとしている。^[3]

メタ検索エンジン

ひとつの検索ワードを複数の検索エンジンで検索することをメタ検索という（横断検索エンジンと呼ぶこともある）。詳細は「メタ検索エンジン」を参照のこと。

検索エンジン（広義）

全文検索システム

詳細は「全文検索」を参照

与えられた文書群から、検索式（キーワードなど）による全文検索機能を提供するソフトウェア、システムの総称で、ウェブサーバに組み込んで利用されることが多い。スタンドアローン環境で用いられる個人用途のものもあり、そういったものは特に「デスクトップ検索」と呼ばれている。

歴史

黎明期

日本のインターネット普及初期から存在した検索エンジンには以下のようなものがある。黎明期には、豊橋技術科学大学の学生が作成したYahhoや、東京大学の学生が作成したODiN、早稲田大学の学生が作成した千里眼など、個人の学生が作成したものが商用に対して先行していた（いずれも1995年に作成、日本電信電話株式会社のNTT DIRCECTORY、サイバースペースジャパン（現・ウェブインパクト）のCSJインデックスは1994年に作成）。これらは単に実験用に公開されていただけでなく、多くの人に用いられていたものであり、黎明期のユーザにとっては知名度、実用度ともに高いものであった。またMondouなどのように研究室（京都大学）で作成したものもあった。

Yahoo! JAPAN の独走

1995年12月にソフトバンクがアメリカ合衆国Yahoo!株を一部買い取り、翌年4月から日本版にローカライズしたYahoo! JAPANをサービス開始した。同年7月の展示会Interopでは机2つぶん並べる程度の小規模ブースで出展する程度の力の入れ具合で、ソフトバンクの一部署として開始する程度だったものが、もともとの米国Yahoo!の知名度、90年代後半のインターネット利用者人口の増加、ディレクトリ型だけだった検索をロボット型も追加、サイト登録した一部のウェブサイトの紹介をするYahoo! Internet Guide（ソフトバンククリエイティブ出版）との連携、日本Yahoo!株高騰のニュースでインターネットを利用しない人にも名前が知れ渡るなど、様々なプラス要因と経営戦略が見事に当たり、検索サイト首位の座を固めた。そして、検索サイトの集客力を武器にニュース、オークションなど、検索サービス以外のサービスを含めたポータルサイトとしての独走を始めた。

群雄割拠

1997年頃から、WWW(World Wide Web)の爆発的な拡大に伴って、ディレクトリ型のみであったYahoo!のウェブディレクトリの陳腐化が急速に進んだ。この頃、infoseekやgooに代表されるロボット型検索エンジンが人気を集め始め、Yahoo! JAPANはロボット型検索エンジンにgooを採用するなど、群雄割拠の時代になった。

Googleの台頭

Googleが1998年に稼動させたGoogle検索は、従来の検索エンジンがポータルサイト化へと進む流れに逆行し、独創的な検索技術に特化し、バナー広告等を排除したシンプルな画面と2000年にYahoo!のロボット型検索エンジンに採用されたことにより、急速に人気を集めた。いつしか^{[要検証 – ノート]}ウェブページ検索の世界シェアのトップに躍り出たとされている。また日本においても、GoogleやYahoo!などの検索エンジンを利用すること＝「ググる」というネットスラングが生まれた。この状況に危機感を募らせたYahoo!は、2004年にロボット型検索エンジンを独自技術Yahoo!Search Technology (YST)（Yahoo!が買収したInktomiとAltaVista、Overture等の技術を統合した）に切り替えた。同年、GoogleやYahoo!のエンジンに匹敵すると言われるTeomaを利用した検索エンジン、Ask Jeeves（現・Ask.com）が「Ask.jp」として、2005年、オーストラリアで誕生したMooterが日本に進出し、検索サービスを開始した。

検索エンジンの多様化

検索という行為が一般化するにつれて、各種目的別に多様化した検索エンジンが現れるようになった。ブログの情報に特化した検索TechnoratiやblogWatcher、商品情報の検索に特化した商品検索サイト、サイトの見た目で検索するMARSFLAG、音楽検索、動画検索、ファイル検索、アップローダ検索ほか、次々と新しい検索エンジンが生まれている。

また、検索エンジンでは判断できない抽象的な条件などでの検索を人手に求めた、OKWaveや人力検索はてななどの「人力検索」「ナレッジコミュニティ」と呼ばれるサービスも登場した。

近年ではパソコンだけでなく携帯電話や携帯型ゲーム機からもウェブサイトが検索される傾向が高くなり、GoogleやYahoo!をはじめとする携帯向けのモバイル検索サイトが登場し活気がでている。

対応端末の多様化

ソフトバンク・Yahoo! JAPANがボーダフォンを買収し、KDDIがGoogleと提携するなど、携帯電話の分野で検索エンジンの戦いが激化してきている。モバイル検索の分野は長らく公式サイトと呼ばれる世界がユーザーの囲い込みを行っていたため、脚光を浴びることが少なかった。

リーガルリスク

深層ウェブ

Googleなどのウェブ検索エンジンでは、データベースの検索結果など多くの動的ページが検索対象になっていない。このような動的ページは「深層ウェブ」「見えないウェブ」「隠されたウェブ」などと呼ばれている。静的ページの500倍の量が存在し、多くは無料だといわれる。深層ウェブは、一般の検索エンジンなどからデータベースなどを見つけ出すか、直接アクセスした上で、それぞれの検索機能から再度検索しなければならない。

このようにWebページが深層と表層に分かれてしまう背景には検索エンジン側が晒される法的リスクがある。深層にあるものは必ずしも検索エンジンから検索されることを前提としていないものも多い。すべての深層データが検索エンジンから検索可能な状態になっていた場合、動的ページの情報提供者の存在意義を脅かす可能性もある。本来であれば非公開とされているようなデータが誤って検索されてしまうという可能性も高くなる。さらに、データベースと連動する動的ページをクローラーが集中的にクロールすると、データベース側の負荷が上がるためサーバ速度の低下やシステムダウンを引き起こす危険が高まる。このようなことから検索エンジンは技術的に深層に入り込めない訳ではなく、あえて避けていると推測することができる。実際、中国の検索エンジン百度は集中的なクロール活動を続けた結果、多くのサーバ管理者から一斉にクレームを受け、クロール活動を大きく制限せざるを得なかった。

著作権との関係

ロボット型検索エンジンは、その原理上インターネット上のコンテンツを複製してキャッシュとして保存するようになっている。著作権をたてに、ウェブサイトの閲覧利用規約等と称して、一切のいかなる複製も禁ずるとするサイト等があり、どういったものかと古くより話題になっていた^[4]。

また、2006年11月には、日本の知的財産戦略本部コンテンツ専門調査会第3回企画WGにおいて、検索エンジンに関して「著作権法上、複製、編集には権利者の許諾が必要であり、Yahoo!、Googleなど大手検索システムのサーバーは海外に置かれているのが現状。」^[5]と報告され、これをうけて経済産業省が日本国内でも合法的に検索エンジンサービスが行えるように著作権法の改正や検索エンジンの開発に取り組むと発表し^[要出典]、2010年1月の改正で複製が合法とされた。

このことを拡大解釈したのか、あたかも著作権法のために、日本ではGoogleのような企業が育たなかったであるとか、日本におけるネット検索を妨げたのは著作権法である、といった論が巷に見られるが（フェアユース規定がない等の点は従来より指摘されてはいるが）、このWG報告以前に、著作権法によりネット検索の事業が妨げられた、というような話はない。

なお、この場合の"キャッシュ"とは、検索エンジンの内部使用のための複製や要約（スニペット）作成のための複製であり、一時的にウェブサイトが閲覧しづらい場合のためにユーザーに閲覧させる目的のアーカイブ（グーグルでは"キャッシュ"とも呼ばれる）は、依然として法的にはグレーゾーンである。また、アーカイブは、必ずしも検索エンジンの運営に不可欠とまでは言えず、ウェブサイトを丸ごとアーカイブとして提供する場合には著作権法の2010年改正部分が言う複製の範囲を超えるおそれがある。^[要出典]

そのほか

多言語化の課題

いわゆる「使用言語からみたインターネット人口の割合」はInternet Archiveを用いてEuro MarketingとGlobal Reachから過去の月次資料を整理すると次のような推移を辿っている。

	1998年	1999年	2000年		2001年			2002年		2003年	2004年
	12月	1月	4 - 7月	12月	2月	4 - 6月	7月	1月	6 - 10月	2 - 4月	7月
英語	58%	55%	51.3%	49.6%	47.6%	47.5%	45.0%	43.0%	40.2%	36.5%	35.8%
非英語	42%	45%	48.7%	50.4%	52.4%	52.5%	55%	57.0%	59.8%	63.5%	64.2%

1995年以前のInternet Societyによればインターネットで用いられている言語のうち英語が占める割合は85%とされていたが、その後のITの進歩や各国のインターネットの普及により多言語化が進み、上表に見られるように2000年の年末には英語と非英語の言語人口が逆転し、その傾向は継続している。

2005年2月2日の時点で、WWW検索エンジンの代表格であるGoogleでは80億を越す8,058,044,651ウェブページが登録されている。検索エンジンの利用者はそれら80億を越すウェブページから求める情報を容易に引き出せると思い込みがちであるが、例えば日本語入力のできないコンピュータなどの端末を用いて日本語サイトを検索することは容易ではない。同様に非英語圏の言語間の検索は中間に翻訳エンジンを介さないと検索作業は難しい。

インターネットの多言語化が今後も増加すると仮定した場合、言語間の壁をどのように乗り越えるかは今後の検索エンジンが抱える課題の一つとして挙げることができる。

各種広告

2006年頃から日本ではURL（アドレス）を表示せず、社名や商品名などの検索キーワードを表示し、検索エンジンで検索させるように仕向けるテレビコマーシャルなどの広告表現が急増している。大抵はキーワードが書かれた状態の検索フォームとボタンを表示し、マウスクリックを促す演出がなされている。このような変化が生じた理由は不明であるが、各メディアの広告掲載基準の変更や、コマーシャルでURLを表示するのに比べてアクセス数を獲得しやすいことが増加の要因である。しかし検索結果に企業にとって不都合な情報が現れる場合があるため、グーグル八分のような検索結果の操作が行われるケースも考えられる。

現在、主流となっている広告手法として、ユーザーの検索結果後に広告を露出させる検索連動型広告と、サイトの中を分析し、そのサイトに合った広告を配信するコンテンツ連動型広告が主流で、オーバーチュアではインスタレットマッチという行動ターゲティング型の広告を現在推し進めている。

英語圏でも2013年ごろから「#wikipedia」のような番号記号を使った広告活動をおこなっている。

検索エンジンの危険性

検索エンジンが、利便性が高いが危険性も多く存在する事やその被害例について多くの参考文献や資料が存在する。その一部であるが、検索エンジンの安全性に関する調査報告については、ウイルス対策ソフトなどを提供するセキュリティベンダーの米マカフィーが、2007年6月4日「検索エンジンの安全性に関する調査報告」を発表し「検索エンジンは危険であり、検索エンジンにキーワードを入力して上位に現れるサイトの危険度を調べたら、広告として表示されるサイトは、そうでないサイトの2.4倍も危険率が高い」としている。 nikkeibp また検索エンジンのキーワード検索結果には危険なリンクでいっぱいであり、検索エンジンが自分を守ってくれると思ってはいけない。それどころか検索結果ランキングがサイトの安全性を反映していないことも多く、特に検索エンジン広告を訪れる場合、ユーザーは高いリスクにさらされると報告書ではこう警鐘を鳴らしている。 [1] さらに、検索エンジンの提供サイトの危険度についての調査報告では、同マカフィーが「検索エンジンの安全度調査」を発表し「最も危険な結果が多いのは米ヤフー」としている。 [2]

主な検索エンジンサイト

詳細は「検索エンジンの一覧」を参照

Ask.com - 英語、日本語。Ask.jpブランドとしては撤退
Bing・MSN - 日本語他、多言語対応。
DuckDuckGo - 英語、一部日本語。プライバシー重視の検索エンジン
goo - 日本語。ガラケー版がオリジナルの検索
Google - 日本語他、多言語対応。
Indeed - 求人専用検索。日本語他、他言語対応。
Lycos - 英語、日本語ほか。
SPYSEE - 人物情報、日本語。
Yahoo! JAPAN（日本語）/　Yahoo!（英語）日本語版はGoogleが、英語版はBingがバックエンドで独自の検索はリアルタイム等一部のみ
ヤンデックス - ロシア語。日本語対応はしてないがユーザが多いWeb検索の一つ
百度 - 中国語、日本語。
皆声.jp -　日本語ブログ検索

サービスを終了した主な検索エンジンサイト

ODiN（ロボット型）
千里眼（ロボット型）
OCN Navi (TITAN)^[6]（ロボット型、OCN）
FreshEYE 独自検索の提供は終了
infoseek 独自検索の提供は終了
MARSFLAG - B2C向けは撤退して、B2B向けサイト内検索のみ提供
Mondou ^[7]（ロボット型、京都大学）
LookSmart Japan（ディレクトリ型）
NAVER - 韓国語。日本語検索は終了
NTT DIRECTORY（ディレクトリ型、NTT）^[8]
Hole-in-One ^[9]（ディレクトリ＋全文ロボット型、日立国際ビジネス、1998年エキサイト日本法人が買収^[10]
CSJ INDEX ^[11]（ディレクトリ型、サイバースペース・ジャパン）

など。

脚注

^ The Anatomy of a Large-Scale Hypertextual Web Search Engine(英語、Sergey Brin and Lawrence Page,Computer Science Department, Stanford University)
^ グーグルの検索順位決定についてーそのアルゴリズム
^ Internet Watchの記事 "プライバシーが保護される分散型サーチエンジン「YaCy」～地道な開発が続く"
^ たとえば検索エンジンのキャッシュは著作権侵害か?（2002.3 スラッシュドット・ジャパン）などを見よ
^ コンテンツをめぐる課題（参考資料） (PDF) （2006.11 コンテンツ専門調査会企画ワーキンググループ（第３回） - 知的財産戦略本部）
^ OCN navi(サーチエンジン登録ガイド)
^ 当時のMondouのサイト(2004.10.14収集、ウェブアーカイブ)
^ ディレクトリサービス"NTT DIRECTORY"（研究開発の歴史）(NTT)
^ Hole in One - マルチメディア／インターネット事典
^ エキサイトが検索ディレクトリ「Hole-in-One」を買収(1998.7 internet watch）
^ 当時のCSJ INDEXのサイト (1999.2.18収集、ウェブアーカイブ)

外部リンク

“サーチエンジン・ポータルサイト / 国立国会図書館”. 2013年2月13日閲覧。

[stanford-google-1] The Anatomy of a Large-Scale Hypertextual Web Search Engine(英語、Sergey Brin and Lawrence Page,Computer Science Department, Stanford University)

[existenzueda-6-2] グーグルの検索順位決定についてーそのアルゴリズム

[3] Internet Watchの記事 "プライバシーが保護される分散型サーチエンジン「YaCy」～地道な開発が続く"

[4] たとえば検索エンジンのキャッシュは著作権侵害か?（2002.3 スラッシュドット・ジャパン）などを見よ

[kikaku3-siryou2-5] コンテンツをめぐる課題（参考資料） (PDF) （2006.11 コンテンツ専門調査会企画ワーキンググループ（第３回） - 知的財産戦略本部）

[6] OCN navi(サーチエンジン登録ガイド)

[7] 当時のMondouのサイト(2004.10.14収集、ウェブアーカイブ)

[8] ディレクトリサービス"NTT DIRECTORY"（研究開発の歴史）(NTT)

[9] Hole in One - マルチメディア／インターネット事典

[10] エキサイトが検索ディレクトリ「Hole-in-One」を買収(1998.7 internet watch）

[11] 当時のCSJ INDEXのサイト (1999.2.18収集、ウェブアーカイブ)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

@@ 86行目: / 86行目: @@
 [[#ロボット型検索エンジン|ロボット型検索エンジン]]は、その原理上インターネット上のコンテンツを[[複製]]して[[キャッシュ (コンピュータシステム)|キャッシュ]]として保存するようになっている。[[著作権]]をたてに、ウェブサイトの閲覧利用[[規約]]等と称して、一切のいかなる複製も禁ずるとするサイト等があり、どういったものかと古くより話題になっていた<ref>たとえば [http://it.slashdot.jp/story/02/03/18/0234235 検索エンジンのキャッシュは著作権侵害か?]（2002.3 [[スラッシュドット]]・ジャパン）などを見よ</ref>。
-また、2006年11月には、日本の知的財産戦略本部コンテンツ専門調査会第3回企画[[ワーキンググループ]](WG)において、検索エンジンに関して「[[著作権法]]上、複製、編集には権利者の許諾が必要であり、[[Yahoo!]]、[[Google]]など大手検索システムのサーバーは海外に置かれているのが現状。」<ref name="kikaku3-siryou2">{{PDFlink|[http://www.kantei.go.jp/jp/singi/titeki2/tyousakai/contents/kikaku3/siryou2.pdf コンテンツをめぐる課題（参考資料）]}}（2006.11 [http://www.kantei.go.jp/jp/singi/titeki2/tyousakai/contents/kikaku3/3gijisidai.html コンテンツ専門調査会 企画ワーキンググループ（第３回）] - 知的財産戦略本部）</ref>と報告され、これをうけて{{要出典範囲|date=2012年12月|[[経済産業省]]が日本国内でも合法的に検索エンジンサービスが行えるように著作権法の改正や検索エンジンの開発に取り組むと発表し}}、2010年1月の改正で複製が合法とされた。
+また、2006年11月には、日本の知的財産戦略本部コンテンツ専門調査会第3回企画WGにおいて、検索エンジンに関して「[[著作権法]]上、複製、編集には権利者の許諾が必要であり、[[Yahoo!]]、[[Google]]など大手検索システムのサーバーは海外に置かれているのが現状。」<ref name="kikaku3-siryou2">{{PDFlink|[http://www.kantei.go.jp/jp/singi/titeki2/tyousakai/contents/kikaku3/siryou2.pdf コンテンツをめぐる課題（参考資料）]}}（2006.11 [http://www.kantei.go.jp/jp/singi/titeki2/tyousakai/contents/kikaku3/3gijisidai.html コンテンツ専門調査会 企画ワーキンググループ（第３回）] - 知的財産戦略本部）</ref>と報告され、これをうけて{{要出典範囲|date=2012年12月|[[経済産業省]]が日本国内でも合法的に検索エンジンサービスが行えるように著作権法の改正や検索エンジンの開発に取り組むと発表し}}、2010年1月の改正で複製が合法とされた。
 このことを拡大解釈したのか、あたかも著作権法のために、日本ではGoogleのような企業が育たなかったであるとか、日本におけるネット検索を妨げたのは著作権法である、といった論が巷に見られるが（[[フェアユース]]規定がない等の点は従来より指摘されてはいるが）、このWG報告以前に、著作権法によりネット検索の事業が妨げられた、というような話はない。