レコメンダシステム
レコメンダシステム(英: recommender system)は、情報フィルタリング (IF) 技法の一種で、特定ユーザーが興味を持つと思われる情報(映画、音楽、本、ニュース、画像、ウェブページなど)、すなわち「おすすめ」を提示するものである。通常のレコメンダシステムは、ユーザーのプロファイルを何らかのデータ収集基準と比較検討し、ユーザーが個々のアイテムにつけるであろう評価を予測する。基準は情報アイテム側から形成する場合(コンテンツベースの手法)とユーザーの社会環境から形成する場合(協調フィルタリングの手法)がある。
概要
[編集]ユーザーのプロファイルを構築するとき、データ収集の明示的部分と暗黙的部分を区別する。
明示的データ収集には次のようなものがある。
- ユーザーにあるアイテムの評価を付けてもらう(例えば5段階評価)。
- ユーザーに一群のアイテムを好きか嫌いかランク付けしてもらう。
- ユーザーに2つのアイテムを提示し、好きなほうを選んでもらう。
- ユーザーに好きなアイテムの一覧を作ってもらう。
暗黙的データ収集には次のようなものがある。
- オンラインストアでユーザーがアイテムを参照する様子を観察する。
- 各アイテムを見ていた時間を分析する[1]。
- ユーザーがオンラインで購入したアイテムの記録を保持しておく。
- ユーザーがオンラインで視聴したアイテムの一覧を入手する。
- ユーザーの社会的ネットワークを分析し、好みを発見する。
レコメンダシステムはこのようにして集めたデータを他のデータと比較し、そのユーザーへのお勧めアイテムの一覧を計算する。商用または非商用のいくつかの例が協調フィルタリングの項目にある。Adomavicius はレコメンダシステムの概要を論じている[2]。Herlocker はレコメンダシステムの評価技法の概要を論じている[3]。
レコメンダシステムは、ユーザーが自力では見つけられないアイテムを提示できる可能性があり、情報検索の有益な代案となっている。レコメンダシステムは標準的でないデータに索引をつけた検索エンジンを使って実装されているものが多い。
アルゴリズム
[編集]レコメンダシステムでよく使われているアルゴリズムとして最近傍探索がある[4]。社会的ネットワークにおいて、特定ユーザーに近い上位N個の近傍(に重みを付けたもの)との相関係数を計算することでその嗜好(指向)空間での近傍がわかる。ユーザーの嗜好はそのデータをある技法で計算することで予測できる。
Netflix Prize は1億以上の映画格付け情報を集め、それに対して最も正確な検索を行った新規アルゴリズムに100万ドルを与えるものである。2007年の最も正確なアルゴリズムは、107個のアルゴリズムを組み合わせて1つの予測を導いていた[5]。
Predictive accuracy is substantially improved when blending multiple predictors. Our experience is that most efforts should be concentrated in deriving substantially different approaches, rather than refining a single technique. Consequently, our solution is an ensemble of many methods.
(上記の和訳)予測の正確さは、複数の予測を混合するときに大幅に高められる。我々の経験によれば、1つの技法を改良するよりも、複数の異なる技法を新たに生み出す方がよい。その結果、我々の解法は多数の手法の寄せ集めとなった。
具体例
[編集]- Amazon.com (オンライン小売業、おすすめ商品を提示)
- Last.fm (音楽サービス)
- Netflix (DVDレンタルサービス)
- Reddit (ニュース・レコメンデーション・システム)
- TSUTAYA DISCAS(DVD、CDレンタルサービス)
主要な国際会議
[編集]推薦システムはデータマイニングや機械学習においては主要な研究分野であり、下記の会議以外でも多くの論文が発表されています。
- Recsys
- Web Search and Data Mining (WSDM)
- SIG Information Retrieval (SIGIR)
- The Web Conference (TheWebConf 旧称WWW)
- Knowledge Discovery and Data Mining (KDD)
- Conference on Information and Knowledge Management (CIKM)
関連項目
[編集]脚注・出典
[編集]- ^ Parsons, J.; Ralph, P.; Gallagher, K. (July 2004), Using viewing time to infer user preference in recommender systems., AAAI Workshop in Semantic Web Personalization, San Jose, California.
- ^ Adomavicius, G.; Tuzhilin, A. (June 2005), “Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions”, IEEE Transactions on Knowledge and Data Engineering 17 (6): 734–749, doi:10.1109/TKDE.2005.99.
- ^ Herlocker, J. L.; Konstan, J. A.; Terveen, L. G.; Riedl, J. T. (January 2004), “Evaluating collaborative filtering recommender systems”, ACM Trans. Inf. Syst. 22 (1): 5–53, doi:10.1145/963770.963772.
- ^ Sarwar, B.; Karypis, G.; Konstan, J.; Riedl, J. (2000), Application of Dimensionality Reduction in Recommender System A Case Study.
- ^ R. Bell, Y. Koren, C. Volinsky (2007年). “"The BellKor solution to the Netflix Prize"”. 2009年5月27日閲覧。
参考文献
[編集]- Hangartner, Rick, "What is the Recommender Industry?", MSearchGroove, December 17, 2007.
- Robert M. Bell, Jim Bennett, Yehuda Koren, and Chris Volinsky (May 2009). “The Million Dollar Programming Prize”. IEEE Spectrum. 2009年5月27日閲覧。
- 有賀 康顕, 中山 心太, 西林 孝、2018年1月15日、『仕事ではじめる機械学習』、オライリー ISBN 978-4-87311-825-3
外部リンク
[編集]- Collection of research papers
- Content-Boosted Collaborative Filtering for Improved Recommendations. Prem Melville, Raymond J. Mooney, and Ramadass Nagarajan
- Methods and Metrics for Cold-Start Recommendations (PDF, 126 KiB)