「予測分析」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
読みやすさの改善
タグ: サイズの大幅な増減 ビジュアルエディター
14行目: 14行目:


予測分析は、多くの場合、より詳細なレベルで予測すること、つまり、個々の組織要素ごとに予測スコア(確率)を生成することとして定義される。予測分析は、[[予測]]と区別している。たとえば、「予測分析 - 経験(データ)から学習して、より良い意思決定を推進するために、個人の将来の行動を予測するテクノロジー」などである<ref>{{Cite book|last=Siegel|first=Eric|title=Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die|date=2013|publisher=Wiley|isbn=978-1-1183-5685-2|edition=1st}}</ref>。 将来の産業システムでは、予測分析の価値は、潜在的な問題を予測および未然に防ぎ、ほぼゼロの故障を実現し、さらに意思決定の最適化のために{{仮リンク|処方的分析|en|Prescriptive analytics|label=}}に統合することである{{要出典|date=August 2016}}。
予測分析は、多くの場合、より詳細なレベルで予測すること、つまり、個々の組織要素ごとに予測スコア(確率)を生成することとして定義される。予測分析は、[[予測]]と区別している。たとえば、「予測分析 - 経験(データ)から学習して、より良い意思決定を推進するために、個人の将来の行動を予測するテクノロジー」などである<ref>{{Cite book|last=Siegel|first=Eric|title=Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die|date=2013|publisher=Wiley|isbn=978-1-1183-5685-2|edition=1st}}</ref>。 将来の産業システムでは、予測分析の価値は、潜在的な問題を予測および未然に防ぎ、ほぼゼロの故障を実現し、さらに意思決定の最適化のために{{仮リンク|処方的分析|en|Prescriptive analytics|label=}}に統合することである{{要出典|date=August 2016}}。

== 種類 ==
一般的に、予測分析という用語は、{{仮リンク|予測モデリング|en|Predictive modelling|label=}}、予測モデルによるデータの「スコアリング」、[[予測]]を意味するために使用されている。しかし、最近では、記述的モデリングや意思決定モデリング、最適化などの関連する分析分野を指すためにこの用語を使用する人が増えている。これらの分野には厳密なデータ分析も含まれており、ビジネスではセグメンテーションや意思決定のために広く使用されているが、目的は異なり、その基礎となる統計的手法も異なる。

=== 予測モデル ===
{{仮リンク|予測モデリング|en|Predictive modelling|label=}}では、予測モデル(predictive models)を使用して、サンプル内の個体がもつ特定のパフォーマンス(性能)と、その個体の1つ以上の既知の属性または特徴との間の関係を分析する。モデルの目的は、異なるサンプル内の類似した個体が特定のパフォーマンスを示す可能性を評価することである。このカテゴリには、顧客パフォーマンスに関する質問に答えるために微妙なデータパターンを探し出すマーケティングや、不正検出モデルなど、多くの分野のモデルが含まれる。予測モデルは、例えば、ある顧客や取引のリスクや機会を評価し、意思決定の指針とするために、取引が進行中に計算を実行することがよくある。計算速度の進歩に伴い、個々のエージェントモデリングシステムは、与えられた刺激またはシナリオに対する人間の行動や反応をシミュレートすることができるようになった。

既知の属性と既知のパフォーマンスを持つ利用可能なサンプル個体は、「トレーニングサンプル」と呼ばれる。その他のサンプル個体のうち、属性は既知であるがパフォーマンスが不明なものは、「(トレーニング)サンプル外」個体と呼ばれている。サンプル外個体は、必ずしもトレーニングサンプル個体と時系列的な関係を持つとは限らない。例えば、トレーニングサンプルは、既知の属性を持つヴィクトリア朝の作家による著作物の文学的属性で構成されていてもよく、サンプル外個体は、新たに発見された作家不明の著作物であってもよい。予測モデルは、著作物を既知の作家に帰属させるのに役立つかもしれない。別の例として、犯罪現場における擬似血痕分析が挙げられ、この場合、サンプル外個体は犯罪現場からの実際の血痕パターンである。サンプル外個体は、トレーニング個体と同じ時間、以前の時間、または未来の時間からのものであってもよい。

=== 記述的モデル ===
記述的モデル(descriptive model)は、顧客や見込み客をグループに分類するためによく使用される方法で、データ内の関係性を定量化する。単一の顧客の行動(信用リスクなど)を予測することに焦点を当てた予測モデルとは異なり、記述的モデルは、顧客または製品間の多くの異なる関係を識別する。記述的モデルは、予測モデルのように、特定の行動を取る可能性によって顧客をランク付けることをしない。その代わりに、記述的モデルを使用して、製品の好みやライフステージによって顧客を分類することができる。記述的モデリングツールを使用して、多数の個別化された顧客をシミュレートして予測を行うモデルを開発できる。

=== 意思決定モデル ===
{{Main|en:Decision model}}{{仮リンク|意思決定モデル|en|Decision model|label=}}(decision model)は、多くの変数を含む意思決定の結果を予測するために、意思決定のすべての要素(すなわち、既知のデータ(予測モデルの結果を含む)、意思決定、および意思決定の予測結果)の間の関係を記述する。これらのモデルは最適化に使用され、特定の結果を最大化しながら他の結果を最小化できる。一般的に、意思決定モデルは、あらゆる顧客や状況に対して望ましい行動を生み出す意思決定ロジックまたは一連のビジネスルールを開発するために使用される。

== アプリケーション ==
予測分析は多くのアプリケーションで活用することができるが、予測分析が近年、好影響を与えているいくつかの例を概説する。

=== ビジネス ===
分析的な[[顧客関係管理]](CRM)は、予測分析がさかんな商用アプリケーションである。予測分析の方法を顧客データに適用して、顧客の全体像を構築するす。CRMは、マーケティングキャンペーン、販売、および顧客サービスのアプリケーションで予測分析を使用している。分析的なCRMは、{{仮リンク|顧客ライフサイクルマネジメント|en|Customer lifecycle management|label=顧客ライフサイクル}}({{仮リンク|顧客獲得マネジメント|en|Customer acquisition management|label=獲得}}、{{仮リンク|クロス・セリング|en|Cross-selling|label=}}、[[顧客維持|維持]]、および奪還)全体に適用できる。

多くの場合、企業組織は{{仮リンク|業務記録|en|Business record|label=}}や販売取引などの豊富なデータを収集し、維持している。このような場合、予測分析は、顧客の支出や利用状況、その他の行動を分析するのに役立ち、効率的な{{仮リンク|クロス・セリング|en|Cross-selling|label=クロス・セールス}}や、既存顧客への追加製品の販売につながる<ref name="Eckerson2">{{citation|last=Eckerson|first=Wayne|title=Extending the Value of Your Data Warehousing Investment|url=http://tdwi.org/articles/2007/05/10/predictive-analytics.aspx?sc_lang=en|publisher=The Data Warehouse Institute|date=May 10, 2007}}</ref>。

予測分析を適切に適用することで、より積極的で効果的な顧客維持戦略につながる。顧客の過去のサービス利用、サービス成績、支払、その他の行動パターンを頻繁に調査することで、予測モデルは顧客がいつかサービスを終了する可能性を判断することができる<ref name="Barkin2">{{citation|last=Barkin|first=Eric|title=CRM + Predictive Analytics: Why It All Adds Up|url=http://www.destinationcrm.com/Articles/Editorial/Magazine-Features/CRM---Predictive-Analytics-Why-It-All-Adds-Up-74700.aspx|magazine=Destination CRM|date=May 2011}}</ref>。感性価値が高いオファーを介入することで、顧客を転換させたり、顧客を維持する可能性を高めることができる。予測分析では、サイレント・アトリション(顧客がゆっくりと、しかし着実に利用を減らす行動)を予測することもできる。

=== 児童保護 ===
いくつかの児童福祉機関では、予測分析ツールを使用して、高リスクの問題にフラグを立て始めている<ref>{{Cite web|url=https://chronicleofsocialchange.org/blogger-co-op/new-strategies-long-overdue-measuring-child-welfare-risk/15442|title=New Strategies Long Overdue on Measuring Child Welfare Risk - The Chronicle of Social Change|website=The Chronicle of Social Change|language=en-US|access-date=2016-04-04|date=2016-02-03}}</ref>。例えば、米国フロリダ州のヒルズボロ郡では、児童福祉機関が予測モデリングツールを使用することで、対象集団における虐待に関連した児童の死亡を防ぐことができた<ref>{{Cite web|url=https://www.acf.hhs.gov/sites/default/files/cb/cecanf_final_report.pdf|title=A National Strategy to Eliminate Child Abuse and Neglect Fatalities|publisher=Commission to Eliminate Child Abuse and Neglect Fatalities. (2016)|access-date=April 14, 2018}}</ref>。

=== 臨床意思決定支援システム ===
予測分析は、主に糖尿病、喘息、心臓病などの疾患を発症するリスクのある患者を決定するために医療で使用されている。さらに、高度な{{仮リンク|臨床意思決定支援システム|en|Clinical decision support system|label=}}には、医学的意思決定を支援するための予測分析が組み込まれている。

[[神経変性疾患]]に関する2016年の研究では、[[パーキンソン病]]の診断、追跡、予測、進行を監視するためのCDSプラットフォームの強力な例が示されている<ref>{{Cite journal|last1=Dinov|first1=Ivo D.|last2=Heavner|first2=Ben|last3=Tang|first3=Ming|last4=Glusman|first4=Gustavo|last5=Chard|first5=Kyle|last6=Darcy|first6=Mike|last7=Madduri|first7=Ravi|last8=Pa|first8=Judy|last9=Spino|first9=Cathie|year=2016|title=Predictive Big Data Analytics: A Study of Parkinson's Disease using Large, Complex, Heterogeneous, Incongruent, Multi-source and Incomplete Observations|journal=PLOS ONE|volume=11|issue=8|page=e0157077|bibcode=2016PLoSO..1157077D|doi=10.1371/journal.pone.0157077|pmid=27494614|pmc=4975403|first17=Leroy|first16=Kristi|last17=Hood|first19=William|last18=Hampstead|first18=Benjamin M.|last19=Dauer|first15=Joseph|last20=Toga|last16=Clark|first13=Nathan D.|last15=Ames|first14=John D.|last14=Van Horn|last13=Price|first12=Eric W.|last12=Deutsch|first11=Ian|last11=Foster|first10=Carl|last10=Kesselman|first20=Arthur W.}}</ref>。

=== 法的意思決定の結果の予測 ===
[[法系の一覧|司法決定]]の結果の予測は、AIプログラムによって行うことができる。これらのプログラムは、この業界の専門職のための支援ツールとして使用できる<ref>[https://peerj.com/articles/cs-93/ Predicting judicial decisions of the European Court of Human Rights: a Natural Language Processing perspective]</ref><ref>[https://www.ucl.ac.uk/news/2016/oct/ai-predicts-outcomes-human-rights-trials AI predicts outcomes of human rights trials]</ref>。

=== ポートフォリオ、製品、経済レベルでの予測 ===
多くの場合、分析の焦点は消費者ではなく、製品、ポートフォリオ、企業、業界、さらには経済にある。たとえば、小売業者は、在庫管理のために店舗レベルの需要を予測することに関心がある場合がある。あるいは、連邦準備制度理事会は、来年の失業率を予測することに興味を持つかもしれない。これらのタイプの問題は、時系列技術を使用した予測分析で対処できる(下記参照)。また、元の時系列を特徴ベクトル空間に変換し、学習アルゴリズムが予測力を持つパターンを見つけ出す機械学習アプローチでも対応できる<ref>{{cite journal|last=Dhar|first=Vasant|date=April 2011|title=Prediction in Financial Markets: The Case for Small Disjuncts|journal=ACM Transactions on Intelligent Systems and Technology|volume=2|issue=3|doi=10.1145/1961189.1961191|s2cid=11213278}}</ref><ref>{{cite journal|last=Dhar|first=Vasant|date=October 2000|title=Discovering Interesting Patterns in Investment Decision Making with GLOWER – A Genetic Learning Algorithm Overlaid With Entropy Reduction|url=http://dl.acm.org/citation.cfm?id=593502|journal=Data Mining and Knowledge Discovery|volume=4|issue=4|pages=251–280|doi=10.1023/A:1009848126475|author2=Chou, Dashin|author3=Provost Foster|s2cid=1982544}}</ref>。

=== 引受業務 ===
多くの企業では、さまざまなサービスのためにリスク引き受けを考慮し、リスクをカバーするために必要なコストを決定する必要がある。予測分析は、病気、[[債務不履行]]、[[破産]]などの可能性を予測することで、これらのリスクを[[引受|引き受ける]]のに役立つ。予測分析は、アプリケーションレベルのデータを使用して顧客の将来のリスク行動を予測することで、顧客獲得のプロセスを合理化できる<ref name="Conz2">{{citation|last=Conz|first=Nathan|title=Insurers Shift to Customer-focused Predictive Analytics Technologies|url=http://www.insurancetech.com/business-intelligence/210600271|magazine=Insurance & Technology|date=September 2, 2008|access-date=July 2, 2012|archive-url=https://web.archive.org/web/20120722013733/http://www.insurancetech.com/business-intelligence/210600271|archive-date=July 22, 2012|url-status=dead}}</ref>。クレジットスコアの形での予測分析により、特に住宅ローン市場において、ローン承認にかかる時間を短縮した。適切な予測分析は適切な価格決定につながり、将来の債務不履行リスクを軽減することができる。


== テクノロジーとビッグデータの影響 ==
== テクノロジーとビッグデータの影響 ==
[[ビッグデータ]]は、従来の[[データベース|データベース管理]]ツールを使用して作業するのが困難になるほど大規模で複雑なデータセットの集合体である。ビッグデータを扱う上で、その量、多様性、速度の観点から、獲得、保存、検索、共有、分析、および視覚化に関してさまざまな課題をもたらした。ビッグデータの情報源の例には、 [[ブログ|Webログ]]、 [[RFID]] 、[[センサネットワーク|センサー]]データ、[[社会的ネットワーク|ソーシャルネットワーク]]、インターネット検索インデックス、通話詳細記録、軍事監視、天文科学、生物地球化学、ゲノミクス、大気科学などの複雑なデータがある。ビッグデータは、IT組織が提供するほとんどの予測分析サービスの中核をなしている<ref>http://www.hcltech.com/sites/default/files/key_to_monetizing_big_data_via_predictive_analytics.pdf</ref>。 コンピューター・ハードウェアの技術的進歩(より高速なCPU、より安価なメモリ、 [[超並列マシン|MPP]]アーキテクチャ)と、ビッグデータを処理するための分散処理(例:[[Apache Hadoop|Hadoop]] 、 [[MapReduce]])、データベース内分析および[[テキストマイニング|テキスト分析]]などの新技術のおかげで、構造化データと[[非構造化データ]]<ref name="Schiff">{{Citation|last=Schiff|first1=Mike|title=BI Experts: Why Predictive Analytics Will Continue to Grow|date=March 6, 2012|url=http://tdwi.org/Articles/2012/03/06/Predictive-Analytics-Growth.aspx?Page=1|publisher=The Data Warehouse Institute}}</ref>を大量に収集、分析、マイニングして新たな洞察を得ることが可能になった。 ストリーミングデータに対して予測アルゴリズムを実行することも可能である<ref>{{Cite web|url=http://www.win.tue.nl/~mpechen/publications/pubs/PA_EDS_HPCS15.pdf|title=Predictive Analytics on Evolving Data Streams|accessdate=2020-12-21}}</ref>。 今日では、ビッグデータの探索と予測分析の使用は、これまでになく多くの組織の手の届くところにあり、そのようなデータセットを処理できる新しい方法が提案されている<ref>{{Cite journal|last=Ben-Gal I. Dana A.|last2=Shkolnik N. and Singer|year=2014|title=Efficient Construction of Decision Trees by the Dual Information Distance Method|url=http://www.eng.tau.ac.il/~bengal/DID.pdf|publisher=Quality Technology & Quantitative Management (QTQM), 11(1), 133-147}}</ref><ref>{{Cite journal|last=Ben-Gal I.|last2=Shavitt Y.|last3=Weinsberg E.|last4=Weinsberg U.|year=2014|title=Peer-to-peer information retrieval using shared-content clustering|url=http://www.eng.tau.ac.il/~bengal/genre_statistics.pdf|journal=Knowl Inf Syst|volume=39|issue=2|pages=383–408|DOI=10.1007/s10115-013-0619-9}}</ref>。
[[ビッグデータ]]は、従来の[[データベース|データベース管理]]ツールを使用して作業するのが困難になるほど大規模で複雑なデータセットの集合体である。ビッグデータを扱う上で、その量、多様性、速度の観点から、獲得、保存、検索、共有、分析、および視覚化に関してさまざまな課題をもたらした。ビッグデータの情報源の例には、 [[ブログ|Webログ]]、 [[RFID]] 、[[センサネットワーク|センサー]]データ、[[社会的ネットワーク|ソーシャルネットワーク]]、インターネット検索インデックス、通話詳細記録、軍事監視、天文科学、生物地球化学、ゲノミクス、大気科学などの複雑なデータがある。ビッグデータは、IT組織が提供するほとんどの予測分析サービスの中核をなしている<ref>http://www.hcltech.com/sites/default/files/key_to_monetizing_big_data_via_predictive_analytics.pdf</ref>。 コンピューター・ハードウェアの技術的進歩(より高速なCPU、より安価なメモリ、 [[超並列マシン|MPP]]アーキテクチャ)と、ビッグデータを処理するための分散処理(例:[[Apache Hadoop|Hadoop]] 、 [[MapReduce]])、データベース内分析および[[テキストマイニング|テキスト分析]]などの新技術のおかげで、構造化データと[[非構造化データ]]<ref name="Schiff">{{Citation|last=Schiff|first1=Mike|title=BI Experts: Why Predictive Analytics Will Continue to Grow|date=March 6, 2012|url=http://tdwi.org/Articles/2012/03/06/Predictive-Analytics-Growth.aspx?Page=1|publisher=The Data Warehouse Institute}}</ref>を大量に収集、分析、マイニングして新たな洞察を得ることが可能になった。 ストリーミングデータに対して予測アルゴリズムを実行することも可能である<ref>{{Cite web|url=http://www.win.tue.nl/~mpechen/publications/pubs/PA_EDS_HPCS15.pdf|title=Predictive Analytics on Evolving Data Streams|accessdate=2020-12-21}}</ref>。 今日では、ビッグデータの探索と予測分析の使用は、これまでになく多くの組織の手の届くところにあり、そのようなデータセットを処理できる新しい方法が提案されている<ref>{{Cite journal|last=Ben-Gal I. Dana A.|last2=Shkolnik N. and Singer|year=2014|title=Efficient Construction of Decision Trees by the Dual Information Distance Method|url=http://www.eng.tau.ac.il/~bengal/DID.pdf|publisher=Quality Technology & Quantitative Management (QTQM), 11(1), 133-147}}</ref><ref>{{Cite journal|last=Ben-Gal I.|last2=Shavitt Y.|last3=Weinsberg E.|last4=Weinsberg U.|year=2014|title=Peer-to-peer information retrieval using shared-content clustering|url=http://www.eng.tau.ac.il/~bengal/genre_statistics.pdf|journal=Knowl Inf Syst|volume=39|issue=2|pages=383–408|DOI=10.1007/s10115-013-0619-9}}</ref>。

== 分析手法 ==
予測分析を行うために使用されるアプローチと手法は、大きく分けて回帰手法と機械学習手法に分類できる。

=== 回帰手法 ===
[[回帰モデル]]は、予測分析の主役である。焦点は、考慮されている異なる変数間の相互作用を表現するモデルとして数式を確立することにある。状況に応じて、予測分析を実行しながら適用できるさまざまなモデルがある。そのうちのいくつかを以下に簡単に説明する。

==== 線形回帰モデル ====
[[線形回帰|線形回帰モデル]]は、未知の係数を持つパラメータの線形関数として応答変数を予測する。これらのパラメータは、適合度が最適化されるように調整さる。モデル・フィッティングの取り組みの多くは、残差の大きさを最小化することと、モデルの予測値に対してランダムに分布していることを保証することに焦点を当てている。

回帰の目的は、残差2乗和を最小化するようにモデルのパラメータを選択することである。これは通常の[[最小二乗法]](OLS)推定と呼ばれる。

==== 離散選択モデル ====
重回帰(上記)は、一般的に、応答変数が連続的で、範囲に制限がない場合に使用される。多くの場合、応答変数は連続ではなく、むしろ離散である。数学的には、離散的に順序づけられた従属変数に重回帰を適用することは可能であるが、重回帰の理論の背後にある仮定のいくつかはもはや成り立たず、このタイプの分析により適した離散選択モデルのような他の手法がある。従属変数が離散的な場合、それらの優れた手法のいくつかは、[[ロジスティック回帰]]、{{仮リンク|多項ロジット|en|Multinomial logistic regression|label=}}、および[[プロビット]]・モデルである。ロジスティック回帰とプロビット・モデルは、従属変数が[[二進法|二値]]の場合に使用される。

==== ロジスティック回帰 ====
{{Main|ロジスティック回帰}}分類の設定では、観測結果を結果確率に割り当てるには、ロジスティック・モデル(ロジック・モデルとも呼ばれる)を使用する。ロジスティック・モデルは、バイナリ従属変数に関する情報を、無制限の連続変数に変換し、通常の多変量モデルを推定する。

{{仮リンク|ワルド検定|en|Wald test|label=}}と[[尤度比検定]]は、モデル内の各係数''b''の統計的有意性を検定するために使用される(OLS回帰で使用される[[t検定]]に類似している。上記参照)。分類モデルの適合度を評価する検定は、「正しく予測されたパーセンテージ」である。

==== プロビット回帰 ====
{{仮リンク|プロビット・モデル|en|Probit model|label=}}は、カテゴリー型の従属変数をモデル化するためのロジスティック回帰の代替手段を提供する。

==== 多項ロジスティック回帰 ====
従属変数が2つ以上のカテゴリを持つ場合に対する{{仮リンク|二項ロジットモデル|ja|ロジスティック回帰#応用|label=}}の拡張は、多項ロジット・モデルである。このような場合、データを2つのカテゴリにまとめても意味がないか、データの豊富さが失われる可能性がある。{{仮リンク|多項ロジット・モデル|en|Multinomial logit model|label=}}は、特に従属変数のカテゴリが順序付けられていない場合(例えば、赤、青、緑のような色)に適切な手法である。一部の著者らは、{{仮リンク|ランダム多項ロジット|en|Random forest#Variants|label=}}のような特徴選択/重要度法を含むように多項回帰を拡張した。

==== ロジット対プロビット ====
2つの回帰は、[[ロジスティック分布]]がわずかに平坦になる傾向があることを除いて、同様にふるまう傾向がある。ロジット・モデルとプロビット・モデルから得られる係数は、通常、互いに接近している。しかし、[[オッズ比]]は、ロジット・モデルで解釈する方が簡単である。

ロジスティック・モデルよりもプロビット・モデルを選択する実際的な理由としては、次のようなものがある。

* 基礎となる分布が正規分布であるという強い信念がある
* 実際のイベントは、二値的な結果(破産状況など)ではなく、割合(債務レベルが異なる人口の割合など)である。

==== 時系列モデル ====
[[時系列]]モデルは、変数の将来のふるまいを予想または予測するために使用される。これらのモデルは、時間の経過とともに取得されたデータ・ポイントが、考慮すべき内部構造(自己相関、傾向、季節変動など)を持つ可能性があるという事実を説明している。その結果、標準的な回帰手法は時系列データに適用できず、時系列の傾向、季節的、周期的な要素を分解するための方法論が開発されてきた。

時系列モデルは、確率的な成分を含む差分方程式を推定する。これらのモデルの一般的に使用される2つの形式は、[[自己回帰モデル]](AR)と{{仮リンク|移動平均モデル|en|Moving-average model|label=}}(MA)である。{{仮リンク|ボックス・ジェンキンス法|en|Box–Jenkins method|label=}}法は、ARモデルとMAモデルを組み合わせて、定常時系列分析の基礎となるARMA([[自己回帰移動平均モデル|自己回帰移動平均]])モデルを生成する。一方、ARIMA({{仮リンク|自己回帰和分移動平均|en|Autoregressive integrated moving average|label=}})モデルは、非定常時系列を記述するために用いられる。

近年、時系列モデルはより洗練され、条件付き不等分散性をモデル化しようとする試みがなされている。このようなモデルには、ARCH([[ARCHモデル|分散自己回帰]])モデルやGARCH([[GARCHモデル|一般化ARCH]])モデルがあり、どちらも金融時系列によく用いられる。

==== 生存または持続時間分析 ====
[[生存率曲線|生存分析]]は、時間対事象分析の別称である。主に医学や生物学の分野で開発された手法であるが、工学だけでなく経済学などの社会科学分野でも広く利用されている。

生存データの特徴である打ち切りや非正規性は、[[重回帰分析|重回帰]]などの従来の統計モデルを用いてデータを解析しようとすると困難を生じる。[[正規分布]]は対称分布であるため正の値と負の値を取るが、持続時間はその性質上負の値を取ることができず、持続時間/生存データを扱うとき正規性を仮定することができない。

持続時間モデルには、パラメトリック、ノンパラメトリック、セミパラメトリックがある。一般的に使用されるモデルには、{{仮リンク|カプラン・マイヤー|en|Kaplan-Meier|label=}}やコックス比例ハザードモデル(ノンパラメトリック)がある。

==== 分類木と回帰木(CART) ====
{{main|en:Decision tree learning}}分類木と回帰木(CART)は、[[ノンパラメトリック手法|ノンパラメトリック]]な{{仮リンク|決定木学習|en|Decision tree learning|label=}}手法であり、従属変数がカテゴリ型か数値型かに応じて、それぞれ分類木と回帰木のどちらかを生成する。

[[決定木]]は、モデリングデータセット内の変数に基づくルールの集合によって形成される。

* 変数の値に基づくルールは、従属変数に基づいて観測値を区別するための最良の分割を得るために選択される。
* ルールが選択されてノードが2つに分割されると、同じ処理が各「子」ノードに適用される(つまり、再帰的な手続きである)。
* 分割は、CARTがこれ以上のゲイン(利得)を得られないと判断した場合や、あらかじめ設定された停止ルールが満たされた場合に停止する。(あるいは、可能な限りデータを分割してから、後から{{仮リンク|決定木の剪定|en|Decision tree pruning|label=木を剪定}}するという方法もある)。

木の各枝は末端ノードで終わる。各観測値は1つの端末ノードに該当し、各末端ノードは一連の規則によって一意に定義される。

予測分析のための非常に一般的な手法は、[[ランダムフォレスト]]である。

==== 多変量適応回帰スプライン ====
{{仮リンク|多変量適応回帰スプライン|en|Multivariate adaptive regression spline|label=}}(MARS)は、[[区分的]][[線形回帰]]を適合させることで柔軟なモデルを構築する[[ノンパラメトリック手法|ノンパラメトリック]]手法である。

多変量適応回帰スプライン法は、モデルを意図的に[[過剰適合|オーバーフィット]]させ、最適なモデルを得るために剪定する。このアルゴリズムは計算量が非常に多く、実際には基底関数の数に上限が指定されている。

=== 機械学習技術 ===
[[機械学習]]には、回帰や分類のための高度な統計的手法が多数含まれており、[[医療診断]]、{{仮リンク|クレジットカード不正|en|Credit card fraud|label=}}検知、[[顔認識システム|顔]]や[[音声認識|音声]]の認識、[[株式市場]]の分析など、さまざまな分野で応用されている。{{main|Machine learning#Models}}

== ツール ==
歴史的に、予測分析ツールを使用すること、およびその結果を理解することには、高度なスキルが必要であった。しかし、最新の予測分析ツールはIT専門家だけのものではなくなった{{citation needed|date=March 2014}}。予測分析を意思決定プロセスに採用し、業務に統合する組織が増えるにつれ、情報の主な消費者はビジネスユーザーへと市場がシフトしている。ビジネスユーザーは、自分で使えるツールを求めている。ベンダーは、数学的な複雑さを取り除き、ユーザーフレンドリーなグラフィックインターフェースを提供したり、利用可能なデータの種類を認識して適切な予測モデルを提案できるショートカット(近道)を構築する新しいソフトウェアを開発することで対応している<ref name="Halper">{{citation|last=Halper|first=Fern|title=The Top 5 Trends in Predictive Analytics|url=http://www.information-management.com/issues/21_6/the-top-5-trends-in-redictive-an-alytics-10021460-1.html|magazine=Information Management|date=November 1, 2011}}</ref>。予測分析ツールは、データの問題を適切に提示して分解できるほど洗練されているので{{citation needed|date=March 2014}}、データに精通した情報活用者はデータを分析して意味のある有用な結果を取得できる<ref name="Eckerson3">{{citation|last=Eckerson|first=Wayne|title=Extending the Value of Your Data Warehousing Investment|url=http://tdwi.org/articles/2007/05/10/predictive-analytics.aspx?sc_lang=en|publisher=The Data Warehouse Institute|date=May 10, 2007}}</ref>。たとえば、最新のツールでは、考えられる結果の可能性を示すシンプルなチャート、グラフ、スコアを使って所見を提示する<ref>{{citation|last=MacLennan|first=Jamie|title=5 Myths about Predictive Analytics|url=http://tdwi.org/articles/2012/05/01/5-predictive-analytics-myths.aspx|publisher=The Data Warehouse Institute|date=May 1, 2012}}</ref>。

市場には、予測分析の実行に役立つツールが多数ある。これらのツールは、ユーザーの高度な知識をほとんど必要としないものから、専門家向けに設計されたものまでさまざまである。これらのツールの違いは、多くの場合、カスタマイズのレベルと、許容されるデータ量の大きさにある。

=== PMML ===
予測モデルを表現するための標準言語として、{{仮リンク|予測モデルマークアップ言語|en|Predictive Model Markup Language|label=}}(PMML)が提案された。このようなXMLベースの言語は、さまざまなツールが予測モデルを定義し、それを共有するための方法を提供する。PMML 4.0は2009年6月にリリースされた。

== 批判 ==
ハーバード大学の教授で、定量的社会科学研究所所長の{{仮リンク|ゲイリー・キング (政治学者)|en|Gary King (political scientist)|label=ゲイリー・キング}}氏をはじめ、コンピュータやアルゴリズムが未来を予測する能力には懐疑的な意見が多い<ref>{{citation|last=Temple-Raston|first=Dina|title=Predicting The Future: Fantasy Or A Good Algorithm?|url=https://www.npr.org/2012/10/08/162397787/predicting-the-future-fantasy-or-a-good-algorithm|publisher=NPR|date=Oct 8, 2012}}</ref>。人は無数の方法で環境から影響を受けている。人々が次に何をするかを完全に予測するには、影響力のあるすべての変数を知り、正確に測定する必要がある。「人々の環境は、彼ら自身よりもさらに急速に変化する。天候から母親との関係まで、すべてが人の考え方や行動を変える可能性がある。これらの変数はすべて予測できない。それらが人にどのような影響を与えるかは、さらに予測不可能である。明日全く同じ状況に置かれた場合、彼らは全く異なる決断を下すかもしれない。これは、統計的予測が無菌の実験室条件でのみ有効であることを意味し、突然、以前のようには役に立たなくなってしまうことを意味している。<ref>{{citation|last=Alverson|first=Cameron|title=Polling and Statistical Models Can't Predict the Future|url=http://www.cameronalverson.com/2012/09/polling-and-statistical-models-cant.html|publisher=Cameron Alverson|date=Sep 2012}}</ref>」

1990年から2006年の間に『Information Systems Research』と『MIS Quarterly』に掲載された1072本の論文を調査したところ、予測的な主張を試みた経験的な論文は52本のみで、そのうち適切な予測モデリングやテストを実施したのは7本のみであった<ref>{{Cite journal|last=Shmueli|first=Galit|author-link=Galit Shmueli|date=2010-08-01|title=To Explain or to Predict?|journal=Statistical Science|volume=25|issue=3|pages=289–310|language=EN|arxiv=1101.0891|doi=10.1214/10-STS330|issn=0883-4237|s2cid=15900983}}</ref>。


== 関連項目 ==
== 関連項目 ==

2021年2月10日 (水) 07:52時点における版

予測分析 (よそくぶんせき、: predictive analytics)は、データマイニング予測的モデリング英語版機械学習などのさまざまな統計手法を包含しており、現在および過去の事実を分析して、将来または未知のイベント(事象)について予測を行う[1][2]

ビジネスにおいては、予測モデルは、履歴データや取引データに見られるパターンを利用して、リスクと機会を特定する。予測モデルは、多くの要因間の関係を把握することで、特定の条件集合に関連したリスクや可能性の評価を可能にし、取引候補の意思決定を導く[3]

これらの技術的アプローチの定義的な効果のねらいは、マーケティング、信用リスク評価、不正検出、製造、ヘルスケア、法執行機関を含む政府の業務など、多数の個人にまたがる組織プロセスを決定、情報提供、影響を与えるために、予測分析が各個体(顧客、従業員、医療患者、製品SKU、車両、コンポーネント、機械、またはその他の組織単位)に対して予測スコア(確率)を提供することである。

予測分析は、保険数理[4]マーケティング[5]経営管理、スポーツ/ファンタジースポーツ[6]保険電気通信[7]小売[8]旅行[9]経済的流動性英語版[10]ヘルスケア[11]児童保護[12][13]医薬品[14]キャパシティプランニング英語版[15]ソーシャルネットワーキング[16]などの分野で使用される。

最もよく知られている応用例の1つは、ビジネス管理全体で使用されるクレジットスコアリング英語版[1]である。スコアリングモデルは、顧客の信用履歴ローン申請、顧客データなどを処理して、将来のクレジット支払いを予定どおりに行う可能性によって個人をランク付けする。

定義

予測分析は、データから情報を抽出し、それを使用して傾向と行動パターンを予測することを扱う統計学の一分野である。予測Web分析の強化により、オンラインで将来のイベントの統計的確率が計算される。予測分析の統計手法には、データモデリング機械学習人工知能(AI)深層学習アルゴリズム、データマイニングが含まれる[17]。 多くの場合、関心のある未知のイベントは将来のものだが、予測分析は、過去、現在、または未来のあらゆるタイプの未知のものに適用できる。たとえば、犯罪が犯された後に容疑者を特定したり、クレジットカード詐欺の発生である[18]。 予測分析の中核は、過去の発生から説明変数と予測変数との間の関係を把握し、それらを利用して未知の結果を予測することに依存する。ただし、結果の精度と使いやすさは、データ分析のレベルと仮定の質に大きく依存することに注意することが重要である。

予測分析は、多くの場合、より詳細なレベルで予測すること、つまり、個々の組織要素ごとに予測スコア(確率)を生成することとして定義される。予測分析は、予測と区別している。たとえば、「予測分析 - 経験(データ)から学習して、より良い意思決定を推進するために、個人の将来の行動を予測するテクノロジー」などである[19]。 将来の産業システムでは、予測分析の価値は、潜在的な問題を予測および未然に防ぎ、ほぼゼロの故障を実現し、さらに意思決定の最適化のために処方的分析英語版に統合することである[要出典]

種類

一般的に、予測分析という用語は、予測モデリング英語版、予測モデルによるデータの「スコアリング」、予測を意味するために使用されている。しかし、最近では、記述的モデリングや意思決定モデリング、最適化などの関連する分析分野を指すためにこの用語を使用する人が増えている。これらの分野には厳密なデータ分析も含まれており、ビジネスではセグメンテーションや意思決定のために広く使用されているが、目的は異なり、その基礎となる統計的手法も異なる。

予測モデル

予測モデリング英語版では、予測モデル(predictive models)を使用して、サンプル内の個体がもつ特定のパフォーマンス(性能)と、その個体の1つ以上の既知の属性または特徴との間の関係を分析する。モデルの目的は、異なるサンプル内の類似した個体が特定のパフォーマンスを示す可能性を評価することである。このカテゴリには、顧客パフォーマンスに関する質問に答えるために微妙なデータパターンを探し出すマーケティングや、不正検出モデルなど、多くの分野のモデルが含まれる。予測モデルは、例えば、ある顧客や取引のリスクや機会を評価し、意思決定の指針とするために、取引が進行中に計算を実行することがよくある。計算速度の進歩に伴い、個々のエージェントモデリングシステムは、与えられた刺激またはシナリオに対する人間の行動や反応をシミュレートすることができるようになった。

既知の属性と既知のパフォーマンスを持つ利用可能なサンプル個体は、「トレーニングサンプル」と呼ばれる。その他のサンプル個体のうち、属性は既知であるがパフォーマンスが不明なものは、「(トレーニング)サンプル外」個体と呼ばれている。サンプル外個体は、必ずしもトレーニングサンプル個体と時系列的な関係を持つとは限らない。例えば、トレーニングサンプルは、既知の属性を持つヴィクトリア朝の作家による著作物の文学的属性で構成されていてもよく、サンプル外個体は、新たに発見された作家不明の著作物であってもよい。予測モデルは、著作物を既知の作家に帰属させるのに役立つかもしれない。別の例として、犯罪現場における擬似血痕分析が挙げられ、この場合、サンプル外個体は犯罪現場からの実際の血痕パターンである。サンプル外個体は、トレーニング個体と同じ時間、以前の時間、または未来の時間からのものであってもよい。

記述的モデル

記述的モデル(descriptive model)は、顧客や見込み客をグループに分類するためによく使用される方法で、データ内の関係性を定量化する。単一の顧客の行動(信用リスクなど)を予測することに焦点を当てた予測モデルとは異なり、記述的モデルは、顧客または製品間の多くの異なる関係を識別する。記述的モデルは、予測モデルのように、特定の行動を取る可能性によって顧客をランク付けることをしない。その代わりに、記述的モデルを使用して、製品の好みやライフステージによって顧客を分類することができる。記述的モデリングツールを使用して、多数の個別化された顧客をシミュレートして予測を行うモデルを開発できる。

意思決定モデル

意思決定モデル英語版(decision model)は、多くの変数を含む意思決定の結果を予測するために、意思決定のすべての要素(すなわち、既知のデータ(予測モデルの結果を含む)、意思決定、および意思決定の予測結果)の間の関係を記述する。これらのモデルは最適化に使用され、特定の結果を最大化しながら他の結果を最小化できる。一般的に、意思決定モデルは、あらゆる顧客や状況に対して望ましい行動を生み出す意思決定ロジックまたは一連のビジネスルールを開発するために使用される。

アプリケーション

予測分析は多くのアプリケーションで活用することができるが、予測分析が近年、好影響を与えているいくつかの例を概説する。

ビジネス

分析的な顧客関係管理(CRM)は、予測分析がさかんな商用アプリケーションである。予測分析の方法を顧客データに適用して、顧客の全体像を構築するす。CRMは、マーケティングキャンペーン、販売、および顧客サービスのアプリケーションで予測分析を使用している。分析的なCRMは、顧客ライフサイクル英語版獲得英語版クロス・セリング英語版維持、および奪還)全体に適用できる。

多くの場合、企業組織は業務記録英語版や販売取引などの豊富なデータを収集し、維持している。このような場合、予測分析は、顧客の支出や利用状況、その他の行動を分析するのに役立ち、効率的なクロス・セールス英語版や、既存顧客への追加製品の販売につながる[20]

予測分析を適切に適用することで、より積極的で効果的な顧客維持戦略につながる。顧客の過去のサービス利用、サービス成績、支払、その他の行動パターンを頻繁に調査することで、予測モデルは顧客がいつかサービスを終了する可能性を判断することができる[21]。感性価値が高いオファーを介入することで、顧客を転換させたり、顧客を維持する可能性を高めることができる。予測分析では、サイレント・アトリション(顧客がゆっくりと、しかし着実に利用を減らす行動)を予測することもできる。

児童保護

いくつかの児童福祉機関では、予測分析ツールを使用して、高リスクの問題にフラグを立て始めている[22]。例えば、米国フロリダ州のヒルズボロ郡では、児童福祉機関が予測モデリングツールを使用することで、対象集団における虐待に関連した児童の死亡を防ぐことができた[23]

臨床意思決定支援システム

予測分析は、主に糖尿病、喘息、心臓病などの疾患を発症するリスクのある患者を決定するために医療で使用されている。さらに、高度な臨床意思決定支援システム英語版には、医学的意思決定を支援するための予測分析が組み込まれている。

神経変性疾患に関する2016年の研究では、パーキンソン病の診断、追跡、予測、進行を監視するためのCDSプラットフォームの強力な例が示されている[24]

法的意思決定の結果の予測

司法決定の結果の予測は、AIプログラムによって行うことができる。これらのプログラムは、この業界の専門職のための支援ツールとして使用できる[25][26]

ポートフォリオ、製品、経済レベルでの予測

多くの場合、分析の焦点は消費者ではなく、製品、ポートフォリオ、企業、業界、さらには経済にある。たとえば、小売業者は、在庫管理のために店舗レベルの需要を予測することに関心がある場合がある。あるいは、連邦準備制度理事会は、来年の失業率を予測することに興味を持つかもしれない。これらのタイプの問題は、時系列技術を使用した予測分析で対処できる(下記参照)。また、元の時系列を特徴ベクトル空間に変換し、学習アルゴリズムが予測力を持つパターンを見つけ出す機械学習アプローチでも対応できる[27][28]

引受業務

多くの企業では、さまざまなサービスのためにリスク引き受けを考慮し、リスクをカバーするために必要なコストを決定する必要がある。予測分析は、病気、債務不履行破産などの可能性を予測することで、これらのリスクを引き受けるのに役立つ。予測分析は、アプリケーションレベルのデータを使用して顧客の将来のリスク行動を予測することで、顧客獲得のプロセスを合理化できる[29]。クレジットスコアの形での予測分析により、特に住宅ローン市場において、ローン承認にかかる時間を短縮した。適切な予測分析は適切な価格決定につながり、将来の債務不履行リスクを軽減することができる。

テクノロジーとビッグデータの影響

ビッグデータは、従来のデータベース管理ツールを使用して作業するのが困難になるほど大規模で複雑なデータセットの集合体である。ビッグデータを扱う上で、その量、多様性、速度の観点から、獲得、保存、検索、共有、分析、および視覚化に関してさまざまな課題をもたらした。ビッグデータの情報源の例には、 WebログRFIDセンサーデータ、ソーシャルネットワーク、インターネット検索インデックス、通話詳細記録、軍事監視、天文科学、生物地球化学、ゲノミクス、大気科学などの複雑なデータがある。ビッグデータは、IT組織が提供するほとんどの予測分析サービスの中核をなしている[30]。 コンピューター・ハードウェアの技術的進歩(より高速なCPU、より安価なメモリ、 MPPアーキテクチャ)と、ビッグデータを処理するための分散処理(例:HadoopMapReduce)、データベース内分析およびテキスト分析などの新技術のおかげで、構造化データと非構造化データ[31]を大量に収集、分析、マイニングして新たな洞察を得ることが可能になった。 ストリーミングデータに対して予測アルゴリズムを実行することも可能である[32]。 今日では、ビッグデータの探索と予測分析の使用は、これまでになく多くの組織の手の届くところにあり、そのようなデータセットを処理できる新しい方法が提案されている[33][34]

分析手法

予測分析を行うために使用されるアプローチと手法は、大きく分けて回帰手法と機械学習手法に分類できる。

回帰手法

回帰モデルは、予測分析の主役である。焦点は、考慮されている異なる変数間の相互作用を表現するモデルとして数式を確立することにある。状況に応じて、予測分析を実行しながら適用できるさまざまなモデルがある。そのうちのいくつかを以下に簡単に説明する。

線形回帰モデル

線形回帰モデルは、未知の係数を持つパラメータの線形関数として応答変数を予測する。これらのパラメータは、適合度が最適化されるように調整さる。モデル・フィッティングの取り組みの多くは、残差の大きさを最小化することと、モデルの予測値に対してランダムに分布していることを保証することに焦点を当てている。

回帰の目的は、残差2乗和を最小化するようにモデルのパラメータを選択することである。これは通常の最小二乗法(OLS)推定と呼ばれる。

離散選択モデル

重回帰(上記)は、一般的に、応答変数が連続的で、範囲に制限がない場合に使用される。多くの場合、応答変数は連続ではなく、むしろ離散である。数学的には、離散的に順序づけられた従属変数に重回帰を適用することは可能であるが、重回帰の理論の背後にある仮定のいくつかはもはや成り立たず、このタイプの分析により適した離散選択モデルのような他の手法がある。従属変数が離散的な場合、それらの優れた手法のいくつかは、ロジスティック回帰多項ロジット英語版、およびプロビット・モデルである。ロジスティック回帰とプロビット・モデルは、従属変数が二値の場合に使用される。

ロジスティック回帰

分類の設定では、観測結果を結果確率に割り当てるには、ロジスティック・モデル(ロジック・モデルとも呼ばれる)を使用する。ロジスティック・モデルは、バイナリ従属変数に関する情報を、無制限の連続変数に変換し、通常の多変量モデルを推定する。

ワルド検定英語版尤度比検定は、モデル内の各係数bの統計的有意性を検定するために使用される(OLS回帰で使用されるt検定に類似している。上記参照)。分類モデルの適合度を評価する検定は、「正しく予測されたパーセンテージ」である。

プロビット回帰

プロビット・モデル英語版は、カテゴリー型の従属変数をモデル化するためのロジスティック回帰の代替手段を提供する。

多項ロジスティック回帰

従属変数が2つ以上のカテゴリを持つ場合に対する二項ロジットモデル日本語版の拡張は、多項ロジット・モデルである。このような場合、データを2つのカテゴリにまとめても意味がないか、データの豊富さが失われる可能性がある。多項ロジット・モデル英語版は、特に従属変数のカテゴリが順序付けられていない場合(例えば、赤、青、緑のような色)に適切な手法である。一部の著者らは、ランダム多項ロジット英語版のような特徴選択/重要度法を含むように多項回帰を拡張した。

ロジット対プロビット

2つの回帰は、ロジスティック分布がわずかに平坦になる傾向があることを除いて、同様にふるまう傾向がある。ロジット・モデルとプロビット・モデルから得られる係数は、通常、互いに接近している。しかし、オッズ比は、ロジット・モデルで解釈する方が簡単である。

ロジスティック・モデルよりもプロビット・モデルを選択する実際的な理由としては、次のようなものがある。

  • 基礎となる分布が正規分布であるという強い信念がある
  • 実際のイベントは、二値的な結果(破産状況など)ではなく、割合(債務レベルが異なる人口の割合など)である。

時系列モデル

時系列モデルは、変数の将来のふるまいを予想または予測するために使用される。これらのモデルは、時間の経過とともに取得されたデータ・ポイントが、考慮すべき内部構造(自己相関、傾向、季節変動など)を持つ可能性があるという事実を説明している。その結果、標準的な回帰手法は時系列データに適用できず、時系列の傾向、季節的、周期的な要素を分解するための方法論が開発されてきた。

時系列モデルは、確率的な成分を含む差分方程式を推定する。これらのモデルの一般的に使用される2つの形式は、自己回帰モデル(AR)と移動平均モデル(MA)である。ボックス・ジェンキンス法法は、ARモデルとMAモデルを組み合わせて、定常時系列分析の基礎となるARMA(自己回帰移動平均)モデルを生成する。一方、ARIMA(自己回帰和分移動平均英語版)モデルは、非定常時系列を記述するために用いられる。

近年、時系列モデルはより洗練され、条件付き不等分散性をモデル化しようとする試みがなされている。このようなモデルには、ARCH(分散自己回帰)モデルやGARCH(一般化ARCH)モデルがあり、どちらも金融時系列によく用いられる。

生存または持続時間分析

生存分析は、時間対事象分析の別称である。主に医学や生物学の分野で開発された手法であるが、工学だけでなく経済学などの社会科学分野でも広く利用されている。

生存データの特徴である打ち切りや非正規性は、重回帰などの従来の統計モデルを用いてデータを解析しようとすると困難を生じる。正規分布は対称分布であるため正の値と負の値を取るが、持続時間はその性質上負の値を取ることができず、持続時間/生存データを扱うとき正規性を仮定することができない。

持続時間モデルには、パラメトリック、ノンパラメトリック、セミパラメトリックがある。一般的に使用されるモデルには、カプラン・マイヤー英語版やコックス比例ハザードモデル(ノンパラメトリック)がある。

分類木と回帰木(CART)

分類木と回帰木(CART)は、ノンパラメトリック決定木学習手法であり、従属変数がカテゴリ型か数値型かに応じて、それぞれ分類木と回帰木のどちらかを生成する。

決定木は、モデリングデータセット内の変数に基づくルールの集合によって形成される。

  • 変数の値に基づくルールは、従属変数に基づいて観測値を区別するための最良の分割を得るために選択される。
  • ルールが選択されてノードが2つに分割されると、同じ処理が各「子」ノードに適用される(つまり、再帰的な手続きである)。
  • 分割は、CARTがこれ以上のゲイン(利得)を得られないと判断した場合や、あらかじめ設定された停止ルールが満たされた場合に停止する。(あるいは、可能な限りデータを分割してから、後から木を剪定英語版するという方法もある)。

木の各枝は末端ノードで終わる。各観測値は1つの端末ノードに該当し、各末端ノードは一連の規則によって一意に定義される。

予測分析のための非常に一般的な手法は、ランダムフォレストである。

多変量適応回帰スプライン

多変量適応回帰スプライン英語版(MARS)は、区分的線形回帰を適合させることで柔軟なモデルを構築するノンパラメトリック手法である。

多変量適応回帰スプライン法は、モデルを意図的にオーバーフィットさせ、最適なモデルを得るために剪定する。このアルゴリズムは計算量が非常に多く、実際には基底関数の数に上限が指定されている。

機械学習技術

機械学習には、回帰や分類のための高度な統計的手法が多数含まれており、医療診断クレジットカード不正英語版検知、音声の認識、株式市場の分析など、さまざまな分野で応用されている。

ツール

歴史的に、予測分析ツールを使用すること、およびその結果を理解することには、高度なスキルが必要であった。しかし、最新の予測分析ツールはIT専門家だけのものではなくなった[要出典]。予測分析を意思決定プロセスに採用し、業務に統合する組織が増えるにつれ、情報の主な消費者はビジネスユーザーへと市場がシフトしている。ビジネスユーザーは、自分で使えるツールを求めている。ベンダーは、数学的な複雑さを取り除き、ユーザーフレンドリーなグラフィックインターフェースを提供したり、利用可能なデータの種類を認識して適切な予測モデルを提案できるショートカット(近道)を構築する新しいソフトウェアを開発することで対応している[35]。予測分析ツールは、データの問題を適切に提示して分解できるほど洗練されているので[要出典]、データに精通した情報活用者はデータを分析して意味のある有用な結果を取得できる[36]。たとえば、最新のツールでは、考えられる結果の可能性を示すシンプルなチャート、グラフ、スコアを使って所見を提示する[37]

市場には、予測分析の実行に役立つツールが多数ある。これらのツールは、ユーザーの高度な知識をほとんど必要としないものから、専門家向けに設計されたものまでさまざまである。これらのツールの違いは、多くの場合、カスタマイズのレベルと、許容されるデータ量の大きさにある。

PMML

予測モデルを表現するための標準言語として、予測モデルマークアップ言語英語版(PMML)が提案された。このようなXMLベースの言語は、さまざまなツールが予測モデルを定義し、それを共有するための方法を提供する。PMML 4.0は2009年6月にリリースされた。

批判

ハーバード大学の教授で、定量的社会科学研究所所長のゲイリー・キング英語版氏をはじめ、コンピュータやアルゴリズムが未来を予測する能力には懐疑的な意見が多い[38]。人は無数の方法で環境から影響を受けている。人々が次に何をするかを完全に予測するには、影響力のあるすべての変数を知り、正確に測定する必要がある。「人々の環境は、彼ら自身よりもさらに急速に変化する。天候から母親との関係まで、すべてが人の考え方や行動を変える可能性がある。これらの変数はすべて予測できない。それらが人にどのような影響を与えるかは、さらに予測不可能である。明日全く同じ状況に置かれた場合、彼らは全く異なる決断を下すかもしれない。これは、統計的予測が無菌の実験室条件でのみ有効であることを意味し、突然、以前のようには役に立たなくなってしまうことを意味している。[39]

1990年から2006年の間に『Information Systems Research』と『MIS Quarterly』に掲載された1072本の論文を調査したところ、予測的な主張を試みた経験的な論文は52本のみで、そのうち適切な予測モデリングやテストを実施したのは7本のみであった[40]

関連項目

脚注

  1. ^ a b Nyce, Charles (2007), Predictive Analytics White Paper, American Institute for Chartered Property Casualty Underwriters/Insurance Institute of America, p. 1, https://www.the-digital-insurer.com/wp-content/uploads/2013/12/78-Predictive-Modeling-White-Paper.pdf 
  2. ^ Eckerson, Wayne (May 10, 2007), Extending the Value of Your Data Warehousing Investment, The Data Warehouse Institute, http://tdwi.org/articles/2007/05/10/predictive-analytics.aspx?sc_lang=en 
  3. ^ Coker, Frank (2014). Pulse: Understanding the Vital Signs of Your Business (1st ed.). Bellevue, WA: Ambient Light Publishing. pp. 30, 39, 42, more. ISBN 978-0-9893086-0-1 
  4. ^ Conz, Nathan (September 2, 2008), “Insurers Shift to Customer-focused Predictive Analytics Technologies”, Insurance & Technology, オリジナルのJuly 22, 2012時点におけるアーカイブ。, https://web.archive.org/web/20120722013733/http://www.insurancetech.com/business-intelligence/210600271 2012年7月2日閲覧。 
  5. ^ Fletcher, Heather (March 2, 2011), “The 7 Best Uses for Predictive Analytics in Multichannel Marketing”, Target Marketing, http://www.targetmarketingmag.com/article/7-best-uses-predictive-analytics-modeling-multichannel-marketing/1# 
  6. ^ Korn, Sue (April 21, 2011), “The Opportunity for Predictive Analytics in Finance”, HPC Wire, http://www.hpcwire.com/hpcwire/2011-04-21/the_opportunity_for_predictive_analytics_in_finance.html 
  7. ^ Barkin, Eric (May 2011), “CRM + Predictive Analytics: Why It All Adds Up”, Destination CRM, http://www.destinationcrm.com/Articles/Editorial/Magazine-Features/CRM---Predictive-Analytics-Why-It-All-Adds-Up-74700.aspx 
  8. ^ Das, Krantik; Vidyashankar, G.S. (July 1, 2006), “Competitive Advantage in Retail Through Analytics: Developing Insights, Creating Value”, Information Management, http://www.information-management.com/infodirect/20060707/1057744-1.html 
  9. ^ McDonald, Michèle (September 2, 2010), “New Technology Taps 'Predictive Analytics' to Target Travel Recommendations”, Travel Market Report, オリジナルのSeptember 10, 2015時点におけるアーカイブ。, https://web.archive.org/web/20150910175014/http://www.travelmarketreport.com/technology?articleID=4259&LP=1, 
  10. ^ Moreira-Matias, Luís; Gama, João; Ferreira, Michel; Mendes-Moreira, João; Damas, Luis (2016-02-01). “Time-evolving O-D matrix estimation using high-speed GPS data streams”. Expert Systems with Applications 44: 275–288. doi:10.1016/j.eswa.2015.08.048. http://repositorio.inesctec.pt/handle/123456789/5315. 
  11. ^ Stevenson, Erin (December 16, 2011), “Tech Beat: Can you pronounce health care predictive analytics?”, Times-Standard, オリジナルのAugust 4, 2014時点におけるアーカイブ。, https://web.archive.org/web/20140804030717/http://www.times-standard.com/business/ci_19561141 2012年7月2日閲覧。 
  12. ^ Lindert, Bryan (October 2014). “Eckerd Rapid Safety Feedback Bringing Business Intelligence to Child Welfare”. Policy & Practice. http://static.eckerd.org/wp-content/uploads/Eckerd.pdf 2016年3月3日閲覧。. 
  13. ^ Florida Leverages Predictive Analytics to Prevent Child Fatalities -- Other States Follow”. The Huffington Post (2015年12月21日). 2016年3月25日閲覧。
  14. ^ McKay, Lauren (August 2009), “The New Prescription for Pharma”, Destination CRM, オリジナルの2015-07-10時点におけるアーカイブ。, https://web.archive.org/web/20150710045913/http://www.destinationcrm.com/articles/Web-Exclusives/Web-Only-Bonus-Articles/The-New-Prescription-for-Pharma-55774.aspx 2012年7月2日閲覧。 
  15. ^ Gaeth. “Evaluating Predictive Analytics for Capacity Planning”. www.hisa.org.au. 2018年11月22日閲覧。
  16. ^ De, Shaunak; Maity, Abhishek; Goel, Vritti; Shitole, Sanjay; Bhattacharya, Avik (2017). “Predicting the popularity of instagram posts for a lifestyle magazine using deep learning”. 2017 2nd International Conference on Communication Systems, Computing and IT Applications (CSCITA). pp. 174–177. doi:10.1109/CSCITA.2017.8066548. ISBN 978-1-5090-4381-1. https://www.semanticscholar.org/paper/c4389f8a63a7be58e007c183a49e491141f9e204 
  17. ^ Personali (2018年10月11日). “UX Optimization Glossary > Data Science > Web Analytics > Predictive Analytics”. www.personali.com. 2018年10月22日閲覧。
  18. ^ Finlay, Steven (2014). Predictive Analytics, Data Mining and Big Data. Myths, Misconceptions and Methods (1st ed.). Basingstoke: Palgrave Macmillan. pp. 237. ISBN 978-1137379276 
  19. ^ Siegel, Eric (2013). Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die (1st ed.). Wiley. ISBN 978-1-1183-5685-2 
  20. ^ Eckerson, Wayne (May 10, 2007), Extending the Value of Your Data Warehousing Investment, The Data Warehouse Institute, http://tdwi.org/articles/2007/05/10/predictive-analytics.aspx?sc_lang=en 
  21. ^ Barkin, Eric (May 2011), “CRM + Predictive Analytics: Why It All Adds Up”, Destination CRM, http://www.destinationcrm.com/Articles/Editorial/Magazine-Features/CRM---Predictive-Analytics-Why-It-All-Adds-Up-74700.aspx 
  22. ^ New Strategies Long Overdue on Measuring Child Welfare Risk - The Chronicle of Social Change” (英語). The Chronicle of Social Change (2016年2月3日). 2016年4月4日閲覧。
  23. ^ A National Strategy to Eliminate Child Abuse and Neglect Fatalities”. Commission to Eliminate Child Abuse and Neglect Fatalities. (2016). 2018年4月14日閲覧。
  24. ^ Dinov, Ivo D.; Heavner, Ben; Tang, Ming; Glusman, Gustavo; Chard, Kyle; Darcy, Mike; Madduri, Ravi; Pa, Judy et al. (2016). “Predictive Big Data Analytics: A Study of Parkinson's Disease using Large, Complex, Heterogeneous, Incongruent, Multi-source and Incomplete Observations”. PLOS ONE 11 (8): e0157077. Bibcode2016PLoSO..1157077D. doi:10.1371/journal.pone.0157077. PMC 4975403. PMID 27494614. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4975403/. 
  25. ^ Predicting judicial decisions of the European Court of Human Rights: a Natural Language Processing perspective
  26. ^ AI predicts outcomes of human rights trials
  27. ^ Dhar, Vasant (April 2011). “Prediction in Financial Markets: The Case for Small Disjuncts”. ACM Transactions on Intelligent Systems and Technology 2 (3). doi:10.1145/1961189.1961191. 
  28. ^ Dhar, Vasant; Chou, Dashin; Provost Foster (October 2000). “Discovering Interesting Patterns in Investment Decision Making with GLOWER – A Genetic Learning Algorithm Overlaid With Entropy Reduction”. Data Mining and Knowledge Discovery 4 (4): 251–280. doi:10.1023/A:1009848126475. http://dl.acm.org/citation.cfm?id=593502. 
  29. ^ Conz, Nathan (September 2, 2008), “Insurers Shift to Customer-focused Predictive Analytics Technologies”, Insurance & Technology, オリジナルのJuly 22, 2012時点におけるアーカイブ。, https://web.archive.org/web/20120722013733/http://www.insurancetech.com/business-intelligence/210600271 2012年7月2日閲覧。 
  30. ^ http://www.hcltech.com/sites/default/files/key_to_monetizing_big_data_via_predictive_analytics.pdf
  31. ^ Schiff, Mike (March 6, 2012), BI Experts: Why Predictive Analytics Will Continue to Grow, The Data Warehouse Institute, http://tdwi.org/Articles/2012/03/06/Predictive-Analytics-Growth.aspx?Page=1 
  32. ^ Predictive Analytics on Evolving Data Streams”. 2020年12月21日閲覧。
  33. ^ Ben-Gal I. Dana A.; Shkolnik N. and Singer (2014). Efficient Construction of Decision Trees by the Dual Information Distance Method. Quality Technology & Quantitative Management (QTQM), 11(1), 133-147. http://www.eng.tau.ac.il/~bengal/DID.pdf. 
  34. ^ Ben-Gal I.; Shavitt Y.; Weinsberg E.; Weinsberg U. (2014). “Peer-to-peer information retrieval using shared-content clustering”. Knowl Inf Syst 39 (2): 383–408. doi:10.1007/s10115-013-0619-9. http://www.eng.tau.ac.il/~bengal/genre_statistics.pdf. 
  35. ^ Halper, Fern (November 1, 2011), “The Top 5 Trends in Predictive Analytics”, Information Management, http://www.information-management.com/issues/21_6/the-top-5-trends-in-redictive-an-alytics-10021460-1.html 
  36. ^ Eckerson, Wayne (May 10, 2007), Extending the Value of Your Data Warehousing Investment, The Data Warehouse Institute, http://tdwi.org/articles/2007/05/10/predictive-analytics.aspx?sc_lang=en 
  37. ^ MacLennan, Jamie (May 1, 2012), 5 Myths about Predictive Analytics, The Data Warehouse Institute, http://tdwi.org/articles/2012/05/01/5-predictive-analytics-myths.aspx 
  38. ^ Temple-Raston, Dina (Oct 8, 2012), Predicting The Future: Fantasy Or A Good Algorithm?, NPR, https://www.npr.org/2012/10/08/162397787/predicting-the-future-fantasy-or-a-good-algorithm 
  39. ^ Alverson, Cameron (Sep 2012), Polling and Statistical Models Can't Predict the Future, Cameron Alverson, http://www.cameronalverson.com/2012/09/polling-and-statistical-models-cant.html 
  40. ^ Shmueli, Galit (2010-08-01). “To Explain or to Predict?” (英語). Statistical Science 25 (3): 289–310. arXiv:1101.0891. doi:10.1214/10-STS330. ISSN 0883-4237. 

参考文献