部分的最小二乗回帰

出典: フリー百科事典『ウィキペディア(Wikipedia)』

部分的最小二乗回帰(ぶぶんてきさいしょうじじょうかいき、: partial least squares regression、略称: PLS回帰)は、主成分回帰英語版といくらかの関係を持つ統計的手法の一つである。偏最小二乗回帰または部分最小二乗回帰とも呼ばれる。PLS回帰は、応答変数と説明変数との間の最大分散超平面を探す代わりに、予測変数英語版観測可能な変数英語版を新たな空間に射影することによって線形回帰モデルを探る。XおよびYのデータが共に新たな空間に射影されるため、PLSに分類される手法群は双線形因子モデルとも呼ばれる。部分的最小二乗判別分析(PLS-DA)は、Yが分類である時の派生法である。

PLSは2つの行列XおよびY)間の基本的関係を探すために用いられる。すなわち、これら2つの空間における共分散構造をモデル化するための潜在変数アプローチである。PLSモデルはY空間における最大多次元分散方向を説明するX空間における多次元方向を探そうと試みる。PLS回帰は予測因子の行列が観測因子よりも変数の数が多い時、そしてXの値の間に多重共線性が存在する時に特に適している。対照的に、標準的な回帰手法はこれらの場合(正則化されていない限り英語版)失敗する。

部分的最小二乗法は、スウェーデンの統計学者ヘルマン・ウォルド英語版によって発表された。ウォルドはその後息子のスヴァンテ・ウォルドスウェーデン語版と共にこの手法を発展させた。PLSの(スヴァンテ・ウォルドによればより正確な[1])別称は、「projection to latent structures」(潜在構造への射影)であるが、多くの分野において「部分的最小二乗法」という用語が未だに優勢である。PLS回帰の最初の応用は社会科学分野でのものだったが、今日、PLS回帰は計量化学(ケモメトリクス)と関連領域において最も広く使われている。また、バイオインフォマティクス、感覚計量学、神経科学、人類学でも使われている。

基礎的モデル[編集]

多変量PLSの一般的基礎的モデルは以下の式で表わされる。

上式において、は予測変数のは応答変数の行列; ならびにはそれぞれの射影(Xスコアまたは成分または因子行列)ならびにの射影(Yスコア); ならびにはそれぞれならびに直交「負荷量(ローディング)」行列; 行列およびは誤差項であり、互いに独立で同一の分布に従う確率正規変数であると仮定される。およびの分解は、との間の共分散を最大化するように行われる。

アルゴリズム[編集]

因子ならびに負荷量行列であるならびにを推定するための多くのPLSの変法が存在する。それらの多くは、としてとの間の線形回帰の推定量を構築する。一部のPLSアルゴリズムは、が列ベクトルである場合に対してのみ適切であるが、その他は行列の一般的な場合を扱う。アルゴリズムはまた、因子行列直交行列もしくは正規直交行列として推定するか、あるいは条件を付けないかという点で異なる[2][3][4][5][6][7]。最終的な予測値はこれら全ての変法で同じであるが、成分が異なっている。

PLS1[編集]

PLS1は、Yがベクトルの場合について適切で広く用いられているアルゴリズムである。PLS1はTを正規直交行列として推定する。以下に疑似コードを示す(大文字は行列、小文字は上に添字がある場合ベクトル、下に添字がある場合スカラーである)。

  1. function PLS1()
  2. , wの初期推定
  3. for to l
  4. (これはスカラー)
  5. (これはスカラー)
  6. if
  7. , ループから脱出
  8. if
  9. end for
  10. define W to be the matrix with columns .
    • Do the same to form the P matrix and q vector.
  11. return

このアルゴリズム形式は、入力する XおよびYのセンタリングを必要としない。これはセンタリングがアルゴリズムによって暗黙的に実行されるためである。このアルゴリズムは行列Xの減次(の減算)を行うが、ベクトルyの減次は必要でないため行われない。ユーザ指定の変数lは回帰における潜在因子の数の上限である。この数が行列Xの階数に等しければ、アルゴリズムはBおよびに対する最小二乗回帰推定法に等しい。

拡張[編集]

2002年、潜在構造に対する直交射影(orthogonal projections to latent structures、OPLS)と呼ばれる新手法が発表された。OPLSでは、連続的変数データが予測情報と無相関の情報に分離される。これによって診断が改善され、解釈のための視覚化がより容易となる。しかしながら、これらの変更はPLSモデルの解釈可能性を改善するだけであり、予測性は改善しない[8]。L-PLS法は、PLS回帰を3つの連結したデータブロックに拡張する[9] 。同様に、OPLS-DA(Discriminant Analysis; 判別分析)法は、分類やバイオマーカーの研究のように離散変数を扱う時に適用できる。

2015年、部分的最小二乗法はthree-pass regression filter (3PRF) と呼ばれる手順と関連付けられた[10]。もし観察と変数の数が大きいならば、3PRF(とゆえにPLS)は線形潜在因子モデルによって暗示される「最良の」予測について漸近的に正規である。株式市場モデルでは、PLSは運用益とキャッシュフローの成長の正確なサンプル外予測を与えることが示されている[11]

ソフトウェア実装[編集]

ほとんどの主要な統計ソフトウェアパッケージがPLS回帰を用意している[要出典]

脚注[編集]

  1. ^ Wold, S; Sjöström, M.; Eriksson, L. (2001). “PLS-regression: a basic tool of chemometrics”. Chemometrics and Intelligent Laboratory Systems 58 (2): 109–130. doi:10.1016/S0169-7439(01)00155-1. http://www.sciencedirect.com/science/article/pii/S0169743901001551. 
  2. ^ Lindgren, F; Geladi, P; Wold, S (1993). “The kernel algorithm for PLS”. J. Chemometrics 7: 45–59. doi:10.1002/cem.1180070104. http://onlinelibrary.wiley.com/doi/10.1002/cem.1180070104/abstract. 
  3. ^ de Jong, S.; ter Braak, C.J.F. (1994). “Comments on the PLS kernel algorithm”. J. Chemometrics 8 (2): 169–174. doi:10.1002/cem.1180080208. http://onlinelibrary.wiley.com/doi/10.1002/cem.1180080208/abstract. 
  4. ^ Dayal, B.S.; MacGregor, J.F. (1997). “Improved PLS algorithms”. J. Chemometrics 11 (1): 73–85. doi:10.1002/(SICI)1099-128X(199701)11:1<73::AID-CEM435>3.0.CO;2-#. http://onlinelibrary.wiley.com/doi/10.1002/%28SICI%291099-128X%28199701%2911:1%3C73::AID-CEM435%3E3.0.CO;2-%23/abstract. 
  5. ^ de Jong, S. (1993). “SIMPLS: an alternative approach to partial least squares regression”. Chemometrics and Intelligent Laboratory Systems 18 (3): 251–263. doi:10.1016/0169-7439(93)85002-X. 
  6. ^ Rannar, S.; Lindgren, F.; Geladi, P.; Wold, S. (1994). “A PLS Kernel Algorithm for Data Sets with Many Variables and Fewer Objects. Part 1: Theory and Algorithm”. J. Chemometrics 8 (2): 111–125. doi:10.1002/cem.1180080204. http://onlinelibrary.wiley.com/doi/10.1002/cem.1180080204/abstract. 
  7. ^ Abdi, H. (2010). “Partial least squares regression and projection on latent structure regression (PLS-Regression)”. Wiley Interdisciplinary Reviews: Computational Statistics 2: 97–106. doi:10.1002/wics.51. 
  8. ^ Trygg, J; Wold, S (2002). “Orthogonal Projections to Latent Structures”. Journal of Chemometrics 16 (3): 119–128. doi:10.1002/cem.695. 
  9. ^ Sæbøa, S.; Almøya, T.; Flatbergb, A.; Aastveita, A.H.; Martens, H. (2008). “LPLS-regression: a method for prediction and classification under the influence of background information on predictor variables”. Chemometrics and Intelligent Laboratory Systems 91 (2): 121–132. doi:10.1016/j.chemolab.2007.10.006. 
  10. ^ Kelly, Bryan; Pruitt, Seth (2015-06-01). “The three-pass regression filter: A new approach to forecasting using many predictors”. Journal of Econometrics. High Dimensional Problems in Econometrics 186 (2): 294–316. doi:10.1016/j.jeconom.2015.02.011. http://www.sciencedirect.com/science/article/pii/S0304407615000354. 
  11. ^ Kelly, Bryan; Pruitt, Seth (2013-10-01). “Market Expectations in the Cross-Section of Present Values” (英語). The Journal of Finance 68 (5): 1721–1756. doi:10.1111/jofi.12060. ISSN 1540-6261. http://onlinelibrary.wiley.com/doi/10.1111/jofi.12060/abstract. 

推薦文献[編集]

  • Kramer, R. (1998). Chemometric Techniques for Quantitative Analysis. Marcel-Dekker. ISBN 0-8247-0198-4 
  • Frank, Ildiko E.; Friedman, Jerome H. (1993). “A Statistical View of Some Chemometrics Regression Tools”. Technometrics 35 (2): 109–148. doi:10.1080/00401706.1993.10485033. http://amstat.tandfonline.com/doi/full/10.1080/00401706.1993.10485033. 
  • Haenlein, Michael; Kaplan, Andreas M. (2004). “A Beginner's Guide to Partial Least Squares Analysis”. Understanding Statistics 3 (4): 283–297. doi:10.1207/s15328031us0304_4. 
  • Henseler, Joerg; Fassott, Georg (2005). Testing Moderating Effects in PLS Path Models. An Illustration of Available Procedures. 
  • Lingjærde, Ole-Christian; Christophersen, Nils (2000). “Shrinkage Structure of Partial Least Squares”. Scandinavian Journal of Statistics 27 (3): 459–473. doi:10.1111/1467-9469.00201. 
  • Tenenhaus, Michel (1998). La Régression PLS: Théorie et Pratique. Paris: Technip. 
  • Rosipal, Roman; Kramer, Nicole (2006). Overview and Recent Advances in Partial Least Squares, in Subspace, Latent Structure and Feature Selection Techniques. pp. 34–51. 
  • Helland, Inge S. (1990). “PLS regression and statistical models”. Scandinavian Journal of Statistics 17 (2): 97–114. JSTOR 4616159. 
  • Wold, Herman (1966). “Estimation of principal components and related models by iterative least squares”. In Krishnaiaah, P.R.. Multivariate Analysis. New York: Academic Press. pp. 391–420 
  • Wold, Herman (1981). The fix-point approach to interdependent systems. Amsterdam: North Holland 
  • Wold, Herman (1985). “Partial least squares”. In Kotz, Samuel; Johnson, Norman L.. Encyclopedia of statistical sciences. 6. New York: Wiley. pp. 581–591 
  • Wold, Svante; Ruhe, Axel; Wold, Herman; Dunn, W.J. (1984). “The collinearity problem in linear regression. the partial least squares (PLS) approach to generalized inverses”. SIAM Journal on Scientific and Statistical Computing 5 (3): 735–743. doi:10.1137/0905052. 
  • Garthwaite, Paul H. (1994). “An Interpretation of Partial Least Squares”. Journal of the American Statistical Association 89 (425): 122–7. doi:10.1080/01621459.1994.10476452. JSTOR 2291207. 
  • Wang, H., ed (2010). Handbook of Partial Least Squares. ISBN 978-3-540-32825-4 
  • Stone, M.; Brooks, R.J. (1990). “Continuum Regression: Cross-Validated Sequentially Constructed Prediction embracing Ordinary Least Squares, Partial Least Squares and Principal Components Regression”. Journal of the Royal Statistical Society, Series B 52 (2): 237–269. JSTOR 2345437. 
  • Wan Mohamad Asyraf Bin Wan Afthanorhan. (2013). A Comparison Of Partial Least Square Structural Equation Modeling (PLS-SEM) and Covariance Based Structural EquationModeling (CB-SEM) for Confirmatory Factor Analysis International Journal of Engineering Science and Innovative Technology (IJESIT), 2(5), 9.

関連項目[編集]

外部リンク[編集]