ラッソ回帰

出典: フリー百科事典『ウィキペディア(Wikipedia)』
ナビゲーションに移動 検索に移動

ラッソ回帰(らっそかいき、least absolute shrinkage and selection operator, Lasso, LASSO)は、変数選択正則化の両方を実行し、生成する統計モデルの予測精度と解釈可能性を向上させる回帰分析手法。 1986年に地球物理学の文献で最初に導入され[1] 、その後1996年にRobert Tibshirani[2] が独自に再発見して一般化した。

ラッソ回帰はもともと最小二乗法で定義されていた。最小二乗法の単純なケースでは、予測器の振る舞いについて多くの事実が分かる。すなわち、リッジ回帰ベストサブセット選択英語版との関係、ラッソ係数予測といわゆるソフトしきい値処理(soft thresholding)との関係である。

一般化線形モデル一般化推定方程式英語版比例ハザードモデル英語版M推定器英語版など 、さまざまな統計モデルに簡単に拡張できる[2][3]

動機[編集]

ラッソ回帰は、与えられた共変量の一部のみ最終モデルで使用することにより、回帰モデルの予測精度と解釈可能性を向上させるために導入された[2][4]

ラッソ回帰以前は、段階的選択が変数選択に広く用いられていた。これは、少数の共変量のみが結果と強い関係がある場合などには予測精度を向上させるが、それ以外の場合は、予測誤差を悪化させる可能性がある。 また、 大きな回帰係数を縮小して過剰適合を減らすリッジ回帰も予測精度を向上させるために用いられていたが、リッジ回帰では共変量選択を実行しない。

ラッソ回帰は、回帰係数の絶対値の合計を固定値よりも小さくすることでこれらの目標を両方とも達成できる。これにより、特定の係数が強制的にゼロに設定され、これらの係数を含まないより単純なモデルが効果的に選択される。 この考え方は、リッジ回帰に似ているが、リッジ回帰の場合はこれは係数のサイズを縮小するだけであり、ゼロに設定することはない。

基本形[編集]

ラッソ回帰はもともと最小二乗法の場面で導入された。このケースを最初に検討することは有益である。

それぞれが 個の共変量と単一の結果で構成される 個のケースで構成されるサンプルを考える。

を結果、番目のケースの共変量ベクトルとする。 ラッソ回帰では、次の式を解くことを考える。

[2]

ここで、 を正則化の量を決定する事前に指定された自由パラメーターとする。 共変量行列 について、、すなわち の第 行とすると、次のように簡潔に記述することができる。

ここで、 を標準 ノルムとし、 は 1 が N 個並んだ縦ベクトルとする。

データポイント のスカラー平均を 、応答変数 の平均を と記載すると、 の推定値 を用いて下記のように記述できる。

したがって、中央に配置された(ゼロ平均化された)変数を処理するのが標準的である。 解が測定スケールに依存しないよう、共変量は通常、 標準化されている

参考のために書き直すと

これは、ラグランジュの未定乗数法に基づいて書き直すと、下記の形式と同値である。

ここで、との関係はデータに依存する。

正規直交共変量[編集]

Lasso Estimatorのいくつかの基本的なプロパティを検討する。

まず、共変量が正規直交であると仮定すると、内積 およびクロネッカーのデルタ を用いて と記載できる。 これは、 と記載しても同等である。

次に、勾配法を使用すると、

[2]

はソフトしきい値演算子と呼ばれる。これは、小さい値をゼロに設定し、値をゼロに変換する(十分に小さい場合は正確にゼロにする)ためである。ハードしきい値演算子 は小さい値をゼロにして大きい値を変更しない。

これは、下記の最小化を目的とするリッジ回帰と比較可能である。

これから

したがって、リッジ回帰は、 という一様係数で縮小することになり、係数をゼロに設定しない。

ベストサブセット選択回帰と比較することもできる。この手法では、下記の最小化を目標とする。

ここで、は 「 ノルム」である。zの非ゼロ成分が m 個あるとき、 と定義する。

この場合、以下が示される。

ここで、 はいわゆるハードしきい値演算子で、 はインジケーター関数(引数がtrueの場合は1、それ以外の場合は0)である。

従って、ラッソ回帰による推定値は、リッジ回帰とベストサブセット選択回帰の両方による推定値と似た特徴を持つ。すなわち、リッジ回帰のようにすべての係数の大きさを縮小するだけでなく、ベストサブセット選択回帰と同様に、それらの一部をゼロに設定する。 さらに、リッジ回帰はすべての係数を定数係数でスケーリングするが、ラッソ回帰は代わりに定数を用いて係数をゼロに近づけて、到達した場合は係数をゼロに設定する。

一般的な形式[編集]

ラッソ正則化は、一般化線形モデル 、一般化推定方程式 、 比例ハザードモデル 、一般的なM-推定量など、さまざまな目的関数に拡張できる。[2][3] 目的関数を下記とすると

ラッソ正則化した予測値は次の解となる

ここで、 だけが罰則を受け、 は許可された値を自由に取ることができる。上記の基本形において、 が罰則を受けなかったことに相当する。

解釈[編集]

幾何学的解釈[編集]

2次元のパラメータ空間(w1, w2)における、ラッソ回帰(L1-norm)およびリッジ回帰(L2-norm)の制約領域。

上で説明したように、ラッソ回帰は係数をゼロに設定できるが、表面的には類似しているように見えるリッジ回帰はできない。 これは、2つのケースでの制約境界の形状の違いによるものである。 ラッソ回帰とリッジ回帰の両方は、同じ目的関数を最小化すると解釈できる。

ここで、制約条件が異なる。 ラッソ回帰での制約条件は である。 リッジ回帰での制約条件は である。

2次元のパラメータ空間(w1, w2)における制約領域を図示した。 ラッソ回帰(L1-norm)では正方形に相当する(一般に 次元の正軸体 )。 リッジ回帰(L2-norm)では円に相当する(一般に 次元の超球面)。 パラメータは制約条件としてパラメータ空間のこれらの領域を動いた中で、目的関数を最小化する値を取る。 ラッソ回帰では、「角(かど)」が存在することで、特定の係数をゼロにした地点を選びやすくなる。

ベイジアン解釈[編集]

ラプラス分布は、平均で鋭くピークに達し、正規分布に比べて確率密度が集中している。

係数の事前分布として正規分布を仮定した場合のMAP推定値がリッジ回帰に相当するのと同様に、係数の事前分布としてラプラス分布を仮定した場合のMAP推定値がラッソ回帰に相当する。

ラプラス分布はゼロで鋭くピークに達し(その1次導関数は不連続)、確率分布は正規分布よりもゼロに近く集中する。 このことからも、なぜラッソ回帰では一部の係数をゼロに設定する傾向があるのに、リッジ回帰はそうではないのか、ということを説明できる[2]

すなわち、

である。

ここで、 の事前分布として平均 、分散正規分布を仮定すると、右辺第1項は

さらに、パラメータ の事前分布として平均 、分散 ラプラス分布を仮定すると、右辺第2項は

以上から、 を用いて次のように表される。

括弧内は、ラグランジュの未定乗数法に基づく記載と同等である。

一般化[編集]

Elastic Net[編集]

2005 年、Zou と Hastie は、ラッソ回帰のいくつかの欠点に対処するために Elastic Net英語版 を導入した[5]。 ラッソ回帰は、標本数が共変量の数よりも少ないとき()、標本数( 個)までしか共変量を選択できない。 また、ラッソ回帰では高度に相関する共変量の組み合わせから1つしか共変量を選択しないことが多いため、共変量が強く相関しているならば、パフォーマンスがリッジ回帰に劣る場合がある。

Elastic Net は による罰則項を追加することによって回帰ラッソを拡張し、下記の式を得る。

これは次の式を解くことと同じである。

この問題は単純なラッソ回帰の形式で記述できる

ただし、

、   、  

そして、 、共変量が互いに直交する場合、

Elastic Netによる罰則の結果は、ラッソ回帰およびリッジ回帰の罰則の組み合わせに相当する。

正規化パラメータ は、交差検証法を用いたグリッド・サーチにより選択されることが多い。

正則化パラメータの選択[編集]

収縮の強度と変数の選択を制御する正則化パラメータ を適切に選択することで、予測の精度と解釈可能性を向上することができる。正則化が強くなりすぎると、重要な変数がモデルから削除される、係数が過度に縮小される等の可能性がある。 正則化パラメータ の選択には交差検証法がよく用いられる。

赤池情報量規準(AIC)やベイズ情報量規準(BIC)などの情報量規準英語版は、交差検証法よりも計算が高速であり、小さいサンプルでもパフォーマンスが変動しにくいため、交差検証よりも好ましい場合がある。 [6] 情報量規準は、モデルのサンプル内精度を最大化することによって推定器の正則化パラメータを選択すると同時に、その有効なパラメーターの数/自由度にペナルティを課す。

関連項目[編集]

参考文献[編集]

  1. ^ Santosa, Fadil; Symes, William W. (1986). “Linear inversion of band-limited reflection seismograms.”. SIAM Journal on Scientific and Statistical Computing (SIAM) 7 (4): 1307–1330. doi:10.1137/0907087. 
  2. ^ a b c d e f g Tibshirani, Robert (1996). “Regression Shrinkage and Selection via the lasso”. Journal of the Royal Statistical Society (Wiley) 58 (1): 267–88. JSTOR 2346178. 
  3. ^ a b Tibshirani, Robert (1997). “The lasso Method for Variable Selection in the Cox Model”. Statistics in Medicine 16 (4): 385–395. doi:10.1002/(SICI)1097-0258(19970228)16:4<385::AID-SIM380>3.0.CO;2-3. 
  4. ^ Santosa, Fadil; Symes, William W. (1986). “Linear inversion of band-limited reflection seismograms.”. SIAM Journal on Scientific and Statistical Computing (SIAM) 7 (4): 1307–1330. doi:10.1137/0907087. 
  5. ^ Zou, Hui; Hastie, Trevor (2005). “Regularization and Variable Selection via the Elastic Net”. Journal of the Royal Statistical Society (Wiley) 67 (2): 301–20. doi:10.1111/j.1467-9868.2005.00503.x. JSTOR 3647580. 
  6. ^ Hoornweg, Victor (2018). “Chapter 9”. Science: Under Submission. Hoornweg Press. ISBN 978-90-829188-0-9. http://www.victorhoornweg.com