正則化

数学・統計学・計算機科学において、特に機械学習と逆問題において、正則化（せいそくか、英: regularization）とは、不良設定問題を解いたり過学習を防いだりするために、情報を追加する手法である。モデルの複雑さに罰則を科すために導入され、なめらかでないことに罰則をかけたり、パラメータのノルムの大きさに罰則をかけたりする。

正則化の理論的正当化はオッカムの剃刀にある。ベイジアンの観点では、多くの正則化の手法は、モデルのパラメータの事前情報にあたる。

統計および機械学習における正則化

統計および機械学習において、正則化はモデルのパラメータの学習に使われ、特に過学習を防ぎ、汎化能力を高めるために使われる。

機械学習において最も一般的なのは L1 正則化 (p=1) と L2 正則化 (p=2) である。損失関数 $E({\boldsymbol {w}})$ の代わりに、

E({\boldsymbol {w}})+\lambda {\frac {1}{p}}\|{\boldsymbol {w}}\|_{p}^{p}=E({\boldsymbol {w}})+\lambda {\frac {1}{p}}\sum _{i}|w_{i}|^{p}

を使用する。 ${\boldsymbol {w}}$ はパラメータのベクトルで、 $\|\cdot \|_{p}$ は L1 ノルム (p=1) や L2 ノルム (p=2) などである。 $\lambda$ はハイパーパラメータで、正の定数で、大きくするほど正則化の効果が強くなるが、交差確認などで決める。

損失関数をパラメータで偏微分すると、

L2 正則化の場合: ${\frac {\partial E({\boldsymbol {w}})}{\partial w_{i}}}+\lambda w_{i}$
L1 正則化の場合: ${\frac {\partial E({\boldsymbol {w}})}{\partial w_{i}}}+\lambda \operatorname {sgn}(w_{i})$

となり、これは、最急降下法や確率的勾配降下法を使用する場合は、L2 正則化はパラメータの大きさに比例した分だけ、L1 正則化は $\lambda$ だけ 0 に近づけることを意味する。

この手法は様々なモデルで利用できる。線形回帰モデルに利用した場合は、L1 の場合はラッソ回帰^[1]、L2 の場合はリッジ回帰^[2]と呼ぶ。ロジスティック回帰、ニューラルネットワーク、サポートベクターマシン、条件付き確率場などでも使われる。ニューラルネットワークの世界では、L2 正則化は荷重減衰（英: weight decay）とも呼ばれる。

L1 正則化

L1 正則化を使用すると、いくつかのパラメータを 0 にすることができる。つまり、特徴選択を行っていることになり、スパースモデルになる。0 が多いと疎行列で表現でき、高速に計算できる。しかし、L1 ノルムは評価関数に絶対値を含むため、非連続で微分不可能な点が存在する。勾配法を利用した最適化問題のアルゴリズムによっては変更が必要な場合がある^[3]^[4]。

損失関数が二乗和誤差の場合、L1 正則化は、パラメータの絶対値が λ 以下なら 0にし、そうで無いなら λ だけ 0 に近づけるのと等価である。損失関数をパラメータで偏微分することで確認できる。よって、小さな値のパラメータが 0 になる。

機械学習の手法において、データが平均0分散1に正規化されていないと上手く動作しないものが多いが、L1 正則化において全てのパラメータで同じように λ ずつ減らすということは、同じようなスケーリングでなければならず、平均0分散1に正規化されていないと上手く働かない。

L0 正則化

L0 正則化とは 0 では無いパラメータの数で正則化する方法のこと。ただし、組み合わせ最適化問題になるため、計算コストが非常に高いという問題がある。パラメータ数が多い場合は貪欲法を利用し、近似解を得る。線形モデルであれば残すパラメータを決めるのに一般化交差確認が利用できる。

情報量規準

事前確率を使用するベイジアン学習法では、複雑なモデルにより小さな確率を割り振ることができる。よく使われるモデル選択手法としては、赤池情報量規準（AIC）、最小記述長（MDL）、ベイズ情報量規準（BIC）などがある。

線形モデルでの手法

下記は一般化線形モデルで使用される正則化の手法の一覧である。

モデル	適合尺度	エントロピー尺度^[5]^[6]
赤池情報量規準/ベイズ情報量規準	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{0}$
リッジ回帰^[2]	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{2}$
ラッソ回帰^[1]	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{1}$
エラスティックネット^[7]	$\\|Y-X\beta \\|_{2}$	$\lambda _{1}\\|\beta \\|_{1}+\lambda _{2}\\|\beta \\|_{2}$
基底追跡ノイズ除去	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\beta \\|_{1}$
Rudin-Osher-Fatemi モデル (TV)	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\nabla \beta \\|_{1}$
Potts モデル	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\nabla \beta \\|_{0}$
RLAD^[8]	$\\|Y-X\beta \\|_{1}$	$\\|\beta \\|_{1}$
Dantzig 選択器^[9]	$\\|X^{\top }(Y-X\beta )\\|_{\infty }$	$\\|\beta \\|_{1}$
SLOPE^[10]	$\\|Y-X\beta \\|_{2}$	$\sum _{i=1}^{p}\lambda _{i}\|\beta \|_{(i)}$

逆問題における正則化

「逆問題」も参照

1943年に Andrey Nikolayevich Tikhonov が、L2 正則化をより一般化した Tikhonov 正則化を逆問題に対する手法として発表した^[11]。詳細は逆問題を参照。

参照

^ ^a ^b Tibshirani, Robert (1996). “Regression Shrinkage and Selection via the Lasso”. Journal of the Royal Statistical Society, Series B 58 (1): 267–288. doi:10.1111/j.2517-6161.1996.tb02080.x. ISSN 1369-7412. JSTOR 2346178. MR1379242.
^ ^a ^b Arthur E. Hoerl; Robert W. Kennard (1970). “Ridge regression: Biased estimation for nonorthogonal problems”. Technometrics 12 (1): 55-67.
^ Galen Andrew; Jianfeng Gao (2007). “Scalable training of L₁-regularized log-linear models”. Proceedings of the 24th International Conference on Machine Learning. doi:10.1145/1273496.1273501. ISBN 9781595937933.
^ Tsuruoka, Y.; Tsujii, J.; Ananiadou, S. (2009). Stochastic gradient descent training for l1-regularized log-linear models with cumulative penalty (PDF). Proceedings of the AFNLP/ACL.
^ Bishop, Christopher M. (2007). Pattern recognition and machine learning (Corr. printing. ed.). New York: Springer. ISBN 978-0387310732
^ Duda, Richard O. (2004). Pattern classification + computer manual : hardcover set (2. ed.). New York [u.a.]: Wiley. ISBN 978-0471703501
^ by Hui Zou; Trevor Hastie (2005). “Regularization and variable selection via the Elastic Net”. Journal of the Royal Statistical Society, Series B.
^ Li Wang, Michael D. Gordon & Ji Zhu (2006). "Regularized Least Absolute Deviations Regression and an Efficient Algorithm for Parameter Tuning". Sixth International Conference on Data Mining. pp. 690–700. doi:10.1109/ICDM.2006.134。
^ Candes, Emmanuel; Tao, Terence (2007). “The Dantzig selector: Statistical estimation when p is much larger than n”. Annals of Statistics 35 (6): 2313–2351. arXiv:math/0506081. doi:10.1214/009053606000001523. MR2382644.
^ Małgorzata Bogdan, Ewout van den Berg, Weijie Su & Emmanuel J. Candes (2013). “Statistical estimation and testing via the ordered L1 norm”. arXiv preprint arXiv:1310.1969. arXiv:1310.1969v2.
^ Tikhonov, Andrey Nikolayevich (1943). “Об устойчивости обратных задач [On the stability of inverse problems]”. Doklady Akademii Nauk SSSR 39 (5): 195–198.

[lasso-1] Tibshirani, Robert (1996). “Regression Shrinkage and Selection via the Lasso”. Journal of the Royal Statistical Society, Series B 58 (1): 267–288. doi:10.1111/j.2517-6161.1996.tb02080.x. ISSN 1369-7412. JSTOR 2346178. MR1379242.

[ridge-2] Arthur E. Hoerl; Robert W. Kennard (1970). “Ridge regression: Biased estimation for nonorthogonal problems”. Technometrics 12 (1): 55-67.

[3] Galen Andrew; Jianfeng Gao (2007). “Scalable training of L₁-regularized log-linear models”. Proceedings of the 24th International Conference on Machine Learning. doi:10.1145/1273496.1273501. ISBN 9781595937933.

[4] Tsuruoka, Y.; Tsujii, J.; Ananiadou, S. (2009). Stochastic gradient descent training for l1-regularized log-linear models with cumulative penalty (PDF). Proceedings of the AFNLP/ACL.

[5] Bishop, Christopher M. (2007). Pattern recognition and machine learning (Corr. printing. ed.). New York: Springer. ISBN 978-0387310732

[6] Duda, Richard O. (2004). Pattern classification + computer manual : hardcover set (2. ed.). New York [u.a.]: Wiley. ISBN 978-0471703501

[7] y Hui Zou; Trevor Hastie (2005). “Regularization and variable selection via the Elastic Net”. Journal of the Royal Statistical Society, Series B.

[8] Li Wang, Michael D. Gordon & Ji Zhu (2006). "Regularized Least Absolute Deviations Regression and an Efficient Algorithm for Parameter Tuning". Sixth International Conference on Data Mining. pp. 690–700. doi:10.1109/ICDM.2006.134。

[9] Candes, Emmanuel; Tao, Terence (2007). “The Dantzig selector: Statistical estimation when p is much larger than n”. Annals of Statistics 35 (6): 2313–2351. arXiv:math/0506081. doi:10.1214/009053606000001523. MR2382644.

[10] Małgorzata Bogdan, Ewout van den Berg, Weijie Su & Emmanuel J. Candes (2013). “Statistical estimation and testing via the ordered L1 norm”. arXiv preprint arXiv:1310.1969. arXiv:1310.1969v2.

[11] Tikhonov, Andrey Nikolayevich (1943). “Об устойчивости обратных задач [On the stability of inverse problems]”. Doklady Akademii Nauk SSSR 39 (5): 195–198.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

モデル	適合尺度	エントロピー尺度^[5]^[6]
赤池情報量規準/ベイズ情報量規準	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{0}$
リッジ回帰^[2]	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{2}$
ラッソ回帰^[1]	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{1}$
エラスティックネット^[7]	$\\|Y-X\beta \\|_{2}$	$\lambda _{1}\\|\beta \\|_{1}+\lambda _{2}\\|\beta \\|_{2}$
基底追跡ノイズ除去	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\beta \\|_{1}$
Rudin-Osher-Fatemi モデル (TV)	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\nabla \beta \\|_{1}$
Potts モデル	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\nabla \beta \\|_{0}$
RLAD^[8]	$\\|Y-X\beta \\|_{1}$	$\\|\beta \\|_{1}$
Dantzig 選択器^[9]	$\\|X^{\top }(Y-X\beta )\\|_{\infty }$	$\\|\beta \\|_{1}$
SLOPE^[10]	$\\|Y-X\beta \\|_{2}$	$\sum _{i=1}^{p}\lambda _{i}\|\beta \|_{(i)}$