線形回帰

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

線形回帰(せんけいかいき、linear regression)とは、統計学における回帰分析の一種である。

1つ従属変数と1つの独立変数がある線形回帰の例。

基本モデル[編集]

従属変数 Y と独立変数 Xi, i = 1, ..., p およびランダム項 e の関係をモデル化する。 モデルは下式により表される。

Y = \beta_0  + \beta_1 X_1 + \beta_2 X_2 +  \cdots +\beta_p X_p + \varepsilon

ここで \beta_0切片(「定数」項)、 \beta_i は各々の独立変数の係数であり、 p はこの線形回帰で推定される母数の個数である。線形回帰は非線形回帰と対比される。

この方法が「線形」回帰と呼ばれるのは、応答(従属変数 Y)が独立変数に対して線形関数(一次関数)であると仮定されるからである。しばしば誤って考えられているのは、この方法が「線形回帰」と呼ばれているのは Y = \beta_{0}+\beta x のグラフが直線であったり、YX 変数の線形関数であるからである、というものである。しかし、モデルがたとえば、

Y = \alpha + \beta x + \gamma x^2 + \varepsilon

であれば、問題は「線形回帰」の問題である。つまり、x および x2 に関し線形であるので、 yx だけとのグラフが直線上になくても線形回帰されたのである。

歴史(未訳)[編集]

記法と命名慣習[編集]

以下の記法を用いる。

  • 変数のベクトルは太い矢印をベクトルの上に書いて表す。例: \vec X
  • 行列は太字(ボールド)体で表す。例:X
  • 母数のベクトルは太字の ß下付きをつけずに表す。

行列 Xß 列ベクトルの積は、 で表す。 従属変数 Y は回帰において「応答変数」と呼ばれる。ベクトル形式で表した独立変数は「説明変数」または「回帰変数」と呼ばれる。説明変数は「外生変数」(がいせいへんすう、exogenous variable)、「入力変数」(にゅうりょくへんすう、input variable)、「予測変数」(よそくへんすう、predictor variable)とよばれる。

ハット (hat) 記号「 \hat{ \ } 」を変数の上につけると、変数や母数の推定量を表す。たとえば、 \hat\beta は母数ベクトル ß の推定量を表す。

線形回帰モデル[編集]

線形回帰モデルはベクトル・行列記法では下式のように表せる。

 \ Y =  X\beta + \varepsilon.\,

e 項はモデルの「誤差項」(誤用であるが標準的)である。本項は測定誤差であるか否かに係らず、慣習的に「誤差」と呼ばれる。本項は \vec X とは独立である。

単回帰(たんかいき、simple linear regression)の場合、説明変数は一つだけであり母数は2つである。上式は以下のようになる。

y = a+bx+\varepsilon.\,

同等な定式化に、線形回帰を条件付き期待値(じょうけんつききたいち、conditional expectation)のモデルとして陽に表すものがある。

 \mbox{E}(y | x) = \alpha + \beta x \,

ここで、所与の x に対する y条件付き分布は誤差項の分布に一致する。

線形回帰の種類[編集]

最小二乗モデル[編集]

最小二乗分析はカール・フリードリッヒ・ガウスが1820年代に発展させた。本方法は以下のガウス―マルコフ仮定を用いる。

  • ランダム誤差 ei の期待値はゼロである。
  • ランダム誤差 ei は相互に無相関である。(確率論的独立性の仮定よりは弱い。)
  • ランダム誤差 ei はen:等分散 、すなわちみな等しい分散をもつ。

ガウス=マルコフの定理も参照。)

以上の仮定は、最小二乗法がある意味で最適な母数の推定量を与えることを意味する。

p 個の係数と回帰切片 ß0線形回帰および n データ点(標本数)を用い、 n\geq (p+1)  は以下のベクトル行列を、関連する標準誤差とともに与える。

 \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & x_{12} & \dots & x_{1p} \\ 1 & x_{21} & x_{22} & \dots & x_{2p} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & x_{n1} & x_{n2} & \dots & x_{np} \end{bmatrix} \begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{bmatrix} + \begin{bmatrix} \varepsilon_1\\ \varepsilon_2\\ \vdots\\ \varepsilon_n \end{bmatrix}

または上記のベクトル・行列記法を用いて、

 \ y =  \mathbf{X}\cdot\beta + \varepsilon.\,

各データ点は (\vec x_i, y_i), i=1,2,\dots,n.である。 n = p の場合、母数の標準誤差は算出できない。n が p より小さい場合、母数は算出できない。

母数の推定量は、

\widehat{\beta} =(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T {\vec y}

ガウス=マルコフの定理による仮定を用いると、結果を分析し、最小二乗法を用いて決定したモデルが有効かどうかを決定できる。 自由度は n − p − 1 で与えられる。

残差は、観測値とモデルによる予測値の差を表し、回帰結果を分析するときに必要となる。以下のように決定される。

\hat\vec\varepsilon = \vec y - \mathbf{X} \hat\beta\,

モデルの標準偏差 \hat \sigma は以下のように決定される。


{\hat \sigma = \sqrt{ \frac {{\hat{\vec\varepsilon}}{\;}^T \hat{\vec\varepsilon}} {n-p-1} } = \sqrt {\frac{ { {\vec{y} }{\,}^T \vec{y} - {\hat{\vec\beta}}{\,}^T \mathbf{X}^T \vec{y} } } {{n - p - 1} } } }

誤差の分散は以下のカイ二乗分布に従う。

\hat\sigma^2 \sim \frac { \chi_{n-p-1}^2 \ \sigma^2 } {n-p-1}

母数の 100(1-\alpha)% 信頼区間である \beta_i は以下のように算出される。


{\widehat \beta_i  \pm t_{\frac{\alpha }{2},n - p - 1} \hat \sigma \sqrt {(\mathbf{X}^T \mathbf{X})_{ii}^{ - 1} } }

ここで tt分布でその自由度は n-p-1 であり  (\mathbf{X}^T \mathbf{X})_{ii}^{ - 1} は行列の第  i^{th} 行および列の値を表す。

100(1-\alpha)% 予測(補間または補外)応答の信頼区間は、値 \vec{x} = \vec {x_d} に対して下式で表される。


{  \vec {x_0}   \widehat\beta \pm t_{\frac{\alpha }{2},n - p - 1} \hat \sigma \sqrt {  \vec {x_0} (\mathbf{X}^T \mathbf{ X})_{}^{ - 1}   \vec {x_0}^T } }

ここで \vec {x_0}  = <1, x_{2}, x_{3}, . . ., x_{p}>  である。

データに対する応答の信頼区間の予測は、100(1-\alpha)% 以下のように与えられる。


{  \vec {x_0}   \widehat\beta \pm t_{\frac{\alpha }{2},n - p - 1} \hat \sigma \sqrt {1 +   \vec {x_0} (\mathbf{X}^T \mathbf{X})_{}^{ - 1}   \vec {x_0}^T } }

回帰の二乗和 SSR は下式で与えられる。


{\mathit{SSR} = \sum {\left( {\hat{y_i}  - \bar y} \right)^2 }  = {\hat\beta}^T \mathbf{X}^T   \vec y - \frac{1}{n}\left( {  {\vec y}^T   \vec u  {\vec u}^T   \vec y} \right)}

ここで  \bar y = \frac{1}{n} \sum y_i であり   \vec u n × 1 の1ベクトル(各要素が1)である。 項 \frac{1}{n} y^T u u^T y \frac{1}{n} (\sum y_i)^2 と等価である。

誤差の二乗和 ESS は下式で与えられる。


{\mathit{ESS} = \sum {\left( {y_i - \hat{y_i} } \right)^2 } = {\vec y}^T \vec y - {\hat\beta}^T \mathbf{X}^T   \vec y}.

二乗和の全和 TSS' は下式で与えられる。


{\mathit{TSS} = \sum {\left( {y_i  - \bar y} \right)^2 }  =   \vec y^T   \vec y - \frac{1}{n}\left( {  {\vec y}^T   \vec u  {\vec u}^T   \vec y} \right) = \mathit{SSR}+ \mathit{ESS}}.

決定係数, R² は下式で与えられる。


{R^2  = \frac{\mathit{SSR}}{{\mathit{TSS}}} = 1 - \frac{\mathit{ESS}}{\mathit{TSS}}}.

最小二乗モデルの評価[編集]

線形回帰の応用[編集]