DFFITS

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

DFFITS統計学回帰分析において、ある点の影響度を示す統計量である。 1980年に出版されたベルスレー、クー、ウェルシュ共著の『回帰診断:影響の強いデータと共線形性の源泉を同定する』 [1] で提案された。

DFFITS は 問題の点を回帰から外した場合の予測(回帰)値の変化 "DFFIT" を問題の点での当てはめの標準偏差の推定値で割って(スチューデント化、'S')したものである。

DFFITS = {\widehat{y_i} - \widehat{y_{i(i)}} \over s_{(i)} \sqrt{h_{ii}}}

ここで \widehat{y_i}\widehat{y_{i(i)}} は点 i が回帰に含まれた場合と除かれた場合の予測値である。 s_{(i)} は問題の点を含まずに推定された標準誤差の値である。 h_{ii} は その点のてこ値 である。

DFFITS は外部スチューデント化残差に 似ている。 実はそれを\sqrt{h_{ii}/(1-h_{ii})} 倍したものである[2]。 誤差が正規分布するとき、 外部スチューデント化残差はスチューデントのt分布自由度は(残差の自由度-1))する。 ある点での DFFITS とその点でのテコ因子 \sqrt{h_{ii}/(1-h_{ii})} との積は同じt分布をする。 したがって、テコ値の小さい点では DFFITS は小さいことが期待され、テコ値が 1 に近づくと DFFITS 値の分布は無限に広がる。

完全に均衡のとれた実験計画、たとえば(:en:因子計画 や均衡部分因子計画)の場合、 各点でのテコ値は p/n 、すなわち母数の個数を点の個数で割ったものである。 これは DFFITS 値が(正規分布の場合)\sqrt{p \over n-p} \approx \sqrt{p \over n} と t 変数の積である。 したがって、同書の著者は DFFITS が 2\sqrt{p \over n} より大きい場合を外れ点としてチェックすることを薦めている。

類似の量に en:クックの距離 がある。

文献[編集]

  1. ^ Belsley, David A.; Edwin Kuh, Roy E. Welsch (c1980). Regression diagnostics : identifying influential data and sources of collinearity. Wiley series in probability and mathematical statistics. New York: John Wiley & Sons. ISBN 0471058564. 
  2. ^ Montogomery, Douglas C.; Elizabeth A. Peck (c1992). “Appendix C.4” (English). Introduction to Linear Regression Analysis (2nd ed. ed.). New York: John Wiley & Sons. pp. 504-505. ISBN 0-471-53387-4.