回帰分析
統計学 |
回帰分析 |
---|
モデル |
推定 |
背景 |
回帰で使われる、最も基本的なモデルは という形式の線形回帰である。
歴史
[編集]「回帰」という用語は、英語の「regression」からの翻訳であるが、元々は生物学的現象を表すために19世紀にフランシス・ゴルトンによって造られた。ゴルトンは、背の高い祖先の子孫の身長が必ずしも遺伝せず、先祖返りのように平均値に戻っていく、すなわち「逆戻り、後戻り(=regression)」する傾向があることを発見した。これを「平均への回帰」という。ゴルトンはこの事象を分析するために「線形回帰(英: linear regression)」を発明した。ゴルトンにとって回帰はこの生物学的意味しか持っていなかったが、のちに統計学の基礎となり、「回帰(英: regression)」という用語も統計学へ受け継がれたのである。
概要
[編集]回帰分析では独立変数と従属変数の間の関係を表す式を統計的手法によって推計する。
従属変数(目的変数)とは、説明したい変数(注目している変数)を指す。独立変数(説明変数)とは、これを説明するために用いられる変数のことである。経済学の例を挙げてみると次のようになる。経済全体の消費()を国民所得()で説明する消費関数が というモデルで表されるとする。この例では、消費 Y が従属変数、国民所得 X が独立変数に対応する。そして 、 といった係数(パラメータ)を推定する。
最も単純な方法は上式のような一般化線形モデルを用いる線形回帰であるが、その他の非線形モデルを用いる非線形回帰もある。
モデル
[編集]非線形
最小二乗法による推定
[編集]パラメータを推定する代表的な方法として、最小二乗法がある。これは、二乗和誤差を最小化する最尤推定である。
最小二乗法の概要は次の通りである。初めに回帰式(目的変数を説明変数で計算する式)を設定する。次に、回帰式の係数を求めるが、「従属変数の測定値と、独立変数の測定値および回帰式を用いて求めた推定値の差の二乗和誤差」が最小になるように求める。線形モデルの場合、回帰式の係数で推定値の差の2乗平均を微分し0と置いた連立方程式を解いて求められる。
独立変数同士の相関
[編集]マーケティングやアンケートでよく使う一般的な重回帰の場合、複数の説明変数同士は強い相関がないという仮定が入っている。そのため、一般化線形モデルで説明変数同士が関連性の高いものを使うと係数が妙な値になることがあるので注意する必要がある(これは多重共線性と呼ばれる)。
- 例:小学校での定期テスト得点から重回帰で分析する場合に、理科の点数を従属変数に、算数と国語を説明変数にした場合、算数が増えると理科の点数が多く、国語の点数が高ければ理科の点数が減るといった意味の係数が出ることがある。これは算数と国語の点数に強い相関が両者にあるからである。この場合は算数と国語の平均点と、算数と国語の得点の差というように和と差に数字を加工すると、この2つは相関が大抵低く、かつ解釈しやすい。算数と国語の得点の差は、算数の方が高い生徒の方が理科の点数が高い傾向があるというように理解できるからである。
これは、線形モデルの問題であるため、線形モデルが不適切ならば、非線形モデルを使用すればよい。また、共分散構造分析という重回帰より複雑な関係を適切に説明できるモデルもある。
語源
[編集]回帰は語源的には回帰効果(平均への回帰)に由来する。回帰効果は相関(直線的な関係)が低い場合に顕著に現れる。しかし回帰分析では必ずしも直線的関係を仮定しない。また「目的変数yを説明変数xに回帰する」といい、「回帰」という言葉が由来とは異なる意味に使われている。
解析ソフト
[編集]- NAG
- IMSL
- R言語 - 統計解析言語。回帰分析ほか多くの統計関数を標準装備したフリーウェア。『モデル式』でモデル記述や当てはめが容易。他アプリケーションのファイル取込やODBC接続対応。FDA公認。CRANという仕組みで世界の膨大なソフトを無償利用可能。可視化機能に優れ、日本語対応。マルチプラットフォーム。
- Stata
- Gretl
脚注
[編集]- ^ 『統計学入門』(東京大学出版会)、257頁
参考文献
[編集]- 『統計学入門』東京大学出版会、1991年。
- J. R. Taylor 著、林茂雄、馬場凉(訳) 編『計測における誤差解析入門』東京化学同人、2000年。
- 蓑谷千凰彦『回帰分析のはなし』東京図書、1985年。