ボックス・ジェンキンス法

ボックス・ジェンキンス法（ボックス・ジェンキンスほう、Box–Jenkins method）^[1]は、統計家のジョージ・ボックスとグウィリム・ジェンキンスにちなんで名付けられたもので、時系列分析に自己回帰移動平均（ARMA）モデルまたは自己回帰和分移動平均（ARIMA）モデルを適用して、過去の時系列データに対する時系列モデルに最も適合するものを求めるものである。

モデリングアプローチ[編集]

オリジナルのモデルでは、3段階の反復的なモデリング手法を採用している。

モデル識別およびモデル選択：変数が定常であることを確認し、従属系列の季節性を識別し（必要であれば季節差分を取る）、従属時系列の自己相関関数（ACF）と偏自己相関関数（PACF）のプロットを使用して、モデルに使用すべき自己回帰成分または移動平均成分を（もしあれば）決定する。
選択された ARIMA モデルに最も適合する係数に到達するための計算アルゴリズムを使用したパラメータ推定。最も一般的な方法は、最尤推定または非線形最小二乗推定である。
推定されたモデルが定常単変量プロセスの仕様に適合しているかどうかを検定する統計モデル検定。具体的には、残差が互いに独立で、時間的に平均と分散が一定であること。残差の平均と分散を経時的にプロットしてリュング・ボックス検定を行ったり、残差の自己相関と偏自己相関をプロットすることは、仕様の誤りを特定するのに有用である。推定が不十分な場合は、ステップ1に戻り、よりよいモデルの構築を試みなければならない。

彼らが使用したデータはガス炉からのものであった。これらのデータは、予測モデルのベンチマーク用の Box and Jenkins gas furnace データとしてよく知られている。

Commandeur＆Koopman（2007, §10.4）は、ボックス・ジェンキンス法には根本的な問題があると主張している^[2]。この問題は、「経済・社会の分野では、いくら差分をとっても実際の時系列データは決して定常ではない」ことに起因する。そのため、調査者は「定常にどれだけ近いか」という問題に直面しなければならない。著者は、「これは答えにくい問題である」と指摘している。著者はさらに、ボックス・ジェンキンス法を用いるよりも、時系列の定常性を必要としない状態空間法を用いた方がよいと主張している。

ボックス・ジェンキンス・モデルの識別[編集]

定常性と季節性[編集]

ボックス・ジェンキンス・モデルを開発する最初のステップは、時系列が定常であるかどうか、モデル化すべき重要な季節性があるかどうかを判断することである。

定常性の検出[編集]

定常性は、ラン・シーケンス・プロットから評価することができる。ラン・シーケンス・プロットは、一定の位置とスケールを示していなければならない。また、自己相関プロットからも検出できる。具体的には、非定常性は、自己相関プロットが非常にゆっくりと減衰することで示されることが多い。

季節性の検出[編集]

季節性（または周期性）は通常、自己相関プロット、季節サブシリーズプロット、スペクトルプロットなどから評価することができる。

定常性を達成するための差分[編集]

ボックスとジェンキンスは、定常性を実現するために差分法を推奨しているが、ボックス・ジェンキンス・モデルでは、曲線をフィッティングして元のデータからフィッティングされた値を差し引く方法も使用できる。

季節差分[編集]

モデル同定の段階では、季節性が存在する場合はそれを検出し、季節性自己回帰項と季節性移動平均項の次数を特定することを目指す。多くの系列では、期間は既知であり、単一の季節性項で十分である。たとえば、月次データの場合、通常、季節性 AR 12 項または季節性 MA 12 項のいずれかを含めることになる。ボックス・ジェンキンス・モデルでは、モデルを当てはめる前に季節性を明示的に除去しない。その代わりに、ARIMA 推定ソフトウェアのモデル仕様に季節項の次数を含める。しかし、データに季節差分を適用し、自己相関プロットと偏自己相関プロットを再生成することは有用かもしれない。これは、モデルの非季節性成分のモデル同定に役立つかもしれない。場合によっては、季節差分を付けることで、季節性効果のほとんどまたは全てを取り除くことができる。

p と q を特定する[編集]

定常性と季節性の問題が解決したら、次は、自己回帰項と移動平均項の次数（つまり、p と q）を特定する。p と q を特定する方法は、著者によって異なります。Brockwell and Davis（1991）は、「[ $\mathrm {ARMA} (p,q)$ モデルの中から] モデルを選択するための我々の主要な基準は、AICc である」と述べているが、これは赤池情報量規準（AIC）を補正したものである^[3]。他の著者らが用いる、自己相関プロットと偏自己相関プロットについて述べる。

自己相関プロットおよび偏自己相関プロット[編集]

標本の自己相関プロットと標本の偏自己相関プロットを、次数が既知の場合のこれらのプロットの理論的な挙動と比較した。

具体的には、自己回帰モデル $\mathrm {AR} (1)$ の場合、標本の自己相関関数は指数関数的に減少していくはずである。しかし、高次の自己回帰プロセスでは、指数関数的に減少する成分と減衰する正弦波の成分が混在していることが多い。

高次の自己回帰モデル $\mathrm {AR} (p),\,p>1$ では、標本の自己相関を偏自己相関プロットで補足する必要がある。偏自己相関はラグ p + 1 以上でゼロになるので、ゼロからの逸脱があるか、標本の偏自己相関関数を調べる。これは通常、標本の偏自己相関プロットに 95％信頼区間を置くことによって決定される（サンプルの自己相関プロットを生成するほとんどのソフトウェア・プログラムは、この信頼区間もプロットする）。信頼区間は標本サイズ N を用いて $\pm 2/{\sqrt {N}}$ で近似することができる。

移動平均モデル $\mathrm {MA} (q)$ の場合、自己相関関数はラグ q + 1 以上でゼロになるので、標本の自己相関関数を調べて、本質的にどこでゼロになるかを確認する。これは、標本のの自己相関関数の95％信頼区間を標本の自己相関プロットに配置することで行う。自己相関プロットを生成できるほとんどのソフトウェアは、この信頼区間も生成できる。

標本の偏自己相関関数は、一般的に移動平均プロセスの次数を特定するのには役立たない。

次の表は、モデルの識別に標本の自己相関関数をどのように使用できるかをまとめたものである。

形	示されたモデル
指数関数的、ゼロに減衰	自己回帰モデル（偏自己相関プロットを用いて次数を特定する）
正と負を交互に繰り返し、ゼロに減衰する	自己回帰モデル（偏自己相関プロットを用いて、次数を特定する）
1つ以上のスパイク、残りは本質的にゼロ（またはゼロに近い）	移動平均モデル（プロットがゼロになるところを次数とする）
減衰がラグの後に始まる	自己回帰と移動平均の混合モデル（ARMA モデル）
すべてゼロまたはゼロに近い	データは本質的にランダム
一定の間隔で高い値	季節的な自己回帰項を含める
ゼロへの減衰はない（または非常にゆっくりと減衰する）	系列は非定常

Hyndman＆Athanasopoulosは次のことを示唆している： ^[4]

差分データの自己相関関数のプロットと偏自己相関関数のプロットが次のパターンを示す場合、データは

\mathrm {ARIMA} (p,d,0)

モデルに従っている可能性がある。

自己相関関数のプロットでは指数関数的に減衰するか、正弦波である
偏自己相関関数のプロットではラグ p で有意なスパイクがみられるが、ラグ p 以降はない

差分データの自己相関関数のプロットと偏自己相関関数のプロットが次のパターンを示す場合、データは

\mathrm {ARIMA} (0,d,q)

モデルに従っている可能性がある。

偏自己相関関数のプロットでは指数関数的に減衰するか、正弦波である
自己相関関数のプロットではラグ q で有意なスパイクがあるが、ラグ q 以降はない

実際には、標本の自己相関関数と偏自己相関関数は確率変数であり、理論な関数と同じような状況になるわけではない。そのため、モデルの識別が難しくなる。特に、混合モデルの同定は難しいと言われている。経験は役に立つが、これらの標本プロットを使って良いモデルを開発するには、多くの試行錯誤が必要である。

ボックス・ジェンキンス・モデルの推定[編集]

ボックス・ジェンキンス・モデルのパラメータを推定するには、非線形方程式の解を数値的に近似する必要がある。このため、この手法に対応した統計ソフトウェアを使用するのが一般的で、最近の統計パッケージにはほぼすべてこの機能が搭載されている。ボックス・ジェンキンス・モデルをフィッティングするための主な方法は、非線形最小二乗法と最尤推定法である。一般的には、最尤推定が推奨される。完全なボックス・ジェンキンス・モデルの尤度方程式は複雑であり、ここには説明しない。数学的詳細については、（Brockwell and Davis, 1991）を参照のこと。

ボックス・ジェンキンス・モデルの診断[編集]

安定した単変量プロセスの仮定[編集]

ボックス・ジェンキンスモデルにおけるモデル診断は、非線形最小二乗フィッティングのモデル検証に似ている。

つまり、誤差項 A_t は、定常単変量プロセスの仮定に従うものとする。残差は、平均と分散が一定の固定分布からのホワイトノイズ（または、その分布が正規分布の場合は独立）でなければならない。ボックス・ジェンキンス・モデルがデータに対して良いモデルであれば、残差はこれらの仮定を満たすはずである。

これらの仮定が満たされない場合は、より適切なモデルを当てはめる必要がある。つまり、モデルの同定段階に戻って、より良いモデルの開発を試みる。残差の分析によって、より適切なモデルを見つける手がかりが得られることを期待する。

ボックス・ジェンキンス・モデルからの残差が仮定に従っているかどうかを評価する一つの方法は、残差の統計的なグラフィックス（自己相関プロットを含む）を生成することである。リュング・ボックス統計量を確認することもできる。

参考文献[編集]

“Comparison of Box–Jenkins and objective methods for determining the order of a non-seasonal ARMA model”, Journal of Forecasting 13: 419–434, (1994), doi:10.1002/for.3980130502
Pankratz, Alan (1983), Forecasting with Univariate Box–Jenkins Models: Concepts and Cases, John Wiley & Sons
A First Course on Time Series Analysis – SASを使用した時系列分析に関するオープンソースの本（第7章）
NIST のエンジニアリング統計ハンドブックの Box-Jenkins models
ロブ・J・ハインドマンによる Box-Jenkins modelling
Theresa Hoang Diem Ngo による The Box-Jenkins methodology for time series models

出典[編集]

^ Box, George; Jenkins, Gwilym (1970). Time Series Analysis: Forecasting and Control. San Francisco: Holden-Day
^ Commandeur, J. J. F.; Koopman, S. J. (2007). Introduction to State Space Time Series Analysis. Oxford University Press
^ Brockwell, Peter J.; Davis, Richard A. (1991). Time Series: Theory and Methods. Springer-Verlag. p. 273
^ Hyndman. “Forecasting: principles and practice”. 2015年5月18日閲覧。

[1] Box, George; Jenkins, Gwilym (1970). Time Series Analysis: Forecasting and Control. San Francisco: Holden-Day

[2] Commandeur, J. J. F.; Koopman, S. J. (2007). Introduction to State Space Time Series Analysis. Oxford University Press

[3] Brockwell, Peter J.; Davis, Richard A. (1991). Time Series: Theory and Methods. Springer-Verlag. p. 273

[4] Hyndman. “Forecasting: principles and practice”. 2015年5月18日閲覧。

[1]

[2]

[3]

[4]