データ解析

出典: フリー百科事典『ウィキペディア(Wikipedia)』

データ解析(データかいせき、: data analysis)は、データ分析(データぶんせき)とも呼ばれ、有用な情報を発見し、結論を報告し、意思決定を支援することを目的として、データを検査し、クリーニング英語版変換英語版を経て、モデル化する一連のプロセスである[1]。データ解析には多数の側面とアプローチがあり、色々な名称のもとで多様な手法を包含し、ビジネス、科学、社会科学のさまざまな領域で用いられている[2]。今日のビジネス界において、データ解析は、より科学的な意思決定を行い、ビジネスの効率的な運営に貢献する役割を担っている[3]

データマイニングは、(純粋な記述的な目的ではなく)予測的な目的で統計的モデリングと知識獲得に重点を置いた固有のデータ解析技術である。これに対し、ビジネスインテリジェンスは、主にビジネス情報に重点を置いて、集計に大きく依存するデータ解析を対象としている[4]。統計学的な用途では、データ解析は記述統計学 (en:英語版探索的データ解析(EDA)、確認的データ解析(仮説検定)(CDA)に分けられる[5]。EDAはデータの新たな特徴を発見することに重点を置き、CDAは既存の仮説の確認または反証に焦点を当てる[6][7]予測分析は、予測的な発生予報あるいは分類のための統計モデルの応用に重点を置き、テキスト分析は、統計的、言語的、および構造的な手法を用いて、非構造化データの一種であるテキストデータから情報を抽出し知識の発見や分類を行う。上記はどれも、データ解析の一種である[8]

データ統合英語版はデータ解析の前段階であり、データ可視化およびデータ配布英語版はデータ解析と密接に関連している[9]

データ解析のプロセス[編集]

データ解析のプロセス。Doing Data Science, Schutt & O'Neil (2013)から。

解析(analysis)とは、全体を構成要素に分割し、個々を考察することである[10]。データ解析とは、生データ英語版を入手し、それを利用者の意思決定に役立つ情報に変換するプロセス英語版である[1]。データ(data)は、質問に答えたり、仮説を検証したり、理論を反証するために収集され、解析される[11]

統計学者のジョン・テューキーは、1961年にデータ解析を次のように定義した。

「データを解析する手順、その結果を解釈するための技術、解析をより容易に、正確で、精密にするためのデータ収集の計画方法、およびデータの解析に適用されるすべての機械と(数学的)統計学の結果」[12]

以下に説明するように、区別することができるいくつかの段階がある。各段階は反復的英語版であり、後の段階からのフィードバックが、前の段階での追加作業につながることがある[13]データマイニングで使用されるCRISPフレームワーク英語版にも同様のステップがある。

データ要件[編集]

データは、解析の入力として必須なものであり、解析プロセスを管理する人(または解析結果を報告する顧客)の要求に基づいて特定される[14][15]。データ収集の対象となる一般的な主体は実験単位英語版と呼ばれる(例:人、または人の集団)。そして、データは母集団に関する特定の変数(例:年齢や所得)を指定して収集される。データは、数値でもカテゴリでもよい(例:番号に紐付くテキスト型ラベル)[13]

データ収集[編集]

データはさまざまな情報源から収集される[16][17]。その要求事項は、解析者からデータ管理者英語版(たとえば、組織内の情報システム技術者英語版)に伝えられる場合がある[18]。データは、交通監視カメラ、人工衛星、記録装置など、環境内のセンサーから収集されることもある。また、インタビュー、オンライン情報源からのダウンロード、または文書の閲覧を通じて得ることもある[13]

データ処理[編集]

生の情報を実用的なインテリジェンス(知恵)や知識に変換するためのインテリジェンス・サイクルの各段階は、データ解析における段階と概念的に類似している。

入手したデータはまず、解析のために加工あるいは整理する必要がある[19][20]。たとえば、さらなる解析をするためにデータを表形式の行と列に配置することがあり(構造化データと呼ばれる)、多くの場合、表計算ソフトウェアや統計ソフトウェアが用いられる[13]

データクリーニング[編集]

一度でも処理されて整理を受けたデータは、不完全であったり、重複があったり、誤りを含むことがある[21][22]データクリーニングの必要性は、データの入力や保存のしかたに問題があることから発生する。データクリーニングは、このようなエラー(誤り)を防ぎ、修正する作業である[21]。一般的な作業としては、レコードの照合、データの不正確さの特定、既存データ全体の品質管理、重複排除、および列の分割が含まれる[23]。このようなデータの問題は、さまざまな解析技術によっても見つけることができる。たとえば、財務情報の場合、特定の変数の合計を、信頼性が高いと考えられる別途公表された数値と比較することができる[24][25]。また、事前に決められた閾値(しきいち)を上回ったり下回ったりする異常値(外れ値)も再調査されることがある。データクリーニングには、電話番号、電子メールアドレス、勤務先など、データ集合内のデータ型に依っていくつかの種類がある[26][27]。異常値検出のための定量的データ手法を用いて、誤入力された可能性が高いと思われるデータを取り除くことができる[28]。テキストデータのスペルチェッカーを用いて入力ミスの量を減らすことができる。ただし、単語そのものが正しいか否かを判断するのは難しい[29]

探索的データ解析[編集]

データセットをクリーニングすると、次に解析に移ることができる。解析者は、取得したデータに含まれるメッセージを理解し始めるために、探索的データ解析と呼ばれるさまざまな手法を適用することができる[30]。データ探索の過程で、データのクリーニングを追加したり、データへの要求を追加することもある。その結果、本節の冒頭で説明したような反復的な段階が開始される[31]。データの理解を助けるために、平均値や中央値などの記述統計量英語版を作成することもある[32][33]データ可視化もその一つであり、解析者はデータを図表化し、考察をして、データ内のメッセージについてさらなる洞察を得ることができる[13]

モデリングとアルゴリズム[編集]

変数間の関係を特定するために、数式またはモデルアルゴリズムと呼ばれる)をデータに適用する場合がある。たとえば、相関関係因果関係を使用する[34][35]。一般論として、モデルは、データセット内に含まれる他の変数に基づいて特定の変数を評価するために開発され、実装されたモデルの精度に応じて多少の残余誤差英語版が生じる(たとえば、データ = モデル + 誤差)[36][11]

推測統計には、特定の変数間の関係を測定する手法の利用が含まれる[37]。たとえば、広告の変化(独立変数 X)が、売上(従属変数 Y)が変動する説明を与えるかどうかをモデル化するのに、回帰分析を用いることがある[38]。数学の用語では、Y(売上高)はX(広告)の関数である[39]。たとえば、モデルを「Y = aX + b + 誤差」と記述することができ、X の所与の範囲に対して Y を予測するときの誤差を最小化するように ab が設計される[40]。また、解析者は、解析を単純化し、結果を伝達することを目的に、記述的データ解析のためのモデル構築を試みることもある[11]

データプロダクト[編集]

データプロダクトdata product)は、データの入力から出力を生成し、環境にフィードバックするコンピュータ・アプリケーションである[41]。モデルやアルゴリズムに基づいている場合もある。たとえば、顧客の購入履歴データを分析し、その結果を利用して、顧客に有益さをもたらすような別の購入を勧めるアプリケーションがあげられる[42][13]

コミュニケーション[編集]

データ可視化は、データ解析後の結果を理解するのに役立つ[43]

データの解析後は、解析結果の利用者からの要求に応えるために、さまざまな書式で報告されることがある[44]。利用者からフィードバックがなされ、その結果、追加の分析が行われることもある。このように、分析サイクルの大部分は反復的である[13]

解析者は、解析結果を伝えるやり方を決める際、メッセージをより明確かつ効率的に報告先に伝達するために、さまざまなデータ可視化手法の導入を検討することができる[45]。データ可視化は、情報ディスプレイ(表やグラフなどのグラフィクス)を用いて、データに含まれる重要なメッセージを伝達する[46]は、特定の数値に着目したり照会できる重要なツールであり、一方、チャート(棒グラフや折れ線グラフなど)は、データに含まれる定量的なメッセージを説明するのに役立つ場合がある[47]

定量的メッセージ[編集]

米国連邦政府の歳出と歳入の時系列推移を示す折れ線グラフ。
ある時点で測定された2つの変数(インフレ率と失業率)の相関関係を示す散布図。

ステファン・フュー(Stephen Few)は、利用者が一連のデータから理解しようとする、あるいは伝えようとする8種類の定量的メッセージと、そのメッセージの伝達を助けるために使用される関連グラフについて述べた[48]。要求を指定する顧客とデータ解析を行う解析者は、プロセスの推移でこれらのメッセージを検討することができる[49]

  1. 時系列: 10年間の失業率など、ある期間にわたって一つの変数を捉える。トレンドを示すために折れ線グラフを使用することもある[50]
  2. ランキング: データは、カテゴリで細分化され、昇順または降順でランク付けされる。たとえば、ある期間の営業担当者(カテゴリに対応)が、販売実績(尺度に対応)でランク付けされる[51]。営業担当者間の比較を示すために棒グラフを使用することがある[52]
  3. 部分対全体: カテゴリ別に細分化した量を、全体に対する比率(100%中の割合)で測定する。円グラフや棒グラフで、市場における競合他社のシェアなど、比率を比較して示すことができる[53]
  4. 偏差値: カテゴリごとに細分化したものを、ある基準に対して比較する。たとえば、ある期間のビジネスにおける幾つかの部門の経費について予算と実績を比較する場合である。棒グラフは、実際の金額と基準金額の比較を示すことができる[54]
  5. 度数分布: たとえば、株式市場の利益が0~10%、11~20%などの間隔の間にある年の数など、所与の間隔に対する特定の変数の観察数を示す。棒グラフの一種であるヒストグラムがこの分析に用いられることがある[55]
  6. 相関: 2つの変数 (X, Y) で表される観測結果を比較し、それらが同じ方向、または反対方向に動く傾向があるかを判断する。たとえば、月度サンプルについて、失業率(X)とインフレ率(Y)をプロットする。このメッセージには通常、散布図が使用される[56]
  7. 名目上の比較: 商品コード別の販売量など、カテゴリ別に細分化したものを順不同で比較する。この比較には棒グラフが用いられる[57]
  8. 地理的または地理的空間: 州ごとの失業率や建物の階毎の人数など、地図や配置を横断して変数を比較する。カルトグラムが、典型的なグラフィックとして使用される[58][59]

定量データの解析手法[編集]

著者のジョナサン・クーメイ(Jonathan Koomey)は、定量データを理解するための一連のベストプラクティスを推奨している[60]。これらは次のとおりである。

  • 解析を行う前に、生データに異常がないかをチェックする。
  • 重要な計算を再実行する。たとえば、計算式に基づくデータ列を検証する。
  • 総計が小計の合計であることを確認する。
  • 時間経過に伴う比率など、予測可能な形で関連すべき数値間の関係を確認する。
  • 数字を正規化して比較を容易にする。たとえば、1人当たりの金額、GDPとの比較、または指標値として基準年と比較して分析する。
  • 自己資本利益率に対するデュポン分析英語版のように、結果を導いた要因を分析し、問題を構成要素に分解する[25]

解析者は通常、調査対象となる変数について、平均、中央値標準偏差などの記述統計量を求める[61]。また、個々の値が平均値の周囲にどのように集まっているかを確認するために、主要変数の分布を分析することもある[62]

データ分析に使用されるMECE原則の図解。

マッキンゼー・アンド・カンパニーのコンサルタントは、定量的な問題を構成要素に分解する手法をMECE原則と名付けた。各層は、その構成要素に分解することができる[63]。各々の部分構成要素は互いに排他的英語版であり、合わせるとその上位層にならなければならない[64]。この関係は「相互に排他的な項目による完全な全体集合」またはMECE(Mutually Exclusive and Collectively Exhaustive)と呼ばれる。たとえば、利益の定義は、総収入と総費用に分解することができる[65]。そして総収入は、部門A、B、Cの収入(これらは互いに排他的)によって分析でき、総収入に加算される(余すところなくまとまる)べきである[66]

解析者は、特定の分析上の問題を解決するために、ロバスト統計量を使用することがある[67]。解析者は、真の状態に関する特定の仮説を立て、その状態が真であるか偽であるかを判断するために、データが収集されて仮説検定が行われる[68][69]。たとえば、「失業はインフレに影響しない」という仮説が考えられる。これはフィリップス曲線と呼ばれる経済学の概念に関連している[70]。仮説検定では、データが仮説を支持するか棄却するかに関する第一種過誤と第二種過誤の可能性を検討する[71][72]

回帰分析は、独立変数 X が従属変数 Y にどの程度影響するかを解析者が判断するときに使用される。たとえば「失業率の変化 X はインフレ率 Y にどの程度影響するか」[73]。これは、Y が X の関数であるように、データをモデル化または直線や曲線の方程式を適合させようとするものである[74][75]

必要条件分析(NCA)は、解析者が独立変数 X が変数 Y をどの程度まで許容するかを決定するときに使用することがある。たとえば「特定のインフレ率(Y)に必要な特定の失業率(X)はどの程度か?」[73]重回帰分析が、各 X 変数が結果を生成し、X が相互に補償できる(それらは十分であるが必要ではない)加法論理を用いるのに対し[76]、必要条件分析(NCA)は、1つまたは複数の X 変数が結果の存在を可能にするが、それを生成しないかもしれない(それらは必要だが十分ではない)必要論理を用いる。それぞれの単一必要条件は存在しなければならず、補償は不可能である[77]

データ利用者の分析活動[編集]

データ利用者は、上述の一般的なメッセージングとは対照的に、データセット内で特定のデータポイントに関心を抱くことがある。このような利用者による低水準な分析活動を次の表に示す。この分類法はまた、値の取得、データポイントの発見、データポイントの配置という3つの活動の柱によって整理することができる[78][79][80][81]

# 作業 概要 概念的な要約 事例
1 値の取り出し 特定の事例の集合が与えられたとき、それらの事例の属性を見つける。 データ事例{A, B, C, ...}の属性{X, Y, Z, ...}の値は何か? - フォードモンデオの1ガロンあたりの走行距離は?

- 映画「風と共に去りぬ」の上映時間は?

2 選別 属性値に関する具体的な条件が与えられ、その条件を満たすデータ事例を見つけ出す。 条件{A, B, C...}を満たすデータ事例はどれか? - どのケロッグのシリアルが食物繊維を豊富に含むか?

- どのコメディーが受賞したことがあるか?

- どの株式がS&P 500で目標未達であったか?

3 導出値の計算 データ事例の集合が与えられたとき、それらデータ事例の集計数値表現を計算する。 与えられたデータ事例の集合Sに対する集計関数Fの値はなにか? - ポスト・シリアルの平均カロリーはどのくらいか?

- 全ての店舗の総収入を合計するといくらか?

- 自動車メーカーは何社あるか?

4 極値の検索 ある属性の値が、データセット内の範囲内で極値を持つデータ事例を探す。 属性Aに関する上位/下位N個のデータ事例はどれか?

- 燃費(MPG)が最も優れた車は何か?

- 最も多くの賞を受賞した監督・映画はどれか?

- マーベル・スタジオで、最も公開日の新しい映画はどれか?

5 並び替え データ事例の集合が与えられたとき、ある順序尺度に従ってランク付けする。 データ事例の集合Sを、属性Aの値に基づいて並べ替えるとどのような順序になるか? - 自動車を重量で並び替えよ。

- シリアル食品をカロリーによってランク付けせよ。

6 範囲の決定 データ事例の集合と関心がある属性が指定されたとき、集合内の値の範囲を求める。 データ事例の集合Sでの属性Aの値の範囲は? - フィルムの長さの範囲はどれくらいか?

- 車の馬力の範囲はどれくらいか?

- このデータセットにはどういった女優が含まれているか?

7 分布の特徴づけ データ事例の集合と関心のある量的属性が与えられたとき、その属性の集合全体での値の分布を特徴づける。 データ事例の集合Sにおける属性Aの値はどのように分布しているか?

- シリアル食品中の炭水化物の分布はどのようであるか?

- 買い物客の年齢はどのように分布しているか?

8 異常の発見 与えられたデータ事例の集合の中で、特定の関係または期待に関する異常値(統計的外れ値など)を特定する。 データ事例の集合Sにおいて、どのデータ事例が予期しない/例外的な値であるか? - 馬力と加速度の関係に例外はあるか?

- タンパク質の含有量について外れ値はあるか?

9 クラスター データ事例の集合の中で、類似した属性値のクラスター(集団)を見つける。 データ事例の集合Sの中で、属性値{X, Y, Z, ...}が類似しているデータ事例はどれか?

- 類似の脂肪分/カロリー/糖分を含むシリアル食品のグループはあるか?

- 典型的なフィルム長のクラスターはあるか?

10 相関 データ事例の集合の中で、2つの属性の値の間で有用な関係を決定する。 与えられたデータ事例の集合Sにおける属性XとYの相関は? - 炭水化物と脂肪の間には相関があるか?

- 原産国と燃費(MPG)の間には相関があるか?

- 性別によって支払方法の好みは異なるか?

- フィルム長が年とともに長くなる傾向はあるか?

11 文脈の理解[81] データ事例の集合が与えられたとき、利用者に対するデータの文脈上の関連性を見出す。 データ事例の集合Sの中で、どのデータ事例が現在の利用者の状況と関連しているか? - 現在のカロリー摂取量に基づいた料理があるレストランのグループはあるか?

効果的な分析の障壁[編集]

効果的な分析を阻む障壁は、データ解析を行う解析者の間にだけでなく、顧客どうしの間にも存在する可能性がある。事実と意見を区別すること、認知バイアス、および数学的な基礎知識の不足はすべて、健全なデータ解析に対する課題である[82]

事実と意見の混同[編集]

誰もが自分の意見を言う権利をもつが、それは事実に基づくものでなければならない。
ダニエル・パトリック・モイニハン

効果的な分析においては、質問に答えたり、結論や正式な意見を裏付けたり、仮説を検証するために、関連する事実を入手する必要がある[83][84]。事実の定義は「反証できないこと」であり、分析に関わるすべての人がその事実に同意できるという意味である[85]。たとえば、2010年8月、米国議会予算局英語版(CBO)は、2001年と2003年のブッシュ減税を2011年-2020年までの期間に延長すると、約3兆3千億ドルの国家債務が追加されると試算した[86]。誰もがCBOの報告を調べることができ、実際そうだと同意するはずである。これは事実である。人がCBOに賛成するか反対するかは、その人自身の意見である[87]

別の例として、公開会社の監査人は、上場企業の財務諸表が「すべての重要な点において公正に記載されている」かどうか正式な意見を導き出さなければならない[88]。そのためには、事実データや証拠を広範に分析して、意見を裏付ける必要がある。事実から意見へと飛躍するとき、その意見が誤っている可能性は常にある[89]

認知バイアス[編集]

分析に悪影響を及ぼしうる認知バイアスにはさまざまなものがある。たとえば、確証バイアスは、自分の先入観を確認する方法で情報を検索したり、解釈したりする傾向である[90]。さらに、自分の見解を支持しない情報を信用しないこともありうる[91]

解析者は、これらのバイアスを認識し、克服するための特別な訓練を受けることができる[92]。CIAの元アナリストのリチャーズ・ホイヤーは、著書『情報分析の心理学(Psychology of Intelligence Analysis)』の中で、解析者は自らの仮定と推論の連鎖を明確に描写し、結論に関わる不確実性の程度と原因を明記すべきと述べている[93]。彼は、代替案による視点を表面化させ、議論するための手順を強調した[94]

数学的基礎知識の欠如[編集]

有能な解析者は、一般的にさまざまな数値技法に精通している。しかし、顧客は数字や数学の基礎に関する能力を持っていない場合があり、そのような人々は数学的非識字[訳語疑問点]と呼ぶ[95]。またデータを伝える人が、意図的に悪い数値的技法を使って、誤解を招いたり間違った伝達を引き起こそうとする場合もある[96]

たとえば、数値が上昇しているか下降しているかは重要な要素ではないことがある。より重要なことは、経済規模(GDP)に対する政府の歳入や歳出の規模、あるいは企業の財務諸表における収益に対する費用の額など、他の数値との相対的な比較かもしれない[97]。このような数値的技法は、正規化または再スケール化と呼ばれる[25]。インフレ調整(実質データと名目データの比較)や、人口増加や人口動態を考慮するかにかかわらず、解析者が採用するこのような手法は数多く存在する[98]。解析者は、本節の冒頭で説明したさまざま定量的メッセージに対処するために、さまざまな手法を適用している[99]

また、解析者はさまざまな仮定やシナリオの下でデータを解析することもある。たとえば、解析者が財務諸表分析を行う場合、将来のキャッシュフローを推定するために、さまざまな仮定の下で財務諸表を作り直し、それをある金利に基づいて現在価値に割り戻して、企業や株式の評価を下すことがよくある[100][101]。同様に、CBOは、さまざまな政策オプションが政府の歳入、歳出、赤字に及ぼす影響を分析し、主要な指標について代替的な将来シナリオを作成する[102]

その他の話題[編集]

スマートビルディング[編集]

建物のエネルギー消費量を予測するために、データ解析の手法が用いることができる[103]。スマートビルディングを実現するために、データ解析プロセスのさまざまな段階が実行される。スマートビルディングでは、暖房、換気、空調、照明、セキュリティなどのビル管理および制御業務が、ビル利用者のニーズを模倣してエネルギーや時間のような資源が最適化することで自動的に行われる[104]

アナリティクスとビジネスインテリジェンス[編集]

解析(アナリティクス、analytics)とは「意思決定や行動を推進するために、データ、統計的および定量的分析、説明的および予測的モデル、事実に基づくマネジメントを広範に活用すること」である。これはビジネスインテリジェンスのサブセットであり、データを使用してビジネス業績を理解および分析し、意思決定を促進する一連の技術とプロセスである[105]

教育[編集]

データ可視化利用者の分析活動

教育活動では、ほとんどの教育関係者が学生のデータを分析する目的でデータシステム英語版にアクセスしている[106]。これらのデータシステムは、教育者によるデータ分析の精度を高めるために、店頭データ形式英語版で教育者にデータを提示する(埋込みラベル、補足文書、ヘルプシステム、主要パッケージ/表示、内容決定)[107]

専門的注記[編集]

この節には、実務家の助けになるようなかなり専門的な説明が含まれているが、ウィキペディアの記事の一般的な範囲を超えている[108]

初期データ解析[編集]

初期データ解析と本解析の段階の間で最も重要な違いは、初期データ解析では、本来の調査課題に答えるための分析を控えることである[109]。初期データ解析の段階は、次の4つの質問によって導かれる[110]

データの品質[編集]

データの品質は、できるだけ早い段階でチェックする必要がある。データの品質は、さまざまな種類の分析を用いて、いくつかの方法で評価することができる。頻度カウント、記述統計(平均、標準偏差、中央値)、正規性(歪度、尖度、頻度ヒストグラム)、普通の代入法(欠測データの補完)を要する[111]

  • 極端な観測値の分析: データ内に含まれる範囲外の観測値を分析して、分布を乱すように見えるかどうかを確認する[112]
  • コーディングスキームの違いの比較と修正: 変数は、データセット外部にある変数のコーディングスキームと比較され、コーディングスキームが比較できない場合はできる限り修正する[113]
  • 共通法分散英語版(CMV)の確認。

初期データ解析段階において、データの品質を評価するために用いる解析手法の選択は、本解析段階で実施される解析に依存する[114]

測定の品質[編集]

計測機器の品質は、それが研究の焦点または研究課題ではない場合、初期データ解析段階でのみチェックされるべきである[115][116]。測定器の構造が文献で報告されている構造と一致しているかどうかを確認する必要がある。

測定品質を評価する方法は2つある。

初期変換[編集]

データおよび測定値の品質を評価した後、欠損データの入力、または1つ以上の変数の初期変換を行うかを決定することがあるが、これは本解析段階で行うことも可能である[119]。考えられそうな変数の変換を次にあげる[120]

  • 平方根変換(分布が正規分布から中程度にずれている場合)
  • 対数変換(分布が正規分布とかなりの程度で異なる場合)
  • 逆変換(分布が正規分布と著しく異なる場合)
  • カテゴリ化(順序数/二項)(分布が正規分布と大幅に異なり、どの変換も役に立たない場合)

研究の実施は、研究設計の意図を満たしていたか?[編集]

たとえば、結果変数と独立変数がグループ内とグループ間で均等に分散しているかどうかなど、無作為化手順が成功したかどうかを確認する必要がある[121]

無作為化手順を必要としない、あるいは使用しない研究の場合、たとえば、対象の母集団のすべてのサブグループが標本に反映されているかどうかを確認することによって、非無作為抽出の成否を確認する必要がある[122]

チェックすべきその他の可能性のあるデータの歪みは次のとおりである。

データ標本の特徴[編集]

どんな報告書や論文でも、標本の構造を正確に記述する必要がある[124][125]

特に、本解析段階でサブグループ分析を行う場合は、標本の構造(特にサブグループのサイズ)を正確に決定することが重要である[126]

データ標本の特性は、以下を確認することによって評価できる。

初期データ解析の最終段階[編集]

最終段階では、初期データ解析の結果を文書化し、必要で、望ましく、可能な是正措置を講じる[128]

また、本データ解析の当初の計画は、より詳細に指定するか書き直すことがあり、そうすべきである[129][130]

そのためには、本データ解析に関するいくつかの決定を行うことができ、また行うべきである。

  • 正規型の場合: 変数変換英語版か、変数のカテゴリ化(順序変数/二項変数)か、分析手法の修正のいずれかをすべきか?
  • 欠測データの場合: 欠測データを無視または補完するか、どの補完手法を使うべきか?
  • 外れ値の場合: ロバスト解析技術を用いるべきか?
  • 項目が尺度に合わない場合: 項目を省略して測定器を適合させるべきか、それとも他の測定器(その測定器の)との比較可能性を確保すべきか?
  • サブグループが小さい(小さすぎる)場合: グループ間差に関する仮説を取り下げるべきか、正確な検定やブートストラップ法のような小さな標本化技術を用いるべきか?
  • 無作為化手順に欠陥があると思われる場合: 傾向スコアを計算し、それを本解析に共変量として含めることができるか、またそうすべきか?[131]

解析方法[編集]

初期データ解析段階で、いくつかの解析を行うことができる[132]

  • 単変量統計(単一変数)
  • 二変量関連性(相関関係)
  • グラフィカル手法(散布図)

それぞれの変数の測定レベルに対して特別な統計手法が利用できるので、解析においては変数の測定レベルを考慮することが重要である[133]

  • 名目変数と順序変数
    • 度数カウント(数量とパーセンテージ)
    • 関連
      • 周行(クロス集計)
      • 階層的対数線形分析(最大8変数に制限される)
      • 対数線形分析(関連する/重要な変数と考えられる交絡因子を特定するため)
    • 正確な検定またはブートストラップ(サブグループが小さい場合)
    • 新しい変数の計算
  • 連続変数
    • 分布
      • 統計量(平均や中央値、標準偏差、分散、歪度、尖度)
      • 幹葉表示
      • 箱ひげ図(箱型プロット)

非線形解析[編集]

非線形システムからデータを記録する場合、しばしば非線形解析が必要となる。非線形システムは、分岐カオス高調波副高調波英語版など、単純な線形手法では解析できない複雑な動的効果を示すことがある。非線形データ解析は、非線形システム同定英語版と密接に関係している[134]

本データ解析[編集]

本解析段階では、研究課題に答えるための分析、および研究報告書の初稿を書くために必要なその他の関連する分析を行う[135]

探索的アプローチと確認的アプローチ[編集]

本解析段階では、探索的アプローチと確認的アプローチのいずれかを採用することができる。通常は、データを収集する前にアプローチを決定する[136]。探索的分析では、データを分析する前に明確な仮説を立てず、データを適切に説明するモデルを探してデータを検索する[137]。一方、確認的分析では、データに関する明確な仮説が検証される[138]

探索的データ解析は、慎重に解釈する必要がある。一度に複数のモデルを検定する場合、そのうちの少なくとも1つが有意であることを見いだす可能性が高くなるが、これは第一種過誤によるものである可能性がある[139]。複数のモデルを検定する際には、(たとえばボンフェローニ補正で)常に有意水準を調整することが重要である[140]。また、同じデータセットを用いて探索的分析に続いて確認的分析を行うべきではない[141]。探索的分析は、理論のアイデアを見つけるために用いるが、その理論を検証するためのものではない[141]。あるデータセットで探索的にモデルが見つかったとき、同じデータセットで確認的分析を行うと、確認的分析の結果が、最初の探索的モデルがもたらした第一種過誤と同じ誤りを意味する可能性がある[141]。したがって、その確認的分析は、元の探索的分析よりも有益とはならない[142]

結果の安定性[編集]

解析結果がどの程度一般化できるかについて、何らかの指標を持つことは重要である[143]。これを確認するのは難しいことが多いが、結果の安定性を見ることは可能である。結果が信頼できるか?再現性はあるか?、これを確かめるには、主に2つの方法がある[144]

  • 交差検証(クロスバリデーション): データを複数の部分に分割することで、そのデータの一部に基づく分析(適合モデルなど)が、データの別の部分にも一般化するかどうかを確認することができる[145]。ただし、データ内に相関がある場合(たとえば、パネルデータ)、交差検証は一般に不適である[146]。そのため、他の検証方法が必要になることもある。このトピックの詳細については、統計的モデル検査英語版を参照のこと[147]
  • 感度分析英語版: グローバルパラメータを(系統的に)変化させたときの系またはモデルの挙動を調べる手法。その方法の1つはブートストラップ法である[148]

データ解析のフリーソフトウェア[編集]

データ解析のための代表的なフリーソフトを次にあげる。

  • ELKI英語版 - データマイニング指向の可視化機能を備えたJavaによるデータマイニングフレームワーク。
  • KNIME英語版- Konstanz Information Miner、ユーザーフレンドリーで包括的なデータ分析フレームワーク。
  • Orange - 対話的なデータ可視化、統計データ解析、データマイニング、機械学習の手法を備えたビジュアルプログラミングツール。
  • Pandas - Python言語によるデータ解析のためのライブラリ。
  • PAW英語版- CERNで開発されたFORTRAN/Cデータ解析フレームワーク。
  • R - 統計計算とグラフィックスのためのプログラミング言語とソフトウェア環境[149]
  • ROOT - CERNで開発されたC++データ解析フレームワーク。
  • SciPy - データ解析のためのPythonライブラリ。
  • Julia - 数値解析や計算科学に適したプログラミング言語。

国際データ解析コンテスト[編集]

さまざまな企業や団体がデータ解析コンテストを開催し、研究者がデータを活用したり、データ解析による特定の課題を解決したりすることを奨励している[150][151]。よく知られた国際データ解析コンテストの例に次がある[152]

脚注[編集]

出典[編集]

  1. ^ a b “Transforming Unstructured Data into Useful Information”, Big Data, Mining, and Analytics (Auerbach Publications): pp. 227–246, (2014-03-12), doi:10.1201/b16666-14, ISBN 978-0-429-09529-0, https://doi.org/10.1201/b16666-14 2021年5月29日閲覧。 
  2. ^ “The Multiple Facets of Correlation Functions”, Data Analysis Techniques for Physical Scientists (Cambridge University Press): pp. 526–576, (2017), doi:10.1017/9781108241922.013, ISBN 978-1-108-41678-8, https://doi.org/10.1017/9781108241922.013 2021年5月29日閲覧。 
  3. ^ Xia, B. S., & Gong, P. (2015). Review of business intelligence through data analysis. Benchmarking, 21(2), 300-311. doi:10.1108/BIJ-08-2012-0050
  4. ^ Exploring Data Analysis
  5. ^ “Data Coding and Exploratory Analysis (EDA) Rules for Data Coding Exploratory Data Analysis (EDA) Statistical Assumptions”, SPSS for Intermediate Statistics (Routledge): pp. 42–67, (2004-08-16), doi:10.4324/9781410611420-6, ISBN 978-1-4106-1142-0, https://doi.org/10.4324/9781410611420-6 2021年5月29日閲覧。 
  6. ^ “New European ICT call focuses on PICs, lasers, data transfer”. SPIE Professional. (2014-10-01). doi:10.1117/2.4201410.10. ISSN 1994-4403. https://doi.org/10.1117/2.4201410.10. 
  7. ^ Samandar, Petersson; Svantesson, Sofia (2017). Skapandet av förtroende inom eWOM : En studie av profilbildens effekt ur ett könsperspektiv. Högskolan i Gävle, Företagsekonomi. OCLC 1233454128 
  8. ^ Goodnight, James (2011-01-13). “The forecast for predictive analytics: hot and getting hotter”. Statistical Analysis and Data Mining: The ASA Data Science Journal 4 (1): 9–10. doi:10.1002/sam.10106. ISSN 1932-1864. https://doi.org/10.1002/sam.10106. 
  9. ^ Sherman, Rick (4 November 2014). Business intelligence guidebook: from data integration to analytics. Amsterdam. ISBN 978-0-12-411528-6. OCLC 894555128. https://www.worldcat.org/oclc/894555128 
  10. ^ Field, John (2009), “Dividing listening into its components”, Listening in the Language Classroom (Cambridge: Cambridge University Press): pp. 96–109, doi:10.1017/cbo9780511575945.008, ISBN 978-0-511-57594-5, https://doi.org/10.1017/cbo9780511575945.008 2021年5月29日閲覧。 
  11. ^ a b c Judd, Charles; McCleland, Gary (1989). Data Analysis. Harcourt Brace Jovanovich. ISBN 0-15-516765-0 
  12. ^ John Tukey-The Future of Data Analysis-July 1961
  13. ^ a b c d e f g Doing Data Science. O'Reilly Media. (2013). ISBN 978-1-449-35865-5 
  14. ^ “USE OF THE DATA”, Handbook of Petroleum Product Analysis (Hoboken, NJ: John Wiley & Sons, Inc): pp. 296–303, (2015-02-06), doi:10.1002/9781118986370.ch18, ISBN 978-1-118-98637-0, https://doi.org/10.1002/9781118986370.ch18 2021年5月29日閲覧。 
  15. ^ Ainsworth, Penne (20 May 2019). Introduction to accounting : an integrated approach. ISBN 978-1-119-60014-5. OCLC 1097366032 
  16. ^ Margo, Robert A. (2000). Wages and labor markets in the United States, 1820-1860. University of Chicago Press. ISBN 0-226-50507-3. OCLC 41285104 
  17. ^ Olusola, Johnson Adedeji; Shote, Adebola Adekunle; Ouigmane, Abdellah; Isaifan, Rima J. (7 May 2021). “Table 1: Data type and sources of data collected for this research.”. PeerJ 9: e11387. doi:10.7717/peerj.11387/table-1. https://doi.org/10.7717/peerj.11387/table-1 2021年5月29日閲覧。. 
  18. ^ MacPherson, Derek (2019-10-16), “Information Technology Analysts' Perspectives”, Data Strategy in Colleges and Universities (Routledge): pp. 168–183, doi:10.4324/9780429437564-12, ISBN 978-0-429-43756-4, https://doi.org/10.4324/9780429437564-12 2021年5月29日閲覧。 
  19. ^ Nelson, Stephen L. (2014). Excel data analysis for dummies. Wiley. ISBN 978-1-118-89810-9. OCLC 877772392 
  20. ^ Figure 3—source data 1. Raw and processed values obtained through qPCR.. (30 August 2017). doi:10.7554/elife.28468.029. https://doi.org/10.7554/elife.28468.029 2021年5月29日閲覧。. 
  21. ^ a b Bohannon, John (2016-02-24). “Many surveys, about one in five, may contain fraudulent data”. Science. doi:10.1126/science.aaf4104. ISSN 0036-8075. 
  22. ^ Jeannie Scruggs, Garber; Gross, Monty; Slonim, Anthony D. (2010). Avoiding common nursing errors. Wolters Kluwer Health/Lippincott Williams & Wilkins. ISBN 978-1-60547-087-0. OCLC 338288678 
  23. ^ Data Cleaning”. Microsoft Research. 2013年10月26日閲覧。
  24. ^ Hancock, R.G.V.; Carter, Tristan (February 2010). “How reliable are our published archaeometric analyses? Effects of analytical techniques through time on the elemental analysis of obsidians”. Journal of Archaeological Science 37 (2): 243–250. doi:10.1016/j.jas.2009.10.004. ISSN 0305-4403. https://doi.org/10.1016/j.jas.2009.10.004. 
  25. ^ a b c Perceptual Edge-Jonathan Koomey-Best practices for understanding quantitative data-February 14, 2006
  26. ^ Peleg, Roni; Avdalimov, Angelika; Freud, Tamar (2011-03-23). “Providing cell phone numbers and email addresses to Patients: the physician's perspective”. BMC Research Notes 4 (1): 76. doi:10.1186/1756-0500-4-76. ISSN 1756-0500. PMC 3076270. PMID 21426591. https://doi.org/10.1186/1756-0500-4-76. 
  27. ^ Goodman, Lenn Evan (1998). Judaism, human rights, and human values. Oxford University Press. ISBN 0-585-24568-1. OCLC 45733915 
  28. ^ Hanzo, Lajos. Blind joint maximum likelihood channel estimation and data detection for single-input multiple-output systems. doi:10.1049/iet-tv.44.786. https://doi.org/10.1049/iet-tv.44.786 2021年5月29日閲覧。. 
  29. ^ Hellerstein, Joseph (27 February 2008). “Quantitative Data Cleaning for Large Databases”. EECS Computer Science Division: 3. http://db.cs.berkeley.edu/jmh/papers/cleaning-unece.pdf 2013年10月26日閲覧。. 
  30. ^ Davis, Steve; Pettengill, James B.; Luo, Yan; Payne, Justin; Shpuntoff, Al; Rand, Hugh; Strain, Errol (26 August 2015). “CFSAN SNP Pipeline: An automated method for constructing SNP matrices from next-generation sequence data”. PeerJ Computer Science 1: e20. doi:10.7717/peerj-cs.20/supp-1. https://doi.org/10.7717/peerj-cs.20/supp-1 2021年5月31日閲覧。. 
  31. ^ “FTC requests additional data”. Pump Industry Analyst 1999 (48): 12. (December 1999). doi:10.1016/s1359-6128(99)90509-8. ISSN 1359-6128. https://doi.org/10.1016/s1359-6128(99)90509-8. 
  32. ^ Exploring your Data with Data Visualization & Descriptive Statistics: Common Descriptive Statistics for Quantitative Data. (2017). doi:10.4135/9781529732795. https://doi.org/10.4135/9781529732795. 
  33. ^ Murray, Daniel G. (2013). Tableau your data! : fast and easy visual analysis with Tableau Software. J. Wiley & Sons. ISBN 978-1-118-61204-0. OCLC 873810654 
  34. ^ Ben-Ari, Mordechai (2012), “First-Order Logic: Formulas, Models, Tableaux”, Mathematical Logic for Computer Science (London: Springer London): pp. 131–154, doi:10.1007/978-1-4471-4129-7_7, ISBN 978-1-4471-4128-0, https://doi.org/10.1007/978-1-4471-4129-7_7 2021年5月31日閲覧。 
  35. ^ Sosa, Ernest (2011). Causation. Oxford Univ. Press. ISBN 978-0-19-875094-9. OCLC 767569031 
  36. ^ Evans, Michelle V.; Dallas, Tad A.; Han, Barbara A.; Murdock, Courtney C.; Drake, John M. (28 February 2017). “Figure 2. Variable importance by permutation, averaged over 25 models.”. eLife 6: e22053. doi:10.7554/elife.22053.004. https://doi.org/10.7554/elife.22053.004 2021年5月31日閲覧。. 
  37. ^ Watson, Kevin; Halperin, Israel; Aguilera-Castells, Joan; Iacono, Antonio Dello (12 November 2020). “Table 3: Descriptive (mean ± SD), inferential (95% CI) and qualitative statistics (ES) of all variables between self-selected and predetermined conditions.”. PeerJ 8: e10361. doi:10.7717/peerj.10361/table-3. https://doi.org/10.7717/peerj.10361/table-3 2021年5月31日閲覧。. 
  38. ^ Cortés-Molino, Álvaro; Aulló-Maestro, Isabel; Fernandez-Luque, Ismael; Flores-Moya, Antonio; Carreira, José A.; Salvo, A. Enrique (22 October 2020). “Table 3: Best regression models between LIDAR data (independent variable) and field-based Forestereo data (dependent variable), used to map spatial distribution of the main forest structure variables.”. PeerJ 8: e10158. doi:10.7717/peerj.10158/table-3. https://doi.org/10.7717/peerj.10158/table-3 2021年5月31日閲覧。. 
  39. ^ International Sales Terms, Beck/Hart, (2014), doi:10.5040/9781472561671.ch-003, ISBN 978-1-4725-6167-1, https://doi.org/10.5040/9781472561671.ch-003 2021年5月31日閲覧。 
  40. ^ Nwabueze, JC (2008-05-21). “Performances of estimators of linear model with auto-correlated error terms when the independent variable is normal”. Journal of the Nigerian Association of Mathematical Physics 9 (1). doi:10.4314/jonamp.v9i1.40071. ISSN 1116-4336. https://doi.org/10.4314/jonamp.v9i1.40071. 
  41. ^ Conway, Steve (2012-07-04). “A Cautionary Note on Data Inputs and Visual Outputs in Social Network Analysis”. British Journal of Management 25 (1): 102–117. doi:10.1111/j.1467-8551.2012.00835.x. hdl:2381/36068. ISSN 1045-3172. https://doi.org/10.1111/j.1467-8551.2012.00835.x. 
  42. ^ “Customer Purchases and Other Repeated Events”, Data Analysis Using SQL and Excel® (Indianapolis, Indiana: John Wiley & Sons, Inc.): pp. 367–420, (2016-01-29), doi:10.1002/9781119183419.ch8, ISBN 978-1-119-18341-9, https://doi.org/10.1002/9781119183419.ch8 2021年5月31日閲覧。 
  43. ^ Grandjean, Martin (2014). “La connaissance est un réseau”. Les Cahiers du Numérique 10 (3): 37–54. doi:10.3166/lcn.10.3.37-54. http://www.martingrandjean.ch/wp-content/uploads/2015/02/Grandjean-2014-Connaissance-reseau.pdf. 
  44. ^ Data requirements for semiconductor die. Exchange data formats and data dictionary, BSI British Standards, doi:10.3403/02271298, https://doi.org/10.3403/02271298 2021年5月31日閲覧。 
  45. ^ Yee, D. (1985-04-01). “How to Communicate Your Message to an Audience Effectively”. The Gerontologist 25 (2): 209. doi:10.1093/geront/25.2.209. ISSN 0016-9013. https://doi.org/10.1093/geront/25.2.209. 
  46. ^ Bemowska-Kałabun, Olga; Wąsowicz, Paweł; Napora-Rutkowski, Łukasz; Nowak-Życzyńska, Zuzanna; Wierzbicka, Małgorzata (11 June 2019). Supplemental Information 1: Raw data for charts and tables. doi:10.7287/peerj.preprints.27793v1/supp-1. https://doi.org/10.7287/peerj.preprints.27793v1/supp-1 2021年5月31日閲覧。. 
  47. ^ Visualizing Data About UK Museums: Bar Charts, Line Charts and Heat Maps. (2021). doi:10.4135/9781529768749. ISBN 9781529768749. https://doi.org/10.4135/9781529768749 
  48. ^ Tunqui Neira, José Manuel (2019-09-19). Thank you for your review. Please find in the attached pdf file a detailed response to the points you raised.. doi:10.5194/hess-2019-325-ac2. https://doi.org/10.5194/hess-2019-325-ac2 2021年6月1日閲覧。. 
  49. ^ Brackett, John W. (1989), “Performing Requirements Analysis Project Courses for External Customers”, Issues in Software Engineering Education (New York, NY: Springer New York): pp. 276–285, doi:10.1007/978-1-4613-9614-7_20, ISBN 978-1-4613-9616-1, https://doi.org/10.1007/978-1-4613-9614-7_20 2021年6月3日閲覧。 
  50. ^ Wyckhuys, Kris A. G.; Wongtiem, Prapit; Rauf, Aunu; Thancharoen, Anchana; Heimpel, George E.; Le, Nhung T. T.; Fanani, Muhammad Zainal; Gurr, Geoff M. et al. (19 October 2018). “Figure 2: Bi-monthly mealybug population fluctuations in southern Vietnam, over a 2-year time period.”. PeerJ 6: e5796. doi:10.7717/peerj.5796/fig-2. https://doi.org/10.7717/peerj.5796/fig-2 2021年6月3日閲覧。. 
  51. ^ Riehl, Emily (2014), “A sampling of 2-categorical aspects of quasi-category theory”, Categorical Homotopy Theory (Cambridge: Cambridge University Press): pp. 318–336, doi:10.1017/cbo9781107261457.019, ISBN 978-1-107-26145-7, https://doi.org/10.1017/cbo9781107261457.019 2021年6月3日閲覧。 
  52. ^ “X-BAR CHART”, SpringerReference (Berlin/Heidelberg: Springer-Verlag), (2011), doi:10.1007/springerreference_7402, https://doi.org/10.1007/springerreference_7402 2021年6月3日閲覧。 
  53. ^ Chart C5.3. Percentage of 15-19 year-olds not in education, by labour market status (2012). doi:10.1787/888933119055. https://doi.org/10.1787/888933119055 2021年6月3日閲覧。. 
  54. ^ Chart 7: Households: final consumption expenditure versus actual individual consumption. doi:10.1787/665527077310. https://doi.org/10.1787/665527077310 2021年6月3日閲覧。. 
  55. ^ Chao, Luke H.; Jang, Jaebong; Johnson, Adam; Nguyen, Anthony; Gray, Nathanael S.; Yang, Priscilla L.; Harrison, Stephen C. (12 July 2018). “Figure 4. Frequency of hemifusion (measured as DiD fluorescence dequenching) as a function of number of bound Alexa-fluor-555/3-110-22 molecules.”. eLife 7: e36461. doi:10.7554/elife.36461.006. https://doi.org/10.7554/elife.36461.006 2021年6月3日閲覧。. 
  56. ^ Garnier, Elodie M.; Fouret, Nastasia; Descoins, Médéric (3 February 2020). “Table 2: Graph comparison between Scatter plot, Violin + Scatter plot, Heatmap and ViSiElse graph.”. PeerJ 8: e8341. doi:10.7717/peerj.8341/table-2. https://doi.org/10.7717/peerj.8341/table-2 2021年6月3日閲覧。. 
  57. ^ Product comparison chart: Wearables. (2009). doi:10.1037/e539162010-006. https://doi.org/10.1037/e539162010-006 2021年6月3日閲覧。. 
  58. ^ Stephen Few-Perceptual Edge-Selecting the Right Graph for Your Message-2004
  59. ^ Stephen Few-Perceptual Edge-Graph Selection Matrix
  60. ^ Recommended Best Practices. (2008-10-01). doi:10.14217/9781848590151-8-en. https://doi.org/10.14217/9781848590151-8-en 2021年6月3日閲覧。. 
  61. ^ Hobold, Edilson; Pires-Lopes, Vitor; Gómez-Campos, Rossana; Arruda, Miguel de; Andruske, Cynthia Lee; Pacheco-Carrillo, Jaime; Cossio-Bolaños, Marco Antonio (30 November 2017). “Table 1: Descriptive statistics (mean ± standard-deviation) for somatic variables and physical fitness ítems for males and females.”. PeerJ 5: e4032. doi:10.7717/peerj.4032/table-1. https://doi.org/10.7717/peerj.4032/table-1 2021年6月3日閲覧。. 
  62. ^ Ablin, Jacob N.; Zohar, Ada H.; Zaraya-Blum, Reut; Buskila, Dan (13 September 2016). “Table 2: Cluster analysis presenting mean values of psychological variables per cluster group.”. PeerJ 4: e2421. doi:10.7717/peerj.2421/table-2. https://doi.org/10.7717/peerj.2421/table-2 2021年6月3日閲覧。. 
  63. ^ “Consultants Employed by McKinsey & Company”, Organizational Behavior 5 (Routledge): pp. 77–82, (2008-07-30), doi:10.4324/9781315701974-15, ISBN 978-1-315-70197-4, https://doi.org/10.4324/9781315701974-15 2021年6月3日閲覧。 
  64. ^ Antiphanes (2007), Olson, S. Douglas, ed., “H6 Antiphanes fr.172.1-4, from Women Who Looked Like Each Other or Men Who Looked Like Each Other”, Broken Laughter: Select Fragments of Greek Comedy (Oxford University Press), doi:10.1093/oseo/instance.00232915, ISBN 978-0-19-928785-7, https://doi.org/10.1093/oseo/instance.00232915 2021年6月3日閲覧。 
  65. ^ Carey, Malachy (November 1981). “On Mutually Exclusive and Collectively Exhaustive Properties of Demand Functions”. Economica 48 (192): 407–415. doi:10.2307/2553697. ISSN 0013-0427. JSTOR 2553697. https://doi.org/10.2307/2553697. 
  66. ^ Total tax revenue. doi:10.1787/352874835867. https://doi.org/10.1787/352874835867 2021年6月3日閲覧。. 
  67. ^ “Dual-use car may solve transportation problems”. Chemical & Engineering News Archive 46 (24): 44. (1968-06-03). doi:10.1021/cen-v046n024.p044. ISSN 0009-2347. https://doi.org/10.1021/cen-v046n024.p044. 
  68. ^ Heckman (1978). “Simple Statistical Models for Discrete Panel Data Developed and Applied to Test the Hypothesis of True State Dependence against the Hypothesis of Spurious State Dependence”. Annales de l'inséé (30/31): 227–269. doi:10.2307/20075292. ISSN 0019-0209. JSTOR 20075292. https://doi.org/10.2307/20075292. 
  69. ^ Koontz, Dean (2017). False Memory. Headline Book Publishing. ISBN 978-1-4722-4830-5. OCLC 966253202 
  70. ^ Munday, Stephen C. R. (1996), “Unemployment, Inflation and the Phillips Curve”, Current Developments in Economics (London: Macmillan Education UK): pp. 186–218, doi:10.1007/978-1-349-24986-2_11, ISBN 978-0-333-64444-7, https://doi.org/10.1007/978-1-349-24986-2_11 2021年6月3日閲覧。 
  71. ^ Louangrath, Paul I. (2013). “Alpha and Beta Tests for Type I and Type II Inferential Errors Determination in Hypothesis Testing”. SSRN Electronic Journal. doi:10.2139/ssrn.2332756. ISSN 1556-5068. https://doi.org/10.2139/ssrn.2332756. 
  72. ^ Walko, Ann M. (2006). Rejecting the second generation hypothesis : maintaining Estonian ethnicity in Lakewood, New Jersey. AMS Press. ISBN 0-404-19454-0. OCLC 467107876 
  73. ^ a b Yanamandra, Venkataramana (September 2015). “Exchange rate changes and inflation in India: What is the extent of exchange rate pass-through to imports?”. Economic Analysis and Policy 47: 57–68. doi:10.1016/j.eap.2015.07.004. ISSN 0313-5926. https://doi.org/10.1016/j.eap.2015.07.004. 
  74. ^ Mudiyanselage, Nawarathna; Nawarathna, Pubudu Manoj. Characterization of epigenetic changes and their connection to gene expression abnormalities in clear cell renal cell carcinoma. OCLC 1190697848 
  75. ^ Moreno Delgado, David; Møller, Thor C.; Ster, Jeanne; Giraldo, Jesús; Maurel, Damien; Rovira, Xavier; Scholler, Pauline; Zwier, Jurriaan M. et al. (29 June 2017). “Appendix 1—figure 5. Curve data included in Appendix 1—table 4 (solid points) and the theoretical curve by using the Hill equation parameters of Appendix 1—table 5 (curve line).”. eLife 6: e25233. doi:10.7554/elife.25233.027. https://doi.org/10.7554/elife.25233.027 2021年6月3日閲覧。. 
  76. ^ Feinmann, Jane. How Can Engineers and Journalists Help Each Other?. doi:10.1049/iet-tv.48.859. https://doi.org/10.1049/iet-tv.48.859 2021年6月3日閲覧。. 
  77. ^ Dul, Jan (2015). “Necessary Condition Analysis (NCA): Logic and Methodology of 'Necessary But Not Sufficient' Causality”. SSRN Electronic Journal. doi:10.2139/ssrn.2588480. hdl:1765/77890. ISSN 1556-5068. https://doi.org/10.2139/ssrn.2588480. 
  78. ^ Robert Amar, James Eagan, and John Stasko (2005) "Low-Level Components of Analytic Activity in Information Visualization"
  79. ^ William Newman (1994) "A Preliminary Analysis of the Products of HCI Research, Using Pro Forma Abstracts"
  80. ^ Mary Shaw (2002) "What Makes Good Research in Software Engineering?"
  81. ^ a b Yavari, Ali; Jayaraman, Prem Prakash; Georgakopoulos, Dimitrios; Nepal, Surya (2017). ConTaaS: An Approach to Internet-Scale Contextualisation for Developing Efficient Internet of Things Applications. Proceedings of the 50th Hawaii International Conference on System Sciences (2017). HICSS50. doi:10.24251/HICSS.2017.715. hdl:10125/41879. ISBN 9780998133102. https://scholarspace.manoa.hawaii.edu/handle/10125/41879 2017年5月24日閲覧。 
  82. ^ “Connectivity tool transfers data among database and statistical products”. Computational Statistics & Data Analysis 8 (2): 224. (July 1989). doi:10.1016/0167-9473(89)90021-2. ISSN 0167-9473. https://doi.org/10.1016/0167-9473(89)90021-2. 
  83. ^ “Information relevant to your job”, Obtaining Information for Effective Management (Routledge): pp. 48–54, (2007-07-11), doi:10.4324/9780080544304-16, ISBN 978-0-08-054430-4, https://doi.org/10.4324/9780080544304-16 2021年6月3日閲覧。 
  84. ^ Lehmann, E. L. (2010). Testing statistical hypotheses. Springer. ISBN 978-1-4419-3178-8. OCLC 757477004 
  85. ^ Fielding, Henry (2008-08-14), “Consisting partly of facts, and partly of observations upon them”, Tom Jones (Oxford University Press), doi:10.1093/owc/9780199536993.003.0193, ISBN 978-0-19-953699-3, https://doi.org/10.1093/owc/9780199536993.003.0193 2021年6月3日閲覧。 
  86. ^ Congressional Budget Office-The Budget and Economic Outlook-August 2010-Table 1.7 on Page 24 (PDF)” (2010年8月18日). 2011年3月31日閲覧。
  87. ^ “Students' sense of belonging, by immigrant background”. PISA 2015 Results (Volume III). PISA. (2017-04-19). doi:10.1787/9789264273856-table125-en. ISBN 9789264273818. ISSN 1996-3777. https://doi.org/10.1787/9789264273856-table125-en. 
  88. ^ Gordon, Roger (March 1990). Do Publicly Traded Corporations Act in the Public Interest?. Cambridge, MA. doi:10.3386/w3303. https://doi.org/10.3386/w3303. 
  89. ^ Minardi, Margot (2010-09-24), “Facts and Opinion”, Making Slavery History (Oxford University Press): pp. 13–42, doi:10.1093/acprof:oso/9780195379372.003.0003, ISBN 978-0-19-537937-2, https://doi.org/10.1093/acprof:oso/9780195379372.003.0003 2021年6月3日閲覧。 
  90. ^ Rivard, Jillian R. Confirmation bias in witness interviewing: Can interviewers ignore their preconceptions? (Thesis). Florida International University. doi:10.25148/etd.fi14071109
  91. ^ Papineau, David (1988), “Does the Sociology of Science Discredit Science?”, Relativism and Realism in Science (Dordrecht: Springer Netherlands): pp. 37–57, doi:10.1007/978-94-009-2877-0_2, ISBN 978-94-010-7795-8, https://doi.org/10.1007/978-94-009-2877-0_2 2021年6月3日閲覧。 
  92. ^ Bromme, Rainer; Hesse, Friedrich W.; Spada, Hans, eds (2005). Barriers and Biases in Computer-Mediated Knowledge Communication. doi:10.1007/b105100. ISBN 978-0-387-24317-7. https://doi.org/10.1007/b105100 
  93. ^ Heuer, Richards (2019-06-10). Heuer, Richards J. ed. Quantitative Approaches to Political Intelligence. doi:10.4324/9780429303647. ISBN 9780429303647. https://doi.org/10.4324/9780429303647 
  94. ^ Richards J. Heuer, Jr.. “Psychology of Intelligence Analysis”. cia.gov. 2022年1月30日閲覧。
  95. ^ Figure 6.7. Differences in literacy scores across OECD countries generally mirror those in numeracy. doi:10.1787/888934081549. https://doi.org/10.1787/888934081549 2021年6月3日閲覧。. 
  96. ^ Bloomberg-Barry Ritholz-Bad Math that Passes for Insight-October 28, 2014
  97. ^ Gusnaini, Nuriska; Andesto, Rony; Ermawati (2020-12-15). “The Effect of Regional Government Size, Legislative Size, Number of Population, and Intergovernmental Revenue on The Financial Statements Disclosure”. European Journal of Business and Management Research 5 (6). doi:10.24018/ejbmr.2020.5.6.651. ISSN 2507-1076. https://doi.org/10.24018/ejbmr.2020.5.6.651. 
  98. ^ Linsey, Julie S.; Becker, Blake (2011), “Effectiveness of Brainwriting Techniques: Comparing Nominal Groups to Real Teams”, Design Creativity 2010 (London: Springer London): pp. 165–171, doi:10.1007/978-0-85729-224-7_22, ISBN 978-0-85729-223-0, https://doi.org/10.1007/978-0-85729-224-7_22 2021年6月3日閲覧。 
  99. ^ Lyon, J. (April 2006). Purported Responsible Address in E-Mail Messages. doi:10.17487/rfc4407. https://doi.org/10.17487/rfc4407. 
  100. ^ Stock, Eugene (10 June 2017). The History of the Church Missionary Society Its Environment, its Men and its Work. ISBN 978-3-337-18120-8. OCLC 1189626777 
  101. ^ Gross, William H. (July 1979). “Coupon Valuation and Interest Rate Cycles”. Financial Analysts Journal 35 (4): 68–71. doi:10.2469/faj.v35.n4.68. ISSN 0015-198X. https://doi.org/10.2469/faj.v35.n4.68. 
  102. ^ 25. General government total outlays. doi:10.1787/888932348795. https://doi.org/10.1787/888932348795 2021年6月3日閲覧。. 
  103. ^ González-Vidal, Aurora; Moreno-Cano, Victoria (2016). “Towards energy efficiency smart buildings models based on intelligent data analytics”. Procedia Computer Science 83 (Elsevier): 994–999. doi:10.1016/j.procs.2016.04.213. 
  104. ^ “Low-Energy Air Conditioning and Lighting Control”, Building Energy Management Systems (Routledge): pp. 406–439, (2013-07-04), doi:10.4324/9780203477342-18, ISBN 978-0-203-47734-2, https://doi.org/10.4324/9780203477342-18 2021年6月3日閲覧。 
  105. ^ Davenport, Thomas; Harris, Jeanne (2007). Competing on Analytics. O'Reilly. ISBN 978-1-4221-0332-6 
  106. ^ Aarons, D. (2009). Report finds states on course to build pupil-data systems. Education Week, 29(13), 6.
  107. ^ Rankin, J. (2013, March 28). How data Systems & reports can either fight or propagate the data analysis error epidemic, and how educator leaders can help. Archived 2019-03-26 at the Wayback Machine. Presentation conducted from Technology Information Center for Administrative Leadership (TICAL) School Leadership Summit.
  108. ^ Brödermann, Eckart J. (2018), “Article 2.2.1 (Scope of the Section)”, Commercial Law (Nomos Verlagsgesellschaft mbH & Co. KG): pp. 525, doi:10.5771/9783845276564-525, ISBN 978-3-8452-7656-4, https://doi.org/10.5771/9783845276564-525 2021年6月3日閲覧。 
  109. ^ Jaech, J.L. (1960-04-21). Analysis of dimensional distortion data from initial 24 quality certification tubes. doi:10.2172/10170345. https://doi.org/10.2172/10170345. 
  110. ^ Adèr 2008a, p. 337.
  111. ^ Kjell, Oscar N. E.; Thompson, Sam (19 December 2013). “Descriptive statistics indicating the mean, standard deviation and frequency of missing values for each condition (N = number of participants), and for the dependent variables (DV)”. PeerJ 1: e231. doi:10.7717/peerj.231/table-1. https://doi.org/10.7717/peerj.231/table-1 2021年6月3日閲覧。. 
  112. ^ Practice for Dealing With Outlying Observations, ASTM International, doi:10.1520/e0178-16a, https://doi.org/10.1520/e0178-16a 2021年6月3日閲覧。 
  113. ^ “Alternative Coding Schemes for Dummy Variables”, Regression with Dummy Variables (2455 Teller Road, Newbury Park California 91320 United States of America: SAGE Publications, Inc.): pp. 64–75, (1993), doi:10.4135/9781412985628.n5, ISBN 978-0-8039-5128-0, https://doi.org/10.4135/9781412985628.n5 2021年6月3日閲覧。 
  114. ^ Adèr 2008a, pp. 338–341.
  115. ^ Danilyuk, P. M. (July 1960). “Computing the displacement of the initial contour of gears when they are checked by means of balls”. Measurement Techniques 3 (7): 585–587. doi:10.1007/bf00977716. ISSN 0543-1972. https://doi.org/10.1007/bf00977716. 
  116. ^ Newman, Isadore (1998). Qualitative-quantitative research methodology : exploring the interactive continuum. Southern Illinois University Press. ISBN 0-585-17889-5. OCLC 44962443 
  117. ^ Terwilliger, James S.; Lele, Kaustubh (June 1979). “Some Relationships Among Internal Consistency, Reproducibility, and Homogeneity”. Journal of Educational Measurement 16 (2): 101–108. doi:10.1111/j.1745-3984.1979.tb00091.x. ISSN 0022-0655. https://doi.org/10.1111/j.1745-3984.1979.tb00091.x. 
  118. ^ Adèr 2008a, pp. 341–342.
  119. ^ Adèr 2008a, p. 344.
  120. ^ Tabachnick & Fidell, 2007, p. 87-88.
  121. ^ Tchakarova, Kalina (October 2020). “2020/31 Comparing job descriptions is insufficient for checking whether work is equally valuable (BG)”. European Employment Law Cases 5 (3): 168–170. doi:10.5553/eelc/187791072020005003006. ISSN 1877-9107. https://doi.org/10.5553/eelc/187791072020005003006. 
  122. ^ Random sampling and randomization procedures, BSI British Standards, doi:10.3403/30137438, https://doi.org/10.3403/30137438 2021年6月3日閲覧。 
  123. ^ Adèr 2008a, pp. 344–345.
  124. ^ Sandberg, Margareta (June 2006). “Acupuncture Procedures Must be Accurately Described”. Acupuncture in Medicine 24 (2): 92–94. doi:10.1136/aim.24.2.92. ISSN 0964-5284. PMID 16783285. https://doi.org/10.1136/aim.24.2.92. 
  125. ^ Jaarsma, C.F.. Verkeer in een landelijk gebied: waarnemingen en analyse van het verkeer in zuidwest Friesland en ontwikkeling van een verkeersmodel. OCLC 1016575584 
  126. ^ Foth, Christian; Hedrick, Brandon P.; Ezcurra, Martin D. (18 January 2016). “Figure 4: Centroid size regression analyses for the main sample.”. PeerJ 4: e1589. doi:10.7717/peerj.1589/fig-4. https://doi.org/10.7717/peerj.1589/fig-4 2021年6月3日閲覧。. 
  127. ^ Adèr 2008a, p. 345.
  128. ^ “The Final Years (1975-84)”, The Road Not Taken (Boydell & Brewer): pp. 853–922, (2018-06-18), doi:10.2307/j.ctv6cfncp.26, ISBN 978-1-57647-332-0, https://doi.org/10.2307/j.ctv6cfncp.26 2021年6月3日閲覧。 
  129. ^ Fitzmaurice, Kathryn (17 March 2015). Destiny, rewritten. ISBN 978-0-06-162503-9. OCLC 905090570 
  130. ^ Supplementary file 4. Raw data and R-based analyses. (7 March 2017). doi:10.7554/elife.24102.023. https://doi.org/10.7554/elife.24102.023 2021年6月3日閲覧。. 
  131. ^ Adèr 2008a, pp. 345–346.
  132. ^ Adèr 2008a, pp. 346–347.
  133. ^ Adèr 2008a, pp. 349–353.
  134. ^ Billings S.A. "Nonlinear System Identification: NARMAX Methods in the Time, Frequency, and Spatio-Temporal Domains". Wiley, 2013
  135. ^ Adèr 2008b, p. 363.
  136. ^ “Exploratory Data Analysis”, Python® for R Users (Hoboken, NJ, USA: John Wiley & Sons, Inc.): pp. 119–138, (2017-10-13), doi:10.1002/9781119126805.ch4, hdl:11380/971504, ISBN 978-1-119-12680-5, https://doi.org/10.1002/9781119126805.ch4 2021年6月3日閲覧。 
  137. ^ “Engaging in Exploratory Data Analysis, Visualization, and Hypothesis Testing”, Spatial Analysis (CRC Press): pp. 106–139, (2015-07-28), doi:10.1201/b18808-8, ISBN 978-0-429-06936-9, https://doi.org/10.1201/b18808-8 2021年6月3日閲覧。 
  138. ^ “Hypotheses About Categories”, Starting Statistics: A Short, Clear Guide (1 Oliver's Yard, 55 City Road, London EC1Y 1SP United Kingdom: SAGE Publications Ltd): pp. 138–151, (2010), doi:10.4135/9781446287873.n14, ISBN 978-1-84920-098-1, https://doi.org/10.4135/9781446287873.n14 2021年6月3日閲覧。 
  139. ^ Sordo, Rachele Del; Sidoni, Angelo (December 2008). “MIB-1 Cell Membrane Reactivity: A Finding That Should be Interpreted Carefully”. Applied Immunohistochemistry & Molecular Morphology 16 (6): 568. doi:10.1097/pai.0b013e31817af2cf. ISSN 1541-2016. PMID 18800001. https://doi.org/10.1097/pai.0b013e31817af2cf. 
  140. ^ Liquet, Benoit; Riou, Jérémie (2013-06-08). “Correction of the significance level when attempting multiple transformations of an explanatory variable in generalized linear models”. BMC Medical Research Methodology 13 (1): 75. doi:10.1186/1471-2288-13-75. ISSN 1471-2288. PMC 3699399. PMID 23758852. https://doi.org/10.1186/1471-2288-13-75. 
  141. ^ a b c Mcardle, John J. (2008). Some ethical issues in confirmatory versus exploratory analysis. doi:10.1037/e503312008-001. https://doi.org/10.1037/e503312008-001 2021年6月3日閲覧。. 
  142. ^ Adèr 2008b, pp. 361–362.
  143. ^ Adèr 2008b, pp. 361–371.
  144. ^ Truswell IV, William H., ed. (2009), “3 The Facelift: A Guide for Safe, Reliable, and Reproducible Results”, Surgical Facial Rejuvenation (Stuttgart: Georg Thieme Verlag), doi:10.1055/b-0034-73436, ISBN 978-1-58890-491-1, https://doi.org/10.1055/b-0034-73436 2021年6月3日閲覧。 
  145. ^ Supplementary file 1. Cross-validation schema.. (6 December 2018). doi:10.7554/elife.40224.014. https://doi.org/10.7554/elife.40224.014 2021年6月3日閲覧。. 
  146. ^ Hsiao, Cheng (2014), “Cross-Sectionally Dependent Panel Data”, Analysis of Panel Data (Cambridge: Cambridge University Press): pp. 327–368, doi:10.1017/cbo9781139839327.012, ISBN 978-1-139-83932-7, https://doi.org/10.1017/cbo9781139839327.012 2021年6月3日閲覧。 
  147. ^ Hjorth, J.S. Urban (2017-10-19), “Cross validation”, Computer Intensive Statistical Methods (Chapman and Hall/CRC): pp. 24–56, doi:10.1201/9781315140056-3, ISBN 978-1-315-14005-6, https://doi.org/10.1201/9781315140056-3 2021年6月3日閲覧。 
  148. ^ Sheikholeslami, Razi; Razavi, Saman; Haghnegahdar, Amin (2019-10-10). “What should we do when a model crashes? Recommendations for global sensitivity analysis of Earth and environmental systems models”. Geoscientific Model Development 12 (10): 4275–4296. Bibcode2019GMD....12.4275S. doi:10.5194/gmd-12-4275-2019. ISSN 1991-9603. https://doi.org/10.5194/gmd-12-4275-2019. 
  149. ^ Wiley, Matt; Wiley, Joshua F. (2019), “Multivariate Data Visualization”, Advanced R Statistical Programming and Data Models (Berkeley, CA: Apress): pp. 33–59, doi:10.1007/978-1-4842-2872-2_2, ISBN 978-1-4842-2871-5, https://doi.org/10.1007/978-1-4842-2872-2_2 2021年6月3日閲覧。 
  150. ^ Orduna-Malea, Enrique; Alonso-Arroyo, Adolfo (2018), “A cybermetric analysis model to measure private companies”, Cybermetric Techniques to Evaluate Organizations Using Web-Based Data (Elsevier): pp. 63–76, doi:10.1016/b978-0-08-101877-4.00003-x, ISBN 978-0-08-101877-4, https://doi.org/10.1016/b978-0-08-101877-4.00003-x 2021年6月3日閲覧。 
  151. ^ Leen, A.R.. The consumer in Austrian economics and the Austrian perspective on consumer policy. ISBN 90-5808-102-8. OCLC 1016689036 
  152. ^ “Examples of Survival Data Analysis”, Statistical Methods for Survival Data Analysis, Wiley Series in Probability and Statistics, Hoboken, NJ, USA: John Wiley & Sons, Inc., (2003-06-30), pp. 19–63, doi:10.1002/0471458546.ch3, ISBN 978-0-471-45854-8, https://doi.org/10.1002/0471458546.ch3 2021年6月3日閲覧。 
  153. ^ “The machine learning community takes on the Higgs”. Symmetry Magazine. (2014年7月15日). http://www.symmetrymagazine.org/article/july-2014/the-machine-learning-community-takes-on-the-higgs/ 2015年1月14日閲覧。 
  154. ^ Nehme, Jean (2016年9月29日). “LTPP International Data Analysis Contest”. Federal Highway Administration. 2017年10月22日閲覧。
  155. ^ Data.Gov:Long-Term Pavement Performance (LTPP)” (2016年5月26日). 2017年11月10日閲覧。

参考文献[編集]

  • Adèr, Herman J. (2008a). “Chapter 14: Phases and initial steps in data analysis”. Advising on research methods : a consultant's companion. Huizen, Netherlands: Johannes van Kessel Pub. pp. 333–356. ISBN 9789079418015. OCLC 905799857 
  • Adèr, Herman J. (2008b). “Chapter 15: The main analysis phase”. Advising on research methods : a consultant's companion. Huizen, Netherlands: Johannes van Kessel Pub. pp. 357–386. ISBN 9789079418015. OCLC 905799857 
  • Tabachnick, B.G. & Fidell, L.S. (2007). Chapter 4: Cleaning up your act. Screening data prior to analysis. In B.G. Tabachnick & L.S. Fidell (Eds.), Using Multivariate Statistics, Fifth Edition (pp. 60–116). Boston: Pearson Education, Inc. / Allyn and Bacon.

推薦文献[編集]

  • Adèr, H.J. & Mellenbergh, G.J. (with contributions by D.J. Hand) (2008). Advising on Research Methods: A Consultant's Companion. Huizen, the Netherlands: Johannes van Kessel Publishing. 978-90-79418-01-5(英語)
  • Chambers, John M.; Cleveland, William S.; Kleiner, Beat; Tukey, Paul A. (1983). Graphical Methods for Data Analysis, Wadsworth/Duxbury Press. 0-534-98052-X(英語)
  • Fandango, Armando (2017). Python Data Analysis, 2nd Edition. Packt Publishers. 978-1787127487(英語)
  • Juran, Joseph M.; Godfrey, A. Blanton (1999). Juran's Quality Handbook, 5th Edition. New York: McGraw Hill. 0-07-034003-X(英語)
  • Lewis-Beck, Michael S. (1995). Data Analysis: an Introduction, Sage Publications Inc, 0-8039-5772-6(英語)
  • NIST/SEMATECH (2008) Handbook of Statistical Methods,(英語)
  • Pyzdek, T, (2003). Quality Engineering Handbook, 0-8247-4614-7(英語)
  • Richard Veryard (1984). Pragmatic Data Analysis. Oxford : Blackwell Scientific Publications. 0-632-01311-7(英語)
  • Tabachnick, B.G.; Fidell, L.S. (2007). Using Multivariate Statistics, 5th Edition. Boston: Pearson Education, Inc. / Allyn and Bacon, 978-0-205-45938-4(英語)

関連項目[編集]