ビッグデータ

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

ビッグデータ [1][2]: big data)とは、市販されているデータベース管理ツールや従来のデータ処理アプリケーションで処理することが困難なほど巨大で複雑な データ集合の集積物を表す用語である。その技術的な課題には収集、取捨選択、保管[3]、検索、共有、転送、解析[4]、可視化が含まれる。大規模データ集合の傾向をつかむことは、関連データの1集合の分析から得られる付加的情報を、別の同じデータ量を持つ小規模データ集合と比較することにより行われ、「ビジネスの傾向の発見、研究の品質決定、疾病予防、 法的引用のリンク 、犯罪防止、リアルタイムの道路交通状況判断」との相関の発見が可能になる[5][6][7]

IBMによるWikipediaの可視化イメージ 大きさはテラバイトで、ウィキペディアのテキストおよび画像は、ビッグデータの典型的な例である。

2012年現在妥当な時間内に処理することが可能なデータ集合のサイズの制限は、エクサバイトのオーダーのデータである[8]。科学者が大規模なデータ集合による制限に遭遇することは、しばしば発生し、その分野にはゲノミクス気象学[9]、コネクトミクス、複雑な物理シミュレーション[10]、生物調査および環境調査が含まれる[11]。同様の制限は インターネット検索金融、ビジネスインフォマティクスにも影響を与える。 データ集合が増加するのは、情報収集モバイル装置、空間センサー技術(リモートセンシング)、ソフトウェアログ、カメラ、マイクロフォン、無線ID読取機、ワイヤレス・センサー・ネットワークの普及も1つの原因である[12][13]。全世界での1人当たりの情報容量は1980年代以降40か月ごとに倍増し[14]、2012年現在1日あたり毎日250(2.5×1018)バイトのデータが作成された[15]。大企業にとっての課題は、組織全体にまたがるビッグデータの主導権を誰が握るかということである[16]

ビッグデータは、大部分のリレーショナルデータベース管理システム、デスクトップ統計可視化パッケージでは処理が困難であり、その代わり、「数十台、数百台、ときには数千台ものサーバ上で動く大規模並列化ソフトウェア」が必要になる[17]。何を「ビッグデータ」と考えるかは、データ集合を管理する組織の能力と、扱うデータの領域において従来分析に用いられてきたアプリケーションの能力に依存する。数百ギガバイトのデータに初めて直面してデータ管理の選択肢について再検討を始めた組織もある。また数十、数百テラバイトのデータになって初めて真剣に検討が必要になった組織もある[18]

定義[編集]

ビッグデータは、通常、収集 取捨選択、管理、および許容される時間内にデータを処理するために一般的に使用されるソフトウェアツールの能力を超えたサイズのデータ集合を含んでいる[19]。ビッグデータのサイズは、常に動いている目標値であり、単一のデータ集合内では、2012年現在数十テラバイトから数ペタバイトの範囲である。目標値は、従来のDBMS技術だけでなく、NoSQLのような新しいデータベースとその大量データ処理能力により動いている[20]。この困難性により、「ビッグデータ」の新しいツールプラットフォームが、大量のデータの様々な側面を処理するために開発されている。

2001年の研究報告書[21]と関連する講義では、METAグループ(現ガートナー )のアナリスト、ダグ・レイニーはデータ成長の課題とチャンスは3次元、すなわち、ボリューム(volume、データ量)、速度(velocity、入出力データの速度)、バラエティ(variety、データタイプとデータ源の範囲)であると定義した。ガートナーは、現在業界の主役であるが、この「3V」モデルをビッグデータを述べるときに現在も使用している[22]。2012年、ガートナーは、次のように、その定義を更新した:「ビッグデータは、高ボリューム、高速度、高バラエティの情報資産のいずれか(あるいは全て)であり、新しい形の処理を必要とし、意思決定の高度化、見識の発見、プロセスの最適化に寄与する」[23] さらに新しいV、正確さ(veracity)がある組織により追加された。[24]

ガートナーの定義(3V)はまだ広く使用されているが、概念が成熟するにつれ、ビッグデータとビジネス・インテリジェンスの、データと利用について、確固とした違いが明らかになった。

  • ビジネスインテリジェンスは、高密度データに要約統計を使用し、物事の計測や傾向を捉える。
  • ビッグデータは、低密度データに誘導統計を使用し[25]、巨大なボリュームにより(回帰性等の)法則を推論し、(推論による限界はあるが)予測可能性を生み出す[26]

[編集]

例としては、巨大科学、RFID、センサーネットワーク、ソーシャルネットワーク、ビッグソーシャルデータ分析[27] (ソーシャルデータ革命による)、インターネット文書、インターネット検索のインデックス作成、通話記録明細、天文学、大気科学、ゲノミクス、生物地球化学、生物学、他の複雑でしばしば学際的な科学研究、軍事偵察、新しい住宅購入者用の通勤時間予測、医療記録、写真アーカイブ、ビデオアーカイブ、大規模なeコマースがある[28]

巨大科学[編集]

大型ハドロン衝突型加速器では約1億5000万のセンサーが毎秒40万のデータを発生させる。毎秒ほぼ6億の衝突がある。ストリームからフィルタリングと、99.999%の繰り返し除去処理のあと、1秒あたり100の衝突が有用なデータとなる[29][30][31]

  • その結果、センサストリームデータの0.001%未満を処理して、すべての4つのLHC実験からのデータフローは複製前(2012年)に比較し1年に25ペタバイトを発生する。これは複製後約200ペタバイトになる。
  • 全てのセンサデータがLHCで記録されるなら、データフローの処理は著しく困難になるであろう。データフローは、複製前に、1年に1.5億ペタバイト、すなわち一日あたり約500 エクサバイトを超えてしまうであろう。この数字は、一日あたり5垓(5×1020)バイトで、これは世界で結合されたすべての情報源を合計した数値の約200倍である。

科学研究[編集]

  • スローン・デジタル・スカイサーベイ (SDSS)は2000年に天文データを収集し始めたが、最初の数週間で天文学の歴史の中で収集したすべてのデータよりも、多くのデータを蓄積した。SDSSは、1晩約200GBの割合で継続して、140テラバイト以上の情報を集めている。SDSSの後継である、大型シノプティック・サーベイ望遠鏡は、2016年に運用開始後、同じ量のデータを5日おきに取得すると期待されている[5]
  • ヒトゲノム計画は当初その処理に10年かかったが、今では一週間も経たないうちに達成することができる。DNAシーケンサは、過去10年間でシーケンシングのコストを1万分の1に削減した。これはムーアの法則の100倍である[32]
  • 計算機社会科学 — Tobias Preis et al.Google Trendsデータを使用し、高いGDPを持つ国のインターネットユーザは、過去よりも将来の情報を検索することを示した。調査結果により、インターネット上の行動と現実世界の経済指標との間に関連性が存在することが示唆された[33][34] [35]。著者らは、2010年に45の異なる国でインターネットユーザーによるGoogleのクエリのログを調べ、前年の検索のボリューム(2009年)と来年(2011年)の検索のボリュームを比較し、「将来期待指数」と呼んでいる[36]。著者らは、それぞれの国の1人当たりGDPと将来期待指数を比較し、将来についてより検索が多いGoogleユーザは高いGDPを持つ傾向があることを発見した。
  • NASA気候シミュレーションセンター(NCCS)[37]は32ペタバイトの気象観測、シミュレーションデータをDiscoverスーパーコンピューティングクラスタ上に格納している[38]
  • Tobias Preisと共同研究者のHelen Susannah Moat、ユージン・スタンレーは、Google Trendsにより提供される検索ボリュームデータに基づく取引戦略を用いて、インターネット上の株価の動きを予測する方法を紹介した[39]。金融に関連した98の用語のGoogle検索ボリュームの分析は''Scientific Reports''英語: Scientific Reports) に掲載され[40]、金融に関連した検索語は、金融市場の大きな損失より前に出ていることを示した[41][42][43][44][45][46][47][48]

政府[編集]

  • 2012年、オバマ政権はビッグデータを政府が直面する重要問題への対処に利用できるかを探るため、ビッグ・データ・リサーチ・イニシアティブを発表した[49]。イニシアティブは、6つの部門にまたがって84の異なるビッグデータプログラムから構成されていた[50]
  • ビッグデータ分析は、 バラク・オバマの2012年の再選運動に大きな役割を果たした[51]
  • 米国連邦政府は、世界で10台の最も強力なスーパーコンピュータのうち6台を所有している[52]
  • ユタ・データ・センターは、現在、米国 国家安全保障局(NSA)によって建築中のデータセンターである。建設後、施設は、インターネット上でNSAによって収集されたヨタバイトの情報を扱うことができるようになる[53][54]

民間部門[編集]

  • Amazon.comは、数百万のバックエンド業務を扱い、毎日、同時に50万以上のサードパーティ出品者からのクエリを処理する。Amazonの業務を支えるコア技術は、Linuxベースで、2005年の時点で、それぞれ7.8、18.5、24.7テラバイトの容量を持つ、世界で最大のLinuxの3つのデータベースを持っていた[55]
  • ウォルマートは1時間あたり百万以上の顧客トランザクションを処理し、2.5ペタバイト(2560テラバイト)のデータを保持するデータベースに取り込まれている。それはアメリカ議会図書館に所蔵されているすべての書籍の167倍の情報量である[5]
  • Facebookは、ユーザーからの500億枚の写真を処理している[56]
  • FICOファルコンクレジットカード詐欺検知システムは、世界全体で21億アクティブなアカウントを保護している[57]
  • 全世界のビジネス・データの量は、すべての企業全体で、推計によると、1.2年ごとに倍増している[58]
  • ウィンダミア不動産は約1億の匿名のGPS信号を使用し、新しく家を買う人に1日の異なった時間帯での通勤での運転時間を提供している[59]
  • ソフトバンクは、月間約10億件(2014年3月現在)の携帯電話のログ情報を処理して、電波の接続率の改善に役立てている[60]

国際的開発[編集]

ここ数十年で情報通信技術開発 (ICT4D)の有効利用の分野で研究が進み, ビッグ・データが国際開発に有用な貢献ができることが示唆された[61][62]。一方で、ビッグデータの出現により、医療雇用、経済の生産性、犯罪や公衆安全、自然災害や資源管理などの重要な開発分野での意思決定を改善するための費用対効果の高い予測ができるようになった[63]。また、ビッグデータの議論のすべてのよく知られた問題、例えば、プライバシー、相互運用性の課題、不完全アルゴリズムを全知全能にする問題、により、技術インフラの不足、経済および人的資源の不足のような、発展途上国で長年未解決の課題を悪化させている。これは新種の情報格差、データベースの知性を利用する意思決定の格差である[63]

マーケット[編集]

ビッグデータは情報管理の専門家の需要が増加しており、Software AG、オラクルIBMマイクロソフトSAP、EMCHPといった企業は、データ管理と分析だけを専門とするソフトウェア会社に150億ドル以上を費やしている。2010年には、この業界だけで、1000億ドル以上の価値があり、年間約10%で成長していた。これはソフトウェアビジネス全体の約2倍の速さである[5]

先進国では、データ集約型の技術の利用が増加している。全世界で携帯電話契約数は、46億であり、10億から20億の人々がインターネットにアクセスしている[5]。1990年から2005年の間に、10億以上の人々が中流層に入り、これは人は裕福になれば文字が読めるようになり、それが情報の増加につながることを意味する。通信ネットワークを介して情報を交換する世界の実効容量は、1986年に281ペタバイト、1993年に471ペタバイト、2000年には2.2エクサバイト、2007年には65エクサバイトであったが[14]、インターネット上を流れるトラフィック量は2013年までに毎年667エクサバイトに達すると予測されている[5]

アーキテクチャー[編集]

2004年、Googleは以下のようなアーキテクチャを使用したプロセスMapReduceに関する論文を発表した。MapReduceフレームワークには、膨大な量のデータを処理するため、並列プログラミングモデルおよび関連した実装が含まれる。MapReduceでは、クエリは分割され分散並列ノード間で並列に処理(マップステップ)される。結果が集められ配信される(リデュース・ステップ)。フレームワークは成功した[要説明]ので、そのアルゴリズムを再現しようとした者もいた。そこで、MapReduceのフレームワークの実装のひとつがHadoopという名前で、Apacheのオープンソースプロジェクトで採択された[64]

MIKE2.0は、情報管理のためのオープン・アプローチである。その方法論は、ビッグ・データを データソースを有用な順列、 相互関係における複雑性、各レコードの削除(あるいは変更)における困難さの側面で処理するものである[65]

テクノロジー[編集]

DARPAのトポロジーデータ解析プログラム(クラインの壷)大規模なデータ集合の基本的な構造を探っている。

ビッグデータでは、効率的に許容経過時間内に大量のデータを処理する卓越した技術が必要となる。2011年マッキンゼーレポート[66]において 必要な技術は以下が必要と示唆された。A / Bテスト、 相関ルールの学習、 統計分類データ・クラスタリングクラウドソーシング、 データ融合と統合、 アンサンブル学習、 遺伝的アルゴリズム、 機械学習自然言語処理、 ニューラルネットワーク、 パターン認識 、 異常検出、 予測モデリング、 回帰分析、 感情分析、 信号処理教師あり学習教師なし学習シミュレーション、 時系列解析、 可視化である。 多次元ビッグデータはテンソルとして表現でき、多線部分空間学習のようなテンソル・ベース計算にて効率的に処理できる[67][68]。さらにビッグデータに適用される技術には、超並列処理(MPP)データベース、 検索ベースのアプリケーション、データマイニンググリッド、分散ファイルシステム、分散データベース、クラウドベースのインフラストラクチャ(アプリケーション、ストレージ、コンピューティング資源)とインターネットが含まれる[要出典]

すべてではなく一部のMPPリレーショナルデータベースは、ペタバイトデータを格納および管理する能力を持っている。暗黙的にRDBMSのビッグデータテーブルをロード、監視、バックアップする能力も必要となる[69][70]

DARPAのトポロジーデータ解析プログラムにおいて、大規模なデータ集合の基本的な構造を求められ、2008年にその技術はAyasdiという会社の立ち上げで公になった。

ビッグデータ分析プロセスの専門家は、一般的に遅い共有ストレージを敵視し[71]、ソリッド・ステート・ドライブ(SSD)や、並列処理ノード内部に埋め込​​まれた大容量SATAディスクなど、様々な形で直接接続ストレージ(DAS)を好む。共有ストレージのアーキテクチャ(SANとNAS)は比較的遅く、複雑で、高価であると認識される。これらの性質は、システム性能、容易に入手可能、低コストで成長するビッグデータ分析システムと合致しない。

リアルタイムまたはほぼリアルタイムの情報配信は、ビッグデータ分析の定義の特徴の一つである。遅延はいかなる場合でも回避される。メモリ内データは好まれるが、FC SAN接続で繋がった回転ディスク上のデータは好まれない。分析アプリケーションで必要な規模でのSANのコストは、他のストレージ技術より非常に高い。

ビッグデータ分析での共有ストレージには、利点だけでなく欠点があるが、ビッグデータ分析の実務家は2011年現在それを支持しなかった[72]

研究活動[編集]

2012年3月に、ホワイトハウスは6連邦政府省庁および政府機関で構成され2億ドル以上の予算を付与された、「ビッグデータイニシアティブ」を発表した[73]

イニシアティブには[74]カリフォルニア大学バークレー校[75]にあるAMPLabへの、全米科学財団「計算機科学の探検」研究費、5年間の$1千万ドルを含む。 AMPLabはまた、DARPAと10以上の産業界からの資金提供を受け、交通の混雑の予測[76]、がん対策のような広範囲の課題に挑戦する[77]

ホワイトハウス・ビッグデータ・イニシアティブはまた、エネルギー省のローレンス・バークレー国立研究所が率いるスケーラブル・データ管理・分析・可視化(SDAV)研究所[78]へ米国エネルギー省から5年間に $25百万ドルの資金提供も含む。. SDAV研究所は、科学者が省のスーパーコンピュータ上のデータを管理し、可視化するための新しいツールを開発するために6国立研究所と7大学の専門知識を結集することを目指している。

米国マサチューセッツ州は、2012年5月にマサチューセッツ州ビッグデータイニシアティブを発表し、州政府や民間企業が研究機関の様々な資金を提供している[79]マサチューセッツ工科大学 はthe Intel Science and Technology Center for Big Data をMITコンピュータ科学・人工知能研究所で主催し, 政府、民間、研究所の資金と労力を組み合わせている[80]

欧州委員会は2年間のビッグデータ・プライベート・フォーラム[81]にSeventh Framework Programを通じて資金提供し、企業、教育機関、その他のビッグデータ問題の関係者が参加している。プロジェクトの目標は、ビッグデータ経済の実装を成功における欧州委員会からの支援行動を導くため、研究と技術革新の面で戦略を定義することである。このプロジェクトの成果は 次のフレームワークプログラムであるHorizon 2020[82]で利用される[83]

IBMは毎年開催される学生のビッグデータ大会、第37回"Battle of the Brains"に2013年7月にスポンサーとなった[84] 。初開催のプロ向けの2014ビッグデータ世界選手権は、テキサス州ダラスで開催される予定である[85]

批判[編集]

ビッグデータパラダイムの批判には、2つの流儀があり、アプローチ自体に疑問を呈するものと、現在の方法に疑問を呈するものである。

ビッグデータパラダイムへの批判[編集]

重要な問題は、我々はビッグデータの典型的なネットワークの特性の出現につながる、基礎実験マイクロプロセスについてはあまり知らないということである[19]。Snijders、Matzat、Reipsはその批判で、マイクロプロセスレベルで起きていることを全く反映しない数学的性質に関して非常に強い仮定がされていることを指摘している。マーク・グレアムは ビッグ・データはビッグ・データは仮説の終わりを招くというクリス・アンダーソンの仮定を強く批判し、ビッグ・データはその社会的、経済的、政治的コンテキストにおいて、コンテキストを解釈されなければならないと述べた[86]。8-9桁の投資を行う会社であっても、供給者と消費者からの情報から何らかの識見を得るために40%未満の従業員が十分に成熟してそれを行うスキルを持っていなければならない。ハーバードビジネスレビューの記事によると、識見がない欠点を克服するために、 "ビッグデータ"は、どんなにわかりやすく、あるいは分析されたとしても、"大きな決断(ビッグディシジョン)によって補完されなければならない[87]

ほぼ同じ行で、ビッグデータの分析に基づいた決定はビッグ・データの分析による決断は必然的に「過去に知られたものか、良くても現在のもの」にしかならないと指摘された[63]。過去の経験が多数入力されれば、アルゴリズムが過去と同じ事象を予想する可能性がある。将来のシステムの動的性質が変わるならば、過去を使って、将来についてわかることは少しはある。このために、システムの動的性質、すなわち仮説、を完全に理解することが必要になる[88]

この批判への応答として、例えば、 エージェントベースモデルのようなコンピュータ・シミュレーションでビッグデータのアプローチを組み合わせることが提案されている[63]。また、このような因子分析クラスター分析などのデータの潜在構造用のプローブは、通常小さいデータ集合で使用される双方向変量アプローチよりも、分析的アプローチ(クロスタブ)として有用であることが証明されている。

保健学と生物学では、従来の科学的なアプローチは、実験に基づいている。これらのアプローチでは、制限要因は、初期仮説を確認したり、反証することができる関連データである[89]

現在生命科学では新しい原則が受け入れられている。すなわち、前提となる仮定を持たない大量のデータ(オーミクス)をもつ情報は補足的なものであり、実験に基づく従来のやり方が必要になる。

大規模な方法において、制限要因であるデータを説明するための関連仮説の形成である。その検索ロジックは反転し、帰納法の制限("Glory of Science and Philosophy scandal", C. D. Broad, 1926)が考慮されなければならない。

消費者プライバシーの提唱者は増加する保存データと個人が特定可能な情報の統合に懸念を示している。専門家の委員会は、プライバシー保護を実行するための数多くの勧告を行っている[90]

ビッグデータ実行の批判[編集]

ダナ・ボイドは 科学代表的な母集団を選ぶという基本的原則を無視し大量のデータ処理にこだわることに懸念を示した[91]。このやり方は、いずれにしろ偏った結果につながる可能性がある。異種のデータ源(ビッグ・データと見なすかどうかは見解が分かれるが)は分析的な課題だけでなく、運用上の手強い課題があるが、多くの科学者はこのような統合は最も有望な科学の最先端と主張している[92]

出典[編集]

  1. ^ White, Tom (10 May 2012). Hadoop: The Definitive Guide. O'Reilly Media. p. 3. ISBN 978-1-4493-3877-0. http://books.google.com/books?id=Wu_xeGdU4G8C&pg=PA3. 
  2. ^ MIKE2.0, Big Data Definition”. 2013年9月19日閲覧。
  3. ^ Kusnetzky, Dan. “What is "Big Data?"”. ZDNet. 2013年9月19日閲覧。
  4. ^ Vance, Ashley (2010年4月22日). “Start-Up Goes After Big Data With Hadoop Helper”. New York Times Blog. 2013年9月19日閲覧。
  5. ^ a b c d e f “Data, data everywhere”. The Economist. (2010年2月25日). http://www.economist.com/node/15557443 2012年12月9日閲覧。 
  6. ^ E-Discovery Special Report: The Rising Tide of Nonlinear Review”. Hudson Global英語版. 2012年7月1日閲覧。 by Cat Casey and Alejandra Perez
  7. ^ What Technology-Assisted Electronic Discovery Teaches Us About The Role Of Humans In Technology — Re-Humanizing Technology-Assisted Review”. Forbes. 2012年7月1日閲覧。
  8. ^ Francis, Matthew (2012年4月2日). “Future telescope array drives development of exabyte processing”. 2012年10月24日閲覧。
  9. ^ “Community cleverness required”. Nature 455 (7209): 1. (4 September 2008). doi:10.1038/455001a. http://www.nature.com/nature/journal/v455/n7209/full/455001a.html. 
  10. ^ Sandia sees data management challenges spiral”. HPC Projects (2009年8月4日). 2011年4月26日閲覧。
  11. ^ Reichman, O.J.; Jones, M.B.; Schildhauer, M.P. (2011). “Challenges and Opportunities of Open Data in Ecology”. Science 331 (6018): 703–5. doi:10.1126/science.1197962. 
  12. ^ Hellerstein, Joe (2008年11月9日). “Parallel Programming in the Age of Big Data”. Gigaom Blog. 2012年10月7日時点のオリジナルよりアーカイブ。2010年4月21日閲覧。
  13. ^ Segaran, Toby; Hammerbacher, Jeff (2009). Beautiful Data: The Stories Behind Elegant Data Solutions. O'Reilly Media. p. 257. ISBN 978-0-596-15711-1. http://books.google.com/books?id=zxNglqU1FKgC. 
  14. ^ a b Hilbert & López 2011
  15. ^ IBM What is big data? — Bringing big data to the enterprise”. 01.ibm.com. 2013年3月5日閲覧。
  16. ^ Oracle and FSN, "Mastering Big Data: CFO Strategies to Transform Insight into Opportunity", December 2012
  17. ^ Jacobs, A. (2009年7月6日). “The Pathologies of Big Data”. ACMQueue. 2010年4月21日閲覧。
  18. ^ Magoulas, Roger; Lorica, Ben (February 2009). “Introduction to Big Data”. Release 2.0 (Sebastopol CA: O’Reilly Media) (11). http://radar.oreilly.com/r2/release2-0-11.html. 
  19. ^ a b Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet. International Journal of Internet Science, 7 , 1-5. http://www.ijis.net/ijis7_1/ijis7_1_editorial.html
  20. ^ Hogan, M. (2013年1月3日). “Large Databases”. 2013年5月6日閲覧。
  21. ^ Douglas, Laney. “3D Data Management: Controlling Data Volume, Velocity and Variety”. Gartner. 2001年2月6日閲覧。
  22. ^ Beyer, Mark. “Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data”. Gartner. 2011年7月10日時点のオリジナルよりアーカイブ。2011年7月13日閲覧。
  23. ^ Douglas, Laney. “The Importance of 'Big Data': A Definition”. Gartner. 2012年6月21日閲覧。
  24. ^ What is Big Data?”. ヴィラノーヴァ大学英語版. 2013年6月24日閲覧。
  25. ^ Delort P., Big data Paris 2013 http://www.andsi.fr/tag/dsi-big-data/
  26. ^ Delort P., Big Data car Low-Density Data ? La faible densité en information comme facteur discriminant http://lecercle.lesechos.fr/entrepreneur/tendances-innovation/221169222/big-data-low-density-data-faible-densite-information-com
  27. ^ Erik Cambria; Dheeraj Rajagopal, Daniel Olsher, and Dipankar Das (2013). “13”. Big social data analysis. Taylor & Francis. http://tmrfindia.org/bigdata.html. 
  28. ^ Hogan, M. (2013年3月3日). “What is Big Data”. 2013年6月20日閲覧。
  29. ^ LHC Brochure, English version. A presentation of the largest and the most powerful particle accelerator in the world, the Large Hadron Collider (LHC), which started up in 2008. Its role, characteristics, technologies, etc. are explained for the general public.”. CERN-Brochure-2010-006-Eng. LHC Brochure, English version.. CERN. 2013年1月20日閲覧。
  30. ^ LHC Guide, English version. A collection of facts and figures about the Large Hadron Collider (LHC) in the form of questions and answers.”. CERN-Brochure-2008-001-Eng. LHC Guide, English version.. CERN. 2013年1月20日閲覧。
  31. ^ Brumfiel, Geoff (2011年1月19日). “High-energy physics: Down the petabyte highway”. Nature 469: pp. 282–83. doi:10.1038/469282a. http://www.nature.com/news/2011/110119/full/469282a.html 
  32. ^ Delort P., OECD ICCP Technology Foresight Forum, 2012. http://www.oecd.org/sti/ieconomy/Session_3_Delort.pdf#page=6
  33. ^ Preis, Tobias; Moat,, Helen Susannah; Stanley, H. Eugene; Bishop, Steven R. (2012). [http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pmcentrez&artid=3320057 “Quantifying the Advantage of Looking Forward”]. Scientific Reports 2: 350. doi:10.1038/srep00350. PMC 3320057. PMID 22482034. http://www.pubmedcentral.nih.gov/articlerender.fcgi?tool=pmcentrez&artid=3320057. 
  34. ^ Marks, Paul (2012年4月5日). “Online searches for future linked to economic success”. New Scientist. 2012年4月9日閲覧。
  35. ^ Johnston, Casey (2012年4月6日). “Google Trends reveals clues about the mentality of richer nations”. Ars Technica. 2012年4月9日閲覧。
  36. ^ Tobias Preis (2012年5月24日). “Supplementary Information: The Future Orientation Index is available for download”. 2012年5月24日閲覧。
  37. ^ NASA気候シミュレーションセンター
  38. ^ Webster, Phil. “Supercomputing the Climate: NASA's Big Data Mission”. CSC World. Computer Sciences Corporation. 2013年1月18日閲覧。
  39. ^ フィリップ・ボール英語: Philip Ball) (2013年4月26日). “Counting Google searches predicts market movements”. Nature. 2013年8月9日閲覧。
  40. ^ Tobias Preis, Helen Susannah Moat and H. Eugene Stanley (2013). “Quantifying Trading Behavior in Financial Markets Using Google Trends”. Scientific Reports 3: 1684. doi:10.1038/srep01684. 
  41. ^ Nick Bilton (2013年4月26日). “Google Search Terms Can Predict Stock Market, Study Finds”. New York Times. 2013年8月9日閲覧。
  42. ^ Christopher Matthews (2013年4月26日). “Trouble With Your Investment Portfolio? Google It!”. TIME Magazine. 2013年8月9日閲覧。
  43. ^ Philip Ball (2013年4月26日). “Counting Google searches predicts market movements”. Nature. 2013年8月9日閲覧。
  44. ^ Bernhard Warner (2013年4月25日). “'Big Data' Researchers Turn to Google to Beat the Markets”. Bloomberg Businessweek. 2013年8月9日閲覧。
  45. ^ Hamish McRae (2013年4月28日). “Hamish McRae: Need a valuable handle on investor sentiment? Google it”. The Independent. 2013年8月9日閲覧。
  46. ^ Richard Waters (2013年4月25日). “Google search proves to be new word in stock market prediction”. Financial Times. 2013年8月9日閲覧。
  47. ^ David Leinweber (2013年4月26日). “Big Data Gets Bigger: Now Google Trends Can Predict The Market”. Forbes. 2013年8月9日閲覧。
  48. ^ Jason Palmer (2013年4月25日). “Google searches predict market moves”. BBC. 2013年8月9日閲覧。
  49. ^ Kalil, Tom. “Big Data is a Big Deal”. White House. 2012年9月26日閲覧。
  50. ^ Executive Office of the President (2012年3月). “Big Data Across the Federal Government”. White House. 2012年9月26日閲覧。
  51. ^ How big data analysis helped President Obama defeat Romney in 2012 Elections”. Bosmol Social Media News (2013年2月8日). 2013年3月9日閲覧。
  52. ^ Hoover, J. Nicholas. “Government's 10 Most Powerful Supercomputers”. Information Week. UBM. 2012年9月26日閲覧。
  53. ^ Bamford, James. “The NSA Is Building the Country’s Biggest Spy Center (Watch What You Say)”. Wired Magazine. 2013年3月18日閲覧。
  54. ^ Groundbreaking Ceremony Held for $1.2 Billion Utah Data Center”. National Security Agency Central Security Service. 2013年3月18日閲覧。
  55. ^ Layton, Julia. “Amazon Technology”. Money.howstuffworks.com. 2013年3月5日閲覧。
  56. ^ Scaling Facebook to 500 Million Users and Beyond”. Facebook.com. 2013年7月21日閲覧。
  57. ^ FICO® Falcon® Fraud Manager”. Fico.com. 2013年7月21日閲覧。
  58. ^ eBay Study: How to Build Trust and Improve the Shopping Experience”. Knowwpcarey.com (2012年5月8日). 2013年3月5日閲覧。
  59. ^ Wingfield, Nick (2013年3月12日). “Predicting Commutes More Accurately for Would-Be Home Buyers - NYTimes.com”. Bits.blogs.nytimes.com. 2013年7月21日閲覧。
  60. ^ 柴山和久 『ビッグデータを利益に変える方法』 幻冬舎、2014年ISBN 978-4344952393
  61. ^ UN GLobal Pulse (2012). Big Data for Development: Opportunities and Challenges (White p. by Letouzé, E.). New York: United Nations. Retrieved from http://www.unglobalpulse.org/projects/BigDataforDevelopment
  62. ^ WEF (World Economic Forum), & Vital Wave Consulting. (2012). Big Data, Big Impact: New Possibilities for International Development. World Economic Forum. Retrieved August 24, 2012, from http://www.weforum.org/reports/big-data-big-impact-new-possibilities-international-development
  63. ^ a b c d "Big Data for Development: From Information- to Knowledge Societies", Martin Hilbert (2013), SSRN Scholarly Paper No. ID 2205145). Rochester, NY: Social Science Research Network; http://papers.ssrn.com/abstract=2205145
  64. ^ Webster, John. "MapReduce: Simplified Data Processing on Large Clusters", "Search Storage", 2004. Retrieved on 25 March 2013.
  65. ^ Big Data Definition”. MIKE2.0. 2013年3月9日閲覧。
  66. ^ Manyika, James; Chui, Michael; Bughin, Jaques; Brown, Brad; Dobbs, Richard; Roxburgh, Charles; Byers, Angela Hung (May 2011). Big Data: The next frontier for innovation, competition, and productivity. McKinsey Global Institute. http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_innovation. 
  67. ^ Future Directions in Tensor-Based Computation and Modeling” (2009年5月). 2013年1月4日閲覧。
  68. ^ Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). “A Survey of Multilinear Subspace Learning for Tensor Data”. Pattern Recognition 44 (7): 1540–1551. doi:10.1016/j.patcog.2011.01.004. http://www.dsp.utoronto.ca/~haiping/Publication/SurveyMSL_PR2011.pdf. 
  69. ^ Monash, Curt (2009年4月30日). “eBay’s two enormous data warehouses”. 2010年11月11日閲覧。
  70. ^ Monash, Curt (2010年10月6日). “eBay followup — Greenplum out, Teradata > 10 petabytes, Hadoop has some value, and more”. 2010年11月11日閲覧。
  71. ^ CNET News (2011年4月1日). “Storage area networks need not apply”. 2013年4月17日閲覧。
  72. ^ How New Analytic Systems will Impact Storage” (2011年9月). 2012年1月6日閲覧。
  73. ^ Obama Administration Unveils "Big Data" Initiative:Announces $200 Million In New R&D Investments”. The White House. 2012年11月2日閲覧。
  74. ^ AMPLab at the University of California, Berkeley”. Amplab.cs.berkeley.edu. 2013年3月5日閲覧。
  75. ^ NSF Leads Federal Efforts In Big Data”. National Science Foundation (NSF) (2012年3月29日). 2012年11月2日閲覧。
  76. ^ Timothy Hunter; Teodor Moldovan; Matei Zaharia; Justin Ma; Michael Franklin; Pieter Abbeel; Alexandre Bayen (October 2011). “Scaling the Mobile Millennium System in the Cloud”. https://amplab.cs.berkeley.edu/publication/scaling-the-mobile-millennium-system-in-the-cloud-2/ 
  77. ^ David Patterson (2011年12月5日). “Computer Scientists May Have What It Takes to Help Cure Cancer”. The New York Times. http://www.nytimes.com/2011/12/06/science/david-patterson-enlist-computer-scientists-in-cancer-fight.html?_r=0 
  78. ^ Secretary Chu Announces New Institute to Help Scientists Improve Massive Data Set Research on DOE Supercomputers”. "energy.gov". 2012年11月2日閲覧。
  79. ^ Governor Patrick announces new initiative to strengthen Massachusetts’ position as a World leader in Big Data”. Commonwealth of Massachusetts. 2012年6月5日閲覧。
  80. ^ Big Data @ CSAIL”. Bigdata.csail.mit.edu (2013年2月22日). 2013年3月5日閲覧。
  81. ^ ビッグデータ・プライベート・フォーラム
  82. ^ Horizon 2020
  83. ^ Big Data Public Private Forum”. Cordis.europa.eu (2012年9月1日). 2013年3月5日閲覧。
  84. ^ About | Battle of the Brains”. Battleofthebrains.podbean.com. 2013年7月21日閲覧。
  85. ^ Big Data World Championships”. Texata. 2013年7月21日閲覧。
  86. ^ Graham M. (2012年). “Big data and the end of theory?”. The Guardian. http://www.guardian.co.uk/news/datablog/2012/mar/09/big-data-theory 
  87. ^ Good Data Won't Guarantee Good Decisions. Harvard Business Review”. Shah, Shvetank; Horne, Andrew; Capellá, Jaime;. HBR.org. 2012年9月8日閲覧。
  88. ^ Anderson, C. (2008, June 23). The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine, (Science: Discoveries). http://www.wired.com/science/discoveries/magazine/16-07/pb_theory
  89. ^ Delort P., Big data in Biosciences, Big Data Paris, 2012 http://www.bigdataparis.com/documents/Pierre-Delort-INSERM.pdf#page=5
  90. ^ Ohm, Paul. “Don't Build a Database of Ruin”. Harvard Business Review. 2012年8月29日閲覧。
  91. ^ ダナ・ボイド英語: Danah Boyd) (2010年4月29日). “Privacy and Publicity in the Context of Big Data”. WWW 2010 conference英語版. 2011年4月18日閲覧。
  92. ^ Jones, MB; Schildhauer, MP; Reichman, OJ; Bowers, S (2006). “The New Bioinformatics: Integrating Ecological Data from the Gene to the Biosphere” (PDF). Annual Review of Ecology, Evolution, and Systematics 37 (1): 519–544. doi:10.1146/annurev.ecolsys.37.091305.110031. http://www.pnamp.org/sites/default/files/Jones2006_AREES.pdf. 

参考文献[編集]

  • Big Data for Good. 毎日、250京バイトのデータが作成される。このデータは、デジタル写真、ビデオ、ソーシャルメディアサイトへの投稿、インテリジェントセンサー、購入トランザクション記録、携帯電話のGPS信号などから来ている。これがビッグデータである。商業およびビッグデータ研究コミュニティの両方で大きな関心があります。MGIとマッキンゼーのビジネス・テクノロジー・オフィスによる研究によると、 「ビッグデータの分析は、競争の新しい鍵となり、生産性の成長の基礎となり、革新、および消費者の利益になるだろう」と予測している。ビッグデータを、社会問題を解決するために使用できるといる人は殆どいない。実際の仕事のほとんどは、この方向ではない。これはなぜか?すごく賢いアイディアが社会問題に影響を与えないと確認するために、国際的な研究コミュニティができることはなにか?by Roger Barga, Microsoft Research, Laura Haas, IBM Fellow and Director Institute for Massive Data, Analytics and Modeling IBM Research, USA. Alon Halevy, Google Research, Head of the Structured Data Group, USA, Paul Miller, Consultant, Cloud of Data, ODBMS.org Paper.
  • The Rise of Industrial Big Data 長期間のデータ集合でイノベーション、競争力、成長を推進する。(ビッグ・データのチャンスを強調して)GE Intelligent Platforms White Paper.
  • Hilbert, Martin; López, Priscila (2011). “The World's Technological Capacity to Store, Communicate, and Compute Information”. Science 332 (6025): 60–65. doi:10.1126/science.1200970. PMID 21310967. http://martinhilbert.net/WorldInfoCapacity.html. 
  • Resources on how Topological Data Analysis is used to analyze big data
  • Programming with Big Data in R.

関連項目[編集]

外部リンク[編集]