ビッグデータ
ビッグデータ(英語: Big data)[1]は、情報技術分野の用語としては、通常のデータベース管理ツールなどで取り扱う事が困難なほど巨大な大きさのデータの集まりのこと[2]。通常は、構造化データおよび非構造化データが含まれ、その多様性とサイズや要求される処理の速度と高度化のため、格納[3]と活用(検索/共有/分析[4]/可視化など)の実現を目指したもの。
目次 |
概要 [編集]
情報通信、とくにインターネットの発達にともなって爆発的に増大した構造化されていない莫大な量のデータ。それら様々な局面に発生した巨大データの集まりを分析することでビジネス傾向の特定、病気の予防、犯罪の対策などにメリットがあると言われている[5]。技術の進歩により変化するが、ペタバイト、エクサバイト、ゼタバイトなどが現在のデータの大きさの限界である[6]。ビッグデータは気象学、ゲノミクス[7]、コネクトミクス、複雑な物理シミュレーション[8]、環境生物学[9]、インターネット検索、経済学、経営情報学などの分野で科学者が日常直面する課題である。モバイル機器に搭載されたセンサー、リモートセンシング技術、ソフトウェアのログ、カメラ、マイクロフォン、RFIDリーダー、無線センサーネットワークなどでデータが収集されるようになったこともデータが増加する一因となっている[10][11]。
現在のビッグデータの特徴的な課題の一つは、リレーショナルデータベースとデスクトップ統計・可視化パッケージで取り扱うことが難しいということで、数十、数百あるいは数千台のサーバー上で動作する大規模並列ソフトウェアを必要としていることである[12]。ビッグデータの大きさはデータを取り扱う者の能力によって変わる。数百ギガバイトのデータを初めて処理する必要に迫られることが、データ管理の選択肢を再考するきっかけとなることがある。別の者にとっては、それが数十から数百テラバイトであることもある[13]。
技術 [編集]
ビッグデータは大量のデータを許容できる時間内に効率的に処理するための特別な技術を必要とする。そこで用いられる技術には、超並列データベース、データマイニング、グリッド、分散ファイルシステム、エンタープライズサーチ、クラウドコンピューティングプラットフォーム、インターネット、大規模記憶装置などがある。 これらの技術スキル、機械学習などの数学や統計を用いたデータからの学習(意味の取り出し)スキル、などを持つデータサイエンティストと呼ばれる人材の確保、育成も技術課題の一つとなっている[14]。
アプリケーション [編集]
これらの技術を用いることで、企業の非構造化データやWebのソーシャルデータなどを含む膨大なデータから従来よりもインテリジェントな結果を導き出して、従来のアプリケーションに単に充実したUIやデータスケーラビリティを付加するだけでなく、データを駆使した企業に目に見える実益(売上増加や費用削減、損失予防など)を創出する。
脚注 [編集]
- ^ White, Tom. Hadoop: The Definitive Guide. 2009. 1st Edition. O'Reilly Media. Pg 3.
- ^ Database Landscape Map – December 2012
- ^ Kusnetzky, Dan. What is "Big Data?" ZDNet.
- ^ Vance, Ashley. Start-Up Goes After Big Data With Hadoop Helper New York Times Blog. April 22, 2010.
- ^ Cukier, K.(25 Feb 2010). Data, data everywhere The Economist.
- ^ Horowitz, Mark. Visualizing Big Data: Bar Charts for Words Wired Magazine. Vol 16(7). June 23, 2008. Vol 16(7)
- ^ Community cleverness required. Nature, 455(7209), 1 2008.
- ^ Sandia sees data management challenges spiral. HPC Projects Aug. 4, 2009.
- ^ Reichman,O.J., Jones, M.B., and Schildhauer, M.P. 2011. Challenges and Opportunities of Open Data in Ecology. Science 331(6018): 703-705.DOI:10.1126/science.1197962
- ^ Hellerstein, Joe. Parallel Programming in the Age of Big Data Gigaom Blog. Nov. 9, 2008.
- ^ Segaran, Toby and Hammerbacher, Jeff. Beautiful Data. 1st Edition. O'Reilly Media. Pg 257.
- ^ Jacobs, A.(6 July 2009). The Pathologies of Big Data ACMQueue.
- ^ Magoulas, Roger., Lorica, Ben.(Feb 2009) O’Reilly Media. Introduction to Big Data Release 2.0. Issue 11. Sebastopol, CA:
- ^ 情報処理学会連続セミナー ビッグデータの解析とその応用