データレイク

出典: フリー百科事典『ウィキペディア(Wikipedia)』
ナビゲーションに移動 検索に移動

データレイク (Data lake) は構造化/非構造化データやバイナリ等のファイル含めたデータを一元的に格納するデータリポジトリ。一般的に、データレイクはレポート、可視化、分析、機械学習に利用されるエンタープライズのデータのコピーや返還後のデータを一カ所に集約する。データレイクはリレーショナルデータベースの構造化データ(列と行)や、半構造化データ(CSV、ログ、XMLJSON)、非構造化データ(Eメール、ドキュメント、PDF)、バイナリデータ(画像、音声、映像)を含めることができる。

適切に管理されておらず、ユーザが意図するデータへのアクセシビリティが低く、小さな価値しか提供できない低品質のデータレイクはデータの沼と表現される[1]

背景[編集]

Pentaho のCTOであるJames Dixonが、データマートと対比してこの概念を提唱したと主張している[2]。彼はデータマートにおけるデータのサイロ化などの問題点を指摘し、データレイクの必要性を説いている。PWCコンサルティングは"データレイクはデータのサイロ化の対策となりえる"と発言している[3]

脚注[編集]

  1. ^ Olavsrud, Thor. “3 keys to keep your data lake from becoming a data swamp” (英語). CIO. http://www.cio.com/article/3199994/big-data/3-keys-to-keep-your-data-lake-from-becoming-a-data-swamp.html 2017年7月5日閲覧。 
  2. ^ Woods, Dan (2011年7月21日). “Big data requires a big architecture”. Forbes. https://www.forbes.com/sites/ciocentral/2011/07/21/big-data-requires-a-big-new-architecture/ 
  3. ^ Stein, Brian; Morrison, Alan (2014) (pdf). Data lakes and the promise of unsiloed data (Report). Technology Forecast: Rethinking integration. PricewaterhouseCooper. http://www.pwc.com/en_US/us/technology-forecast/2014/cloud-computing/assets/pdf/pwc-technology-forecast-data-lakes.pdf. 

関連項目[編集]