コンテンツにスキップ

データレイク

出典: フリー百科事典『ウィキペディア(Wikipedia)』

2021年9月10日 (金) 04:06; 紅い目の女の子 (会話 | 投稿記録) による版 (曖昧さ回避ページCSVへのリンクを解消、リンク先をComma-Separated Valuesに変更(DisamAssist使用))(日時は個人設定で未設定ならUTC

(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)

データレイク (Data lake) は構造化/非構造化データやバイナリ等のファイル含めたデータを一元的に格納するデータリポジトリ。一般的に、データレイクはレポート、可視化、分析、機械学習に利用されるエンタープライズのデータのコピーや返還後のデータを一カ所に集約する。データレイクはリレーショナルデータベースの構造化データ(列と行)や、半構造化データ(CSV、ログ、XMLJSON)、非構造化データ(Eメール、ドキュメント、PDF)、バイナリデータ(画像、音声、映像)を含めることができる。

適切に管理されておらず、ユーザが意図するデータへのアクセシビリティが低く、小さな価値しか提供できない低品質のデータレイクはデータの沼と表現される[1]

背景

[編集]

Pentaho のCTOであるJames Dixonが、データマートと対比してこの概念を提唱したと主張している[2]。彼はデータマートにおけるデータのサイロ化などの問題点を指摘し、データレイクの必要性を説いている。PWCコンサルティングは"データレイクはデータのサイロ化の対策となりえる"と発言している[3]

脚注

[編集]
  1. ^ Olavsrud, Thor. “3 keys to keep your data lake from becoming a data swamp” (英語). CIO. http://www.cio.com/article/3199994/big-data/3-keys-to-keep-your-data-lake-from-becoming-a-data-swamp.html 2017年7月5日閲覧。 
  2. ^ Woods, Dan (21 July 2011). “Big data requires a big architecture”. Forbes. https://www.forbes.com/sites/ciocentral/2011/07/21/big-data-requires-a-big-new-architecture/ 
  3. ^ Stein, Brian; Morrison, Alan (2014). Data lakes and the promise of unsiloed data (pdf) (Report). Technology Forecast: Rethinking integration. PricewaterhouseCooper.

関連項目

[編集]