似ているようで役割が違う
データ基盤の話になると必ず出てくる「データレイク」と「データウェアハウス」。名前は似ていますが、役割は異なります。
データウェアハウスは、集計や分析のために整理・加工した「使える状態のデータ」を貯める場所です。一方データレイクは、加工前の生データを形式を問わずそのまま貯めておく場所です。
それぞれが向いている場面
- ウェアハウスが向く 売上分析やレポートなど、決まった指標を繰り返し見たい場合。
- レイクが向く 画像やログなど多様なデータを、用途を決めずにとりあえず蓄積したい場合。
両者は対立するものではなく、レイクに溜めた生データを加工してウェアハウスに移す、という組み合わせで使われることも増えています。
中小企業はどちらから?
多くの中小企業にとって、まず必要なのは「決まった数字を正しく見られる」ことです。その意味で、出発点はデータウェアハウス的な発想——分析に使えるよう整えたデータを置く場所——が現実的です。レイクは、扱うデータの種類が増えてから検討しても遅くありません。