クレンジングより「汚れない設計」が重要
データのクレンジング(品質の悪いデータを修正・整理する作業)は、データ基盤プロジェクトで大きな工数を占めます。しかし、最も効果的なアプローチは「クレンジングを減らす設計」つまり、最初からデータが汚れにくい仕組みを作ることです。
データが汚れる原因と設計的解決策
原因①「自由入力形式」:電話番号・日付・住所などを自由に入力できる状態にすると、形式がばらつきます。解決策は、入力フォームでフォーマットを強制(ドロップダウン・マスク入力)することです。
原因②「必須チェックがない」:重要項目が空白のまま登録されます。解決策は、システム側で必須バリデーションを設けることです。原因③「マスタとの連携がない」:商品名・取引先名を手入力することで表記ゆれが発生します。解決策は、マスタからの選択式入力に変えることです。
設計変更が難しい場合の対処法
既存システムの入力フォームを変更できない場合は、データ取り込み時に自動クレンジングのルールを設けることで対処できます。表記ゆれの正規化・フォーマットの統一・異常値の除外などを自動化することで、人手によるクレンジング作業を削減できます。