に関する記事です。導入ガイド

はじめる前に確認したい3つのこと

DataSangoを導入する前に、最低限整理しておきたいポイントは3つあります。

重複排除だけは、基本的に全データを対象にする必要があります。

その前提で重要になるのは、「どこまでを1レコードとみなし、何をキーとして同一判定するか」というデータ構造とキー設計です。

たとえば、次のような論点をあらかじめ決めておきます。

DataSango側では全レコードを対象に重複候補を拾いに行きますが、

「何をもって同一とみなすのか」が決まっていないと、ルールがぶれてしまいます。

ここで決めるのは「どのセグメントからやるか」ではなく、

「自社では何を1件と見なすか／どのキーを最重要視するか」です。

この設計が決まっていれば、全データを対象に重複排除をかけても、

後から「そもそも1件の定義が人によって違う」という事故を防ぎやすくなります。

「データをきれいにしたい」だけでは範囲が広すぎて、ルール設計も効果検証もぼやけます。

DataSangoを使って、まずどの種類の問題を優先的に解消したいのかを1〜3個に絞ることが重要です。

たとえば、次のようなテーマが考えられます。

ここで決めた「何を改善したいか」は、後からKPI（重複率・欠損率・統一率など）や、最初の成功条件にもなります。

初期フェーズでは、テーマを欲張らず「これは確実に良くする」を少数に絞る方が、結果として前進速度が上がります。

データ整備プロジェクトが止まりやすいのは、機能の問題ではなく意思決定の問題です。

たとえば、次のような判断は必ずどこかで発生します。

ここが曖昧なまま進めると、「システムとしては処理されているが、現場は納得していない」という状態になり、運用が定着しません。

そのため、事前に次の役割をはっきりさせておくことを推奨します。

この3者が事前に決まっていれば、

「全データを対象にした重複排除」→「ルール調整」→「定期運用」

というサイクルを、止まらずに回しやすくなります。

更新日 22/03/2026

この記事は役に立ちましたか？

ありがとうございます