次の方法で共有


データを統合するために各テーブルの重複を削除します

重複排除ルールのステップでは、各顧客が各テーブルの単一の行で表されるように、ソーステーブルから顧客の重複レコードを検出して削除します。 各テーブルは、特定の顧客のレコードを識別するルールを使用して個別に重複排除されます。

ルールは順番に処理されます。 すべてのルールがテーブル内のすべてのレコードに対して実行された後、共通の行を共有する一致グループが 1 つの一致グループに結合されます。

重複排除ルールを定義する

適切なルールは、固有の顧客を識別します。 データを考慮します。 E メールなどのフィールドに基づいて顧客を識別するだけでも十分かもしれません。 しかし、E メールを共有する顧客を区別したい場合は、2 つの条件を持つルールを選択することができます。 詳細については、重複排除の概念とシナリオを参照してください。

  1. 重複排除ルール ページで、テーブルを選択し、ルールの追加 を選択して重複排除ルールを定義します。

    チップ

    統合結果を改善するためにデータ ソース レベルでテーブルをエンリッチした場合は、ページ上部でエンリッチされたテーブルを使用するを選択します。 詳細については、データ ソースのエンリッチメント を参照してください。

    テーブルが強調表示され、ルールの追加が表示された重複排除ルールページのスクリーンショット

    1. ルールの追加ウィンドウに、次の情報を入力します。

      • フィールドを選択: 重複を確認するテーブルの使用可能なフィールドのリストから選択します。 各顧客に固有である可能性が高いフィールドを選択します。 たとえば、電子メール アドレス、または名前、都市、電話番号の組み合わせです。
      • 正規化: 列の正規化オプションを選択します。 正規化は照合ステップにのみ影響し、データは変更されません。
        • 数字: 数値を表す多くの Unicode 記号を単純な数値に変換します。
        • 記号: !"#$%&'()*+,-./:;<=>?@[]^_`{|}~ などの多くの一般的な記号を削除します。 例えば、Head&ShoulderHeadShoulder になります。
        • テキストを小文字に: すべての文字を小文字に変換します。 「ALL CAPS and Title Case」 が 「ALL CAPS AND TITLE CASE」 になります。
        • タイプ (電話、名前、住所、組織): 名前、役職、電話番号、住所などを標準化します。
        • Unicode から ASCII へ: Unicode 文字を同等の ASCII 文字に変換します。 たとえば、アクセント付きの ề は e 文字に変換されます。
        • 空白: すべてのスペースを削除します。 Hello World は、HelloWorld になります。
      • 精度: 精度のレベルを設定します。 精度はあいまい一致で使用され、2 つの文字列が一致するとみなされるために必要な近似性を決定します。
        • 基本: 低 (30%)中 (60%)高 (80%)完全一致t (100%) から選択します。 100%一致するレコードのみを一致とする場合は 完全一致 を選択します。
        • カスタム: レコードが一致する必要がある割合を設定します。 システムは、このしきい値を超えるレコードのみを照合します。
      • 名前: ルールの名前です。

      重複を削除するためのルールの追加ウィンドウのスクリーンショット。

    2. 必要に応じて、追加>条件を追加を選択し、ルールに条件を追加します。 条件は論理 AND 演算子で接続されるため、すべての条件が満たされた場合にのみ実行されます。

    3. 必要に応じて、追加>例外の追加ルールに例外を追加 します。 例外は、誤検知と擬陰性のまれなケースに対処するために使用されます。

    4. 完了を選択してルールを作成します。

  2. オプションで、ルールをさらに追加 します。

  3. テーブルを選択し、次にマージの基本設定を編集するを選択します。

  4. マージの基本設定ウィンドウ:

    1. 3 つのオプションのいずれかを選択して、重複が見つかった場合に保持するレコードを決定します。

      • 最も多い: 最も多くの列を持つレコードを勝者レコードとして識別します。 既定のマージ オプションです。
      • 最も新しい: 最新性に基づいて勝者レコードを識別します。 最新を定義するには、日付または数値フィールドが必要です。
      • 最も古い: 最も古いレコードに基づいて勝者レコードを識別します。 最新を定義するには、日付または数値フィールドが必要です。

      同点の場合、勝者レコードは MAX(PK) またはより大きな主キー値を持つレコードです。

    2. オプションで、テーブルの個々の列に対するマージ設定を定義するには、ペインの下部にある 詳細設定 を選択します。 たとえば、最新のメールと最も完全なアドレスを異なるレコードから保持することを選択できます。 テーブルを展開してすべての列を表示し、個々の列に使用するオプションを定義します。 最新性に基づくオプションを選択する場合は、最新性を定義する日付/時刻フィールドも指定する必要があります。

      最近のメールと住所全体を表示するマージの高度な基本設定ウィンドウ

    3. 完了を選択して、マージ設定を適用します。

  5. 重複排除ルールとマージ設定を定義した後、次へを選択します。