次の方法で共有


レッスン 3: データを照合して仕入先の一覧から重複を削除する

照合アクティビティを実行するためにナレッジ ベースを準備するには、ナレッジ ベースで照合ポリシーを作成します。 ナレッジ ベースで作成できる照合ポリシーは 1 つだけですが、 そのポリシーは 1 つ以上の照合ルールで構成されます。 ルールは、照合プロセスに関連するドメインを特定し、一致率を割り当てるときの各ドメイン値の重みを指定します。 このルールでは、完全に一致するドメイン値だけを一致と見なすか、類似性のレベルが指定した値を超えるドメイン値も一致と見なすかを指定します。 また、ドメインが照合プロセスで一致する必要があるかどうかも指定します。 各ルールを個別にテストし、サンプル データに対してポリシー全体をテストできます。 テストのプロセスでは、照合スコアがクラスター (グループ) の DQS 構成で指定された最小レコード スコアのしきい値より大きいレコードが表示されます。 プレビュー後も、満足できるまでポリシーのルールを調整できます。

ポリシーを定義した後、データ品質プロジェクトを作成して照合アクティビティを実行します。 照合プロジェクトでは、評価するデータ ソースに対して照合ポリシーの照合ルールを適用し、 任意の 2 つの行が一致する確率を評価します。 DQS で照合分析を実行すると、一致と見なされたレコードのクラスターが作成され、 DQS では、いずれかのレコードがピボット レコードとしてランダムに識別されます。 クラスターに対する適切な一致ではないレコードを確認および拒否できます。 詳細については、「照合ポリシーの作成」のトピックを参照してください。

このレッスンでは、照合アクティビティを実行して、仕入先の一覧から重複するものを削除します。 まず、1 つのルールを含む照合ポリシーを作成し、仕入先の一覧の重複部分を識別して、ポリシーをナレッジ ベースにパブリッシュします。 次に、照合するデータ品質プロジェクトを作成および実行します。 最後に、照合アクティビティから、後でマスター データ サービス (MDS) にデータをアップロードする場合に使用する Excel ファイルに結果をエクスポートします。

次の手順

タスク 1: 照合ポリシーを定義する