タスク 1: 照合ポリシーを定義する
ここでは、1 つのルールを持つ照合ポリシーを作成します。 このルールでは、Supplier ID が前提条件となります。つまり、ルール内の他のドメインを使用するには Supplier ID が一致する必要があります。 このルールでは、そのほかに、Similarity 値が 70% に設定された Supplier Name と、Similarity 値が 30% に設定された Contact Email という 2 つのドメインを使用します。
DQS クライアントのメイン ページで、Suppliers ナレッジ ベースの横にある右矢印をクリックし、[ポリシーの照合] を選択します。
[マップ] ページの [データ ソース] で [Excel ファイル] を選択します。
[参照] をクリックして、フィルターが [Excel ブック] に設定されていることを確認し、クレンジング アクティビティの後にエクスポートした Cleansed Supplier List.xls ファイルを選択します。
注 このアクティビティは照合ポリシーの定義を主な目的としています。このため、このアクティビティの最後に結果をエクスポートすることはできません。 次のレッスンでは、照合アクティビティ用のデータ品質プロジェクトを作成し、この照合ポリシーを使用して仕入先の一覧から重複を削除します。
[SupplierID] 列を Supplier ID ドメインに、[Supplier Name] 列を Supplier Name ドメインに、[ContactEmailAddress] 列を Contact Email ドメインにマップします。 照合ポリシーの定義で使用するドメインのみにソース列をマップする必要があります。 このレッスンでは、照合ポリシー アクティビティで使用するための Supplier ID、Supplier Name、および Contact Email ドメインを作成します。
[次へ] をクリックして [照合ポリシー] ページに移動します。このページでは、1 つのルールを持つ照合ポリシーを定義します。
ツール バーの [照合ルールを作成します] をクリックして、ポリシーにルールを作成します。
右側の [ルールの詳細] ペインで、[ルール名] に「Remove Duplicate Suppliers」と入力します。
右ペインのツール バーの [新しいドメイン要素を追加します] をクリックします。
[ドメイン] に [Supplier ID] を選択し、[前提条件] チェック ボックスをオンにします。 [類似] が [完全一致] に自動的に設定されることに注意してください。 Supplier ID を前提条件として設定することで、2 つのレコードでこのフィールドの値の一致率が 100% でなければそれらのレコードを一致と見なさず、ルールの他の句を無視することが指定されます。
ツール バーの [新しいドメイン要素を追加します] をもう一度クリックします。
Supplier Name ドメインを選択し、[類似] に [部分一致] を選択し、[加重] に「70」と入力します。 ここでは、レコードが一致と見なされるためには仕入先名が類似しているだけでよいこと、つまり完全に一致しなくてもよいことを指定しています。 重みは、このフィールドのスコアが照合スコア全体に与える影響を示します。
前の 2 つの手順を繰り返して、[加重] が 30 に設定された Contact Email ドメインを追加します。
[最小照合スコア] が 80% に設定されていることに注意してください。これは、[DQS 管理] の [構成] ページにある [全般] タブに表示される値です。 このスコアは、しきい値より大きな値に増やすことだけができます。
[重複するクラスター] オプションが選択されていることに注意してください。 このオプションを使用すると、レコードを複数のクラスターに表示できます。 [重複しないクラスター] に設定を変更すると、共通のレコードを持つクラスターが 1 つのクラスターに結合されます。
このページの [開始] ボタンを使用すると、ポリシー内の各ルールを個別にテストできます。その一方、次のページの [開始] ボタンではポリシー全体 (ポリシー内のすべてのルール) をテストできます。
[次へ] をクリックして、[照合結果] ページに移動します。