レッスン 1: Suppliers DQS ナレッジ ベースを作成する
このレッスンでは、仕入先データに関するナレッジ (メタデータ) を含む Suppliers という名前の DQS ナレッジ ベースを作成します。 ナレッジ ベースを使用して、入力仕入先データのクレンジングおよび照合アクティビティを実行します。 クレンジング アクティビティでは、不正/無効なデータの識別、不正確なデータの修正、修正/提案の提示、データの標準化、および詳細情報を含むデータの拡充が行われます。 照合アクティビティでは、データを比較して、データ上の重複項目を削除するために、データ内で類似したレコード (ただし、若干異なる) を特定します。
対話型およびコンピューター支援型の両方のプロセスを使用すると、ナレッジ ベースを作成、構築、および管理できます。 ナレッジ ベース内のナレッジはドメインに保持され、各ドメインはクレンジングまたは照合するデータ内のデータ フィールドに固有です。
このレッスンでは、次のタスクを実行して、Suppliers ナレッジ ベースを作成します。
Suppliers という名前の DQS ナレッジ ベースを作成します。 ナレッジ ベースを作成する方法はいくつかあります。 ナレッジ ベースは一から作成するか、既存のナレッジ ベースに基づいて作成することができます。また、作成済みのエクスポートされたナレッジ ベースを含む DQS ファイル (.dqs) をインポートするか、サンプル データでナレッジ検出アクティビティを実行して作成することもできます。 このチュートリアルでは、ナレッジ ベースを一から作成します。
重複部分を特定するために、データ クレンジングとデータ照合に使用する Suppliers ナレッジ ベースでドメインを作成します。 データ内のすべてのデータ フィールドでなく、クレンジングおよび照合アクティビティで使用するデータ フィールドのドメインを作成します。
値を手動で追加する、Excel ファイルから値をインポートする、サンプル データに対してナレッジ検出アクティビティを実行する、およびクレンジング プロジェクトからプロジェクトの値をインポートすることで、値をドメインに追加します。 ドメインのプロパティおよび値を含む DQS ファイルをインポートすることで、ドメイン値をインポートすることもできます (チュートリアルでは、この操作は実行しません)。
ドメインのルールを設定します。 ドメイン ルールとは、ドメイン値の検証、修正、および標準化のために DQS が使用する条件です。
ドメインに用語ベースのリレーションシップを設定します。 用語ベースのリレーションシップを使用して、ドメインの値の一部になっている用語を修正できます。 たとえば、値 Contoso Inc. の Inc. は Incorporated として定義できる用語です。 これは、データの標準化および重複部分の特定に役立ちます。 たとえば、Contoso Inc と Contoso Incorporated は重複したものと考えることができます。
ドメイン値でシノニムを指定します。 2 つ以上の値をシノニムとして設定し、その中の 1 つを先頭の値として設定すると、クレンジング アクティビティ中にそのシノニム値が置き換えられ、データを標準化することができます。
Address Line、City、State、および Zip のドメインを構成する Address Validation という名前の複合ドメインを作成します。 複合ドメインは 1 つ以上の単一ドメインで構成されています。 これにより、複数のドメインを含むルールを作成することができます。 たとえば、City が Los Angeles の場合に、State は City と State が 2 つの異なるドメインの CA となる必要があるというルールを定義することもできます。
参照データ サービスを設定して使用します。 Data Quality Services (DQS) の Reference Data Service 機能を使用すると、サード パーティ参照データ プロバイダーをサブスクライブしたり、ビジネス データを高品質データに対して検証してビジネス データをクレンジングおよび強化することができます。 DQS 内から業界をリードする DQS プロバイダーのサービスを使用して、クレンジング プロセス中にデータを標準化、修正、または強化できます。 このチュートリアルでは、Windows Azure Marketplace で参照データ サービスを使用するように DQS 環境を設定し、Address Validation 複合ドメインに関連するサービスを使用して住所データをクレンジングする方法について学習します。
ナレッジ ベースをクレンジングおよび照合アクティビティで使用できるように、ナレッジ ベースをパブリッシュします。