次の方法で共有


参照データ(外部)の知識を用いてデータを清掃する

このトピックでは、参照データ プロバイダーのナレッジを使用してデータをクレンジングする方法について説明します。 クレンジング アクティビティを実行する際のすべての手順は、「DQS を使用したデータのクレンジング (内部) ナレッジ」に記載されている参照データプロバイダーからの知識を使用する場合と変わりません。しかし、このトピックでは、Data Quality Services (DQS) の参照データサービスを使用するデータクレンジングに特化した情報を提供します。

DQS の参照データ サービス機能を使用してデータをクレンジングすると、DQS クレンジング プロセスによって、マップされたドメイン値がバッチ要求として参照データ サービス プロバイダーに送信されます。 参照データ サービスは、次の情報で応答します。

  • 修正候補

  • 信任

  • マップされたドメインに関する追加情報。 参照データは、追加のデータを使用してソースを標準化、解析、または強化することもできます。 この情報は、応答の追加フィールドで提供されます。

参照データ サービスから応答を取得すると、クレンジング アクティビティ中に DQS で次の処理が行われます。

  • 参照データ サービスを使用したドメインのマッピング中に指定された 自動修正しきい値最小信頼度 値に基づいて、ドメイン値は信頼レベルに基づいて自動的に修正または提案されます。

    参照データ サービスへのドメインのマッピング中に指定したしきい値は、参照データ サービスのナレッジを使用してデータをクレンジングするときに適用されます。[構成] セクションの [全般設定] タブで指定したしきい値ではありません。 参照データ クレンジングのしきい値の指定については、「参照データへの ドメインまたは複合ドメインのアタッチ」の手順 9 を参照してください。

  • ドメインの値は、SuggestedNewInvalidCorrect、Correct に分類されます。

  • 追加のデータがソースに追加され、情報はエクスポート用のクレンジングされたデータと共に使用できます。

開始する前に

[前提条件]

DQS ナレッジ ベースの必須ドメインを適切な参照データ サービスにマップする必要があります。 さらに、ナレッジ ベースには、クレンジングするデータの種類に関する知識が含まれている必要があります。 たとえば、米国のアドレスを含むソース データをクレンジングする場合は、米国のアドレスに対して高品質のデータを提供する参照データ サービス プロバイダーにドメインをマップする必要があります。 詳細については、「 参照データへのドメインまたは複合ドメインのアタッチ」を参照してください。

安全

権限

データ クレンジングを実行するには、DQS_MAIN データベースに対するdqs_kb_editorまたはdqs_kb_operatorロールが必要です。

参照データナレッジを使用してデータをクレンジングする

前のトピック「参照データにドメイン または複合ドメインをアタッチする」でマップしたドメインを Azure Marketplace の Melissa Data サービスと共に使用する場合と同じ例を引き続き使用します。 ここで、同じドメインを使用して、いくつかのサンプル US アドレスをクレンジングします。 データをクレンジングする手順は、「 DQS (内部) ナレッジを使用したデータのクレンジング」の説明と同じです。 ただし、プロセス中に必要な場所に注意を引きます。

  1. データ品質プロジェクトを作成し、 クレンジング アクティビティを選択します。 「 データ品質プロジェクトを作成する」を参照してください。

  2. [ マップ ] ページで、ソース データに適切な列 ( 住所行市区町村都道府県Zip) を含む 4 つのドメインをマップします。 [次へ] をクリックします。

    アドレス検証複合ドメイン内のすべての 4 つのドメインをマップすると、個々のドメイン レベルではなく複合ドメイン レベルでデータ クレンジングが実行されるようになります。

  3. [ クレンジング ] ページで、[スタート] をクリックして、コンピューター支援型のクレンジング プロセスを実行 します。 クレンジング プロセスが終了したら、[ 次へ] をクリックします。

    [ クレンジング ] ページの DQS には、参照データ サービスに接続されているドメインに関する情報が次の 2 つの方法で表示されます。

    • [スタート] ボタンの下に"Domains <Domain1>,<Domain2" というメッセージが表示されます>,... <DomainN> は、参照データ サービス プロバイダーを使用してクレンジングされます。この例では、"ドメイン アドレス検証は参照データ サービス プロバイダーを使用してクレンジングされます" というメッセージが表示されます。
    • RDSにアタッチされているドメインのアイコンが、参照データサービスプロバイダーに接続されているドメインに対してProfiler領域に表示されます。 この例では、 アドレス検証 複合ドメインに対してアイコンが表示されます。
  4. [ 結果の管理と表示 ] ページで、ドメインの値を確認します。 参照データサービスは、参照データサービスへのドメインのマッピング中に「候補者」ボックスで指定された最大候補数に応じて、利用可能であれば複数の候補を表示することができます。 たとえば、次の米国の住所に対して 2 つの提案が表示されます。

    元の値:

    住所欄 市区町村 状態 ZIPファイル
    1 ミリ秒の方法 レドモンド 98052

    推奨される値:

    住所欄 市区町村 状態 ZIPファイル
    1 Microsoft Way(マイクロソフト本社の住所) レドモンド ワシントン 州 98052
    PO ボックス 1 レドモンド ワシントン 州 98073

    参照データ サービスを使用したクレンジング

    複合ドメインの場合、DQS では、コンピューター支援型クレンジング プロセス中に修正された異なる色の個々のドメインも強調表示されます。 たとえば、この場合、 アドレス行 ドメインと 状態 ドメインは修正されたため、シアンで強調表示されています。

  5. すべてのドメイン値の確認が完了したら、[ 次へ ] をクリックしてデータをエクスポートします。

  6. [エクスポート] ページでは、各ドメインのクレンジング アクティビティに関する通常の情報 (ソース、理由、信頼度、状態) とは別に、住所データに関する Melissa データ参照データ サービスによって提供される追加情報 (住所の緯度と経度、郡名、住所の種類 (高値、道路など) など) があることがわかります。 などなど。

  7. 必要な変換先 (SQL Server、CSV、または Excel) にデータをエクスポートし、[ 完了] をクリックしてプロジェクトを閉じます。

    重要

    64 ビット 版の Excel を使用している場合、クレンジングされたデータを Excel ファイルにエクスポートすることはできません。SQL Server データベースまたは .csv ファイルにのみエクスポートできます。