(外部) ナレッジ参照データを使用したデータのクレンジング - Data Quality Services (DQS)
適用対象: SQL Server
このトピックでは、参照データ プロバイダーから提供されるナレッジを使用してデータをクレンジングする方法について説明します。 クレンジング アクティビティを実行する手順は、参照データ プロバイダーから提供されるナレッジを使ってデータをクレンジングする場合も「DQS (内部) ナレッジを使用したデータのクレンジング」で説明した手順とすべて同じですが、このトピックでは、(DQS) での参照データ サービスを使ったデータ クレンジングに固有の情報を示します。
重要
この記事では、以前は Azure DataMarket から利用できたサード パーティ参照データ サービスについて説明します。 DataMarket および Data Services (Melissa アドレス データなどを含む) は、2016 年 12 月 31 日以降廃止となりました。 その結果、DataMarket から指定されたサービスを使用して、この記事に示されている例を実行できなくなりました。 サード パーティ参照データ プロバイダーからオンラインで直接利用可能な参照データ サービスは引き続き使用できます。
DQS の参照データ サービス機能を使用してデータをクレンジングする場合、DQS のクレンジング プロセスで、マップされたドメイン値がバッチ要求として参照データ サービス プロバイダーに送信されます。 参照データ サービスから、次の情報を含む応答が返されます。
修正案
信頼度
マップされたドメインに関する追加情報。 参照データでは、この追加データを使用してソースを標準化、解析、または強化することもできます。 この情報は応答の追加フィールドに記載されています。
参照データ サービスから応答を受け取った後、DQS のクレンジング アクティビティで次の処理が行われます。
ドメインを参照データ サービスにマップするときに指定した [自動修正しきい値] と [最小信頼度] の値に基づいて、ドメイン値が信頼レベルに応じて自動的に修正または提案されます。
Note
参照データ サービスのナレッジを使用してデータをクレンジングするときは、 [全般設定] タブの [構成] セクションで指定したしきい値ではなく、参照データ サービスにドメインをマップするときに指定したしきい値が適用されます。 参照データのクレンジングのしきい値の指定については、「参照データへのドメインまたは複合ドメインのアタッチ」の手順 9 をご覧ください。
ドメイン値が " 提案"、" 新規"、" 無効"、" 修正済み"、および " 適切" に分類されます。
追加データがソースに追加され、クレンジングされたデータと一緒に情報をエクスポートできるようになります。
始める前に
前提条件
DQS のナレッジ ベース内の必要なドメインを適切な参照データ サービスにマップしておく必要があります。 また、クレンジングするデータの種類に関するナレッジがナレッジ ベースに含まれている必要があります。 たとえば、米国の住所が格納されたソース データをクレンジングする場合は、米国の住所に関する高品質データを提供する参照データ サービス プロバイダーにドメインをマップする必要があります。 詳細については、「 参照データへのドメインまたは複合ドメインのアタッチ」を参照してください。
セキュリティ
アクセス許可
データ クレンジングを実行するには、DQS_MAIN データベースの dqs_kb_editor ロールまたは dqs_kb_operator ロールが必要です。
参照データのナレッジを使用したデータのクレンジング
前のトピック「参照データへのドメインまたは複合ドメインのアタッチ」で Azure Marketplace の Melissa Data サービスにマップしたドメインを例として使います。 ここでは、同じドメインを使用して、いくつかのサンプルの米国の住所をクレンジングします。 データをクレンジングする手順は、「DQS (内部) ナレッジを使用したデータのクレンジング」で説明されているものと同じです。 処理中に注意が必要な箇所には説明を補足しています。
データ品質プロジェクトを作成し、 [クレンジング] アクティビティを選択します。 「 Create a Data Quality Project」を参照してください。
[マップ] ページで、 Address Line、 City、 State、および Zipの 4 つのドメインをソース データの適切な列にマップします。 [次へ] をクリックします。
Note
Address Verification 複合ドメイン内の 4 つのドメインをすべてマップしているため、データ クレンジングは、個々のドメイン レベルではなく、複合ドメイン レベルで実行されます。
[最適化] ページで、 [開始]をクリックしてコンピューター支援型のクレンジング プロセスを実行します。 クレンジング プロセスが完了したら、 [次へ]をクリックします。
Note
[最適化] ページには、参照データ サービスにアタッチされているドメインに関する情報が次の 2 とおりの方法で表示されます。
- [開始] ボタンの下にメッセージが表示されます:"ドメイン<ドメイン1>、<ドメイン2>、...<ドメインN>は参照データ サービス プロバイダーを使用してクレンジングされています" 。 この例では、"ドメイン アドレス検証は参照データ サービス プロバイダーを使用してクレンジングされています。" というメッセージが表示されます。
- 参照データ サービス プロバイダーにアタッチされているドメインに対して、 [プロファイラー] 領域にアイコン が表示されます。 この例の場合、 Address Verification 複合ドメインに対してこのアイコンが表示されます。
[結果の管理と表示] ページで、ドメイン値を確認します。 参照データ サービスでは、値に対する提案が複数ある場合、参照データ サービスにドメインをマップするときに [提案された候補] ボックスで指定した提案の最大数に応じて表示できます。 たとえば、次の米国の住所に対しては 2 つの提案が表示されます。
元の値:
住所 都市 状態 郵便番号 1 msft way Redmond 98052 提案される値:
住所 都市 状態 郵便番号 1 Microsoft Way 東京 WA 98052 PO Box 1 東京 WA 98073 Note
複合ドメインについては、さらに、コンピューター支援型のクレンジング プロセスで修正された個々のドメインが別の色で強調表示されます。 たとえば、この例では、 Address Line ドメインと State ドメインが修正されているため、それらのドメインがシアンで強調表示されます。
すべてのドメイン値の確認が完了したら、 [次へ] をクリックしてデータをエクスポートします。
[エクスポート] ページに、各ドメインのクレンジング アクティビティに関する通常の情報 (ソース、理由、信頼度、およびステータス) に加え、住所データに関して Melissa Data 参照データ サービスから提供された追加の情報が表示されます。これには、住所の経度と緯度、郡の名前、住所タイプ (高層ビルや番地) などが含まれます。
目的のエクスポート先 (SQL Server、CSV、または Excel) にデータをエクスポートし、 [完了] をクリックしてプロジェクトを閉じます。
重要
Excel の 64 ビット版を使用している場合、クレンジングされたデータは Excel ファイルにエクスポートできません。SQL Server データベースまたは .csv ファイルにのみエクスポートできます。