DQS 知識庫與定義域

適用於:SQL Server

本主題描述 Data Quality Services (DQS) 中的知識庫是什麼。 若要清理資料,您必須瞭解資料。 若要準備資料品質專案的知識,您可以建置和維護 DQS 可用來識別不正確或無效資料的知識庫(KB)。 DQS 可讓您使用電腦輔助和互動式程式來建立、建置及更新知識庫。 知識庫中的知識會保留在定義域中,每個領域都是資料欄位特有的。 知識庫是有關資料的知識儲存機制,可讓您了解資料及維護資料的完整性。

DQS 知識庫具有下列優點:

  • 建置資料知識是一個詳細的程式。 從範例資料中自動擷取資料知識的 DQS 程式可讓程式變得更容易。

  • DQS 可讓您查看資料的分析,並藉由建立規則和變更資料值來增強知識庫中的知識。 您可以重複這樣做,以改善一段時間的知識。

  • 您可以藉由以現有 KB 為基礎的知識庫、從檔案將領域知識匯入 KB、將知識從專案匯回 KB,或使用 DQS 預設 KB、DQS 資料,來運用既有的資料品質知識。

  • 您可以將資料與參考資料提供者所維護的資料進行比較,以確保資料的品質。

  • 在建置知識庫並在資料更正程式中套用知識庫之間有清楚的區別,這可讓您彈性地建置和更新知識庫。

資料管理人會使用 Data Quality Client 應用程式來執行和控制電腦輔助步驟,以及執行互動式步驟。

下圖顯示知識庫中的各種元件,以及 DQS 中的定義域:

Knowledge Base and Domains in DQS

如何建立及建置 DQS 知識庫

建置 DQS 知識庫牽涉到下列程式和元件:

知識探索
透過處理資料範例,將知識建置到知識庫的電腦輔助程式

定義域管理
互動式程式,可讓資料管理人驗證和修改知識庫域中的知識,每個知識都與資料欄位相關聯。 這包括設定全欄位屬性、建立規則、變更特定值、使用參考資料服務,或設定以字詞為基礎的或跨欄位關聯性。

Reference Data Services
網域管理的流程,可讓您根據參考資料提供者所維護及保證的資料來驗證資料。

比對原則
原則,定義 DQS 如何處理記錄,以識別潛在的重複專案和非相符專案,內建于電腦輔助和互動式程式中的知識庫中。

知識探索

知識庫建立一開始是電腦引導的程式。 知識探索活動會藉由分析資料品質準則的資料範例、尋找資料不一致和語法錯誤,以及建議變更資料,來建置知識庫。 此分析是以 DQS 內建的演算法為基礎。

資料管理人會藉由將知識庫連結至 SQL Server 資料庫資料表或檢視來準備程式,該資料表或檢視表包含類似知識庫將用來分析之資料的範例資料。 然後,資料管理人會將知識庫定義域對應至要分析之範例資料的每個資料行。 定義域可以是對應至單一欄位的單一定義域,也可以是包含多個單一定義域的複合定義域,每個定義域都對應至單一欄位中資料的一部分(請參閱下方的「複合定義域」)。 當您執行知識探索時,DQS 會將資料品質資訊從範例資料擷取到知識庫中的定義域。 當您執行知識探索分析時,將會有一個知識庫,您可以執行資料更正。

DQS 知識庫是可延伸的。 從知識探索活動內,您可以在電腦輔助的知識探索分析之後,以互動方式將知識新增至知識庫。 您可以手動新增值變更,而且您可以從 Excel 檔案匯入定義域值。 此外,如果範例中的資料已變更,您可以在稍後再次執行知識探索程式。 您可以從定義域管理活動及資料比對活動內套用更多知識(請參閱下方)。

知識探索程式不需要對執行資料更正的相同資料執行。 DQS 可讓您彈性地從一組資料庫欄位建立知識,並將其套用至需要清理的第二組相關資料。 資料管理人可以從頭開始建立新的知識庫、以現有的知識庫為基礎,或從資料檔案匯入知識庫。 您也可以在現有的知識庫上重新執行知識探索。 您可以在單一 Data Quality Server 上維護多個知識庫。 您也可以將應用程式的多個實例連線到相同的知識庫。 DQS 藉由將知識庫鎖定至在知識管理會話中開啟知識庫的使用者,以防止並行衝突。

DQS 中的不區分大小寫

DQS 中的值不區分大小寫。 這表示當 DQS 執行知識探索、定義域管理或比對時,它不會區分大小寫的值。 如果您在值管理中新增的值,但只依大小寫而與其他值不同,它們會被視為相同的值,而不是同義字。 如果比對程式中只比較不同大小寫的兩個值,則會將其視為完全相符。

不過,您可以控制在清理結果中匯出的值案例。 當您匯出清理結果時,請將 [格式輸出] 設定為 定義域屬性(請參閱 設定 定義域屬性 ),並使用 [標準化輸出 ] 核取方塊來執行此動作(請參閱 使用 DQS (內部) 知識 清理資料)。

定義域管理

網域管理可讓資料管理人以互動方式變更及增強電腦輔助知識探索活動所產生的中繼資料。 您所做的每個變更都是針對知識庫定義域。 在網域管理活動中,您可以執行下列動作:

  • 建立新的網域。 新的網域可以連結至現有網域或從現有網域複製。

  • 設定套用至定義域中每個字詞的網域屬性。

  • 針對您所定義的值範圍套用執行驗證或標準化的網域規則。

  • 以互動方式將變更套用至定義域中的任何特定資料值。

  • 使用 DQS 拼字檢查字串值的語法、拼字和句子結構。

  • 從 .dqs 資料檔案或 Microsoft Excel 檔案中的定義域值匯入定義域。

  • 將資料品質專案中的清理程式找到的值匯入知識庫。

  • 將定義域附加至參考資料提供者所維護的參考資料,結果會比較定義域值來判斷其完整性和正確性。 您也可以設定資料提供者設定。

  • 為單一定義域套用以字詞為基礎的關聯性。

當定義域管理活動完成時,您可以發佈知識庫以用於資料項目目。

設定網域屬性

定義域屬性並驅動將套用至相關聯值的處理。 您可以設定值的資料類型和語言,指定來源資料會以前置值進行清理(如果未核取此選項,來源資料將會以正確的詞彙來清理,但不會使用前置值來清理),藉由設定定義域中的資料值輸出時套用的格式,以確保資料標準化。 和 定義將套用哪些演算法(語法錯誤、拼字檢查和字串正規化)。

Reference Data Services

在網域管理程式中,您可以將線上參考資料附加至網域。 這是您將網域中的資料與參考資料提供者所維護的資料進行比較的方式。 您必須先透過 Data Quality Client 應用程式的 [系統管理 ] 區段中的 DQS 組態功能 來設定參考資料提供者。 如需詳細資訊,請參閱 Reference Data Services in DQS

套用網域規則

您可以建立資料驗證的網域規則。 定義域規則可確保資料的正確性,範圍從基本條件約束,例如字串值可以是的可能詞彙,到更複雜的正則運算式,例如電子郵件地址的有效形式。

針對複合定義域,您可以建立 CD 規則,指定單一定義域中的值與另一個單一定義域中的值之間的關聯性,這兩個定義域都是複合定義域的一部分。

設定定義域值

建置知識庫之後,您可以在知識庫的每個定義域中填入和顯示資料值。 在知識探索之後,DQS 會顯示每個字詞出現多少次、每個字詞的狀態,以及建議的任何更正。 您可以管理這項知識,如下所示:

  • 變更值的狀態,使其正確、錯誤或無效

  • 將特定值新增至知識庫,或刪除特定值

  • 將某個值的關係變更為另一個值,包括指定錯誤或無效字詞的取代專案

  • 新增、移除或變更與定義域相關聯的知識。

值可由使用者特別建立,或做為資料探索或匯入功能的一部分所建立。 這可讓您讓網域與企業保持一致,並使其易於擴充。

您可以在定義域管理活動中,或在知識探索活動結尾的 [管理定義域值] 步驟中設定定義域值。 網域值功能在這兩個活動中都相同。

設定字詞關聯

在定義域管理中,您可以指定單一定義域的字詞型關聯,並指定單一值的變更。

複合定義域

複合定義域是由兩個或多個單一定義域所組成,每個定義域都包含一般資料的知識。 複合定義域可以定址的資料範例包括名稱欄位中的第一個、中間和姓氏,以及位址欄位中的房屋號碼和街道、城市、州、郵遞區號和國家/地區。 當您將單一欄位對應至複合定義域時,DQS 會將一個欄位的資料剖析成構成複合的多個定義域。

有時候,單一定義域並不代表完整欄位資料。 在複合定義域中分組兩個或多個定義域,可讓您以有效率的方式代表資料。 以下是使用複合定義域的優點:

  • 分析組成複合定義域的不同單一定義域,可能是評估資料品質的更有效率的方式。

  • 當您使用複合定義域時,也可以建立跨定義域規則,讓您確認多個定義域中的資料之間的關聯性是否適當。 例如,您可以確認城市網域中的字串 「London」 會對應至國家/地區網域中的字串 「Great Britain」。 請注意,跨網域規則會在定義域規則之後納入考慮。

  • 複合定義域中的資料可以附加至參考資料源,在此情況下,複合定義域會傳送至參考資料提供者。 這通常是使用位址資料來完成。

如何剖析複合定義域所代表的資料,取決於複合定義域屬性。 資料可以依分隔符號、定義域的順序來剖析,或根據附加至複合定義域之定義域中的知識(藉由選取 複合定義域中的 [使用知識型剖 析] 屬性)。 如需詳細資訊,請參閱 設定複合定義域屬性

複合定義域的管理方式與單一定義域不同。 您不管理複合定義域中的值;您可以針對組成複合定義域的單一定義域執行此動作。 不過,從定義域管理活動中的定義域清單,您可以看到複合定義域中不同值之間的關聯性,以及套用至它們的統計資料。 例如,您可以看到有多少實例是由相同五個字串值所組成的單一位址。 在知識探索活動的 [探索] 步驟中,分析會在複合定義域內的單一定義域上執行,而不是在複合定義域上執行。 不過,在互動式清理中,您會清理複合定義域中的資料,而不是單一定義域。

比對可以在組成複合定義域的單一定義域上執行,但不能在複合定義域本身上執行。

資料比對

除了透過定義域管理對知識庫進行手動變更之外,您還可以將相符的知識新增至知識庫。 若要為重複數據刪除程式準備 DQS,您必須建立比對原則,DQS 將用來計算相符的機率。 此原則包含一或多個比對規則,由資料管理人建立,以識別 DQS 應該如何比較資料列。 資料管理人會決定應該比較資料列中哪些資料欄位,以及每個欄位在比較中應該擁有多少權數。 資料管理人也會決定應將機率視為相符的機率。 DQS 會將比對規則新增至知識庫,以用於執行資料品質專案中的比對活動。

如需知識庫和資料比對的詳細資訊,請參閱 資料比對

本節內容

您可以在知識庫及其定義域上執行下列作業:

作業描述 主題
建立、開啟、新增知識,並在知識庫上執行探索 建立知識庫
在定義域和知識庫上執行匯入和匯出作業 匯入和匯出知識
建立單一定義域、定義域規則、以字詞為基礎的關聯性,以及變更定義域值 管理定義域
建立複合定義域、建立跨定義域規則,並使用值關聯 管理複合定義域
使用內建于 DQS 的預設 DQS 資料知識庫 使用 DQS 預設知識庫