共用方式為


DQS 知識庫與定義域

本主題描述 Data Quality Services (DQS) 中的知識庫定義。 若要清理資料,您必須有關於資料的知識。 若要準備資料品質專案的知識,您要建置並維護一個 DQS 可以用來識別不正確或無效資料的知識庫 (KB)。 DQS 可讓您同時使用電腦輔助和互動式程序來建立、建置和更新知識庫。 知識庫中的知識是在定義域中維護,其中每個定義域都專屬於某個資料欄位。 知識庫是有關資料的知識儲存機制,可讓您了解資料及維護資料的完整性。

DQS 知識庫具有下列優點:

  • 建置有關資料的知識是一個詳細的程序。 從範例資料自動擷取資料相關知識的 DQS 程序會使程序更為容易。

  • DQS 可讓您透過建立規則與變更資料值,來查看其資料分析,並加強知識庫中的知識。 您可以重複進行此動作以便在一段時間之後提升知識。

  • 您可以讓某個知識庫以現有的 KB 為基礎、將定義域知識從檔案匯入至 KB、將知識從專案匯回 KB,或使用 DQS 預設 KB、DQS 資料,藉以使用已存在的資料品質知識。

  • 您可以比較此資料與參考資料提供者所維護的資料來確保其品質。

  • 建置資料庫以及在資料更正程序中套用資料庫有清楚的區隔,這個區隔提供您建置與更新資料庫的彈性。

資料管理人使用 Data Quality Client 應用程式執行及控制電腦輔助的步驟,以及執行互動式步驟。

下圖顯示資料庫中的各種元件以及 DQS 中的定義域:

DQS 中的知識庫及定義域

本主題內容

  • 如何建立與建置 DQS 知識庫

  • 知識探索

  • 定義域管理

  • 資料比對

如何建立與建置 DQS 知識庫

建置 DQS 知識庫包含下列程序與元件:

  • 知識探索
    電腦輔助的程序,可透過處理資料範例,將知識建置到知識庫中

  • 定義域管理
    互動式程序,可讓資料管理人驗證並修改知識庫定義域中的知識,其中每個定義域都與某個資料欄位相關聯。 這可能包括設定整個欄位的屬性、建立規則、變更特定值、使用 Reference Data Services,或設定以詞彙為主或跨欄位的關聯性。

  • Reference Data Services
    定義域管理的程序,可讓您針對參考資料提供者維護並保證的資料驗證資料。

  • 比對原則
    一種原則,定義 DQS 如何處理記錄以識別內建至電腦輔助與互動式程序之知識庫中的潛在重複項目與不符合項目。

搭配回到頁首連結使用的箭頭圖示[回到頁首]

知識探索

知識庫建立一開始是電腦指引程序。 知識探索活動會分析資料樣本是否符合資料品質準則、尋找資料不一致性和語法錯誤,以及建議資料變更,以建置知識庫。 此分析是以內建至 DQS 中的演算法為基礎。

資料服務員藉由將知識庫連結至 SQL Server 資料庫資料表或檢視表,其中包含的範例資料類似於知識庫將用來分析的資料,來準備此程序。 資料服務員接著將知識庫定義域對應至要分析之範例資料的每個資料行。 定義域可以是對應至單一欄位的單一定義域,也可以是包含多個單一定義域 (其中每個定義域都會對應到單一欄位中的部分資料) 的複合定義域 (請參閱以下的「複合定義域」)。 當您執行知識探索時,DQS 會將資料品質資訊從範例資料擷取至知識庫中的定義域。 當您已經執行知識探索分析時,將會有一個您可以對其執行資料更正的資料庫。

DQS 知識庫可以延伸。 您可以在電腦輔助的知識探索分析之後,從知識探索活動中,以互動方式將知識加入至知識庫。 您可以手動加入值變更,也可以從 Excel 檔案匯入定義域值。 此外,如果範例中的資料已變更,您還可以稍後針對某個點執行知識探索程序。 您可以從定義域管理活動和資料比對活動 (如下所示) 套用更多知識。

不需要在執行資料更正的相同資料上執行知識探索程序。 DQS 提供從某一組資料庫欄位建立知識並將知識套用至另一組需要清理之相關資料的彈性。 資料管理人可以從頭開始建立新的知識庫、以現有知識庫為基礎,或是從資料檔匯入知識庫。 您也可以針對現有的知識庫重新執行知識探索。 您可以在單一 Data Quality Server上維護多個知識庫。 您也可以將多個應用程式執行個體連接到同一個知識庫。 當使用者在知識管理工作階段中開啟知識庫時,DQS 會將它鎖定,以防止並行存取衝突。

搭配回到頁首連結使用的箭頭圖示[回到頁首]

DQS 不區分大小寫

DQS 中的值不區分大小寫。 也就是說,當 DQS 執行知識探索、定義域管理或比對時,不會以大小寫區分至值。 如果您在值管理中加入只有大小寫不同於其他值的某個值,這兩個值將會被視為相同的值,而非同義字。 如果只有大小寫不同的兩個值在比對程序中進行比較,將會被視為完全相符。

不過,您可以控制您在清理結果中匯出之值的大小寫。 您可以透過設定 [設定輸出格式為] 定義域屬性 (請參閱<設定定義域屬性>),並在匯出清理結果時使用 [標準化輸出] 核取方塊 (請參閱<使用 DQS (內部) 知識清理資料>) 來進行。

定義域管理

定義域管理可讓資料管理人以互動方式變更及增加電腦輔助的知識探索活動所產生的中繼資料。 您所做的每個變更都可供知識庫定義域使用。 在定義域管理活動中,您可以執行下列操作:

  • 建立新的定義域。 您可以從現有的定義域連結或複製新的定義域。

  • 設定適用於定義域中每個詞彙的定義域屬性。

  • 套用針對您定義之值範圍執行驗證或標準化的定義域規則。

  • 將變更以互動方式套用至定義域中任何特定的資料值。

  • 使用 DQS 拼字檢查來檢查字串值的語法、拼字和句子結構。

  • 從 .dqs 資料檔匯入定義域,或從 Microsoft Excel 檔案匯入定義域值。

  • 將清理程序在資料品質專案中所找到的值匯回知識庫。

  • 將定義域附加到參考資料提供者所維護的參考資料,並使用定義域值與參考資料比較後的結果判斷其完整性和正確性。 您也可以設定資料提供者設定。

  • 套用單一定義域以詞彙為主的關聯。

完成定義域管理活動時,您可以發行知識庫以便用於資料專案中。

設定定義域屬性

定義域屬性會定義並驅動將套用至關聯值的處理。 您可以設定值的資料類型和語言,指定以前置值清理來源資料 (如果未核取此選項,則以正確的詞彙而非前置值清理來源資料),設定定義域中的資料值輸出時將套用的格式來確保資料標準化,以及定義將套用的演算法 (語法錯誤、拼寫和字串正規化)。

Reference Data Services

在定義域管理程序中,您可以將線上參考資料附加至定義域。 這是您比較定義域中的資料與參考資料提供者所維護的資料。 您必須先在 Data Quality Client 應用程式的 [管理] 區段,透過 DQS 組態功能設定參考資料提供者。 如需詳細資訊,請參閱<DQS 中的 Reference Data Services>。

套用定義域規則

您可以建立定義域規則以進行資料驗證。 定義域規則可確保資料從基本的條件約束 (例如字串值的可能詞彙) 到更複雜的一般運算式 (例如電子郵件地址的有效表單) 的精確度。

針對複合定義域,您可以建立一個 CD 規則,此規則會指定某個單一定義域中的值與另一個單一定義域中的值 (這兩個定義域都是複合定義域的一部分) 之間的關聯。

設定定義域值

建立資料庫之後,您可以在知識庫的每個定義域中填入並顯示資料值。 在知識探索之後,DQS 將會顯示每個詞彙出現的次數、每個詞彙的狀態,及其所建議的任何更正。 您可以管理此知識,如下所示:

  • 變更值的狀態、使其正確、錯誤或無效。

  • 在知識庫中加入或刪除特定值

  • 變更某個值與另一個值的關聯,包括指定錯誤或無效之詞彙的替代項目

  • 加入、移除或變更與定義域相關聯的知識。

值可以由使用者具體地建立,或做為資料探索或匯入功能的一部分。 這可讓您將定義域搭配業務使用,並使它可以輕易地延伸。

您可以在定義域管理活動中,或在知識探索活動結尾的「管理定義域值」步驟中設定定義域值。 定義域值功能在這兩個活動中相同。

設定詞彙關聯

在定義域管理中,您可以針對單一定義域指定以詞彙為基礎的關聯,以便指定對單一值的變更。

複合定義域

複合定義域是以兩個或多個單一定義域組成的結構,其中每個定義域都包含有關一般資料的知識。 複合是定義域可以處理之資料的範例為名稱欄位中的名字、中間名和姓氏,以及地址欄位中的門牌號碼和街道、城市、省/市、郵遞區號與國家。 當您將某個單一欄位對應到複合定義域時,DQS 會資料從某個欄位剖析到組成複合的多個定義域。

單一定義域有時候並不完全表示欄位資料。 在複合定義域中群組兩個或多個定義域可讓您以有效率的方式表示資料。 以下是使用複合定義域的優點:

  • 分析組成複合定義域的不同單一定義域可能是更有效率的評估資料品質方式。

  • 當您使用複合定義域時,也可以建立跨定義域的規則,這些規則可讓您驗證多個定義域中的資料之間的關聯性是否適當。 例如,您可以驗證城市定義域中的 “London” 字串是否對應到國家定義域中的 “England” 字串。 請注意,跨定義域規則會在定義域規則之後納入考量。

  • 複合定義域中的資料可以附加到參考資料來源,在該情況下,系統會將複合定義域傳送至參考資料提供者。 這通常會透過地址資料完成。

剖析複合定義域表示之資料的方式取決於複合定義域屬性。 資料可以依分隔符號、定義域的順序,或是依據附加至複合定義域的定義域中的知識 (藉由選取複合定義域中的 [以知識為基礎的剖析] 屬性) 進行剖析。 如需詳細資訊,請參閱<設定複合定義域屬性>。

複合定義域與單一定義域的管理方式不同。 您不會管理複合定義域中的值,但是您可以管理組成複合定義域之單一定義域中的值。 不過,您可以從「定義域管理」活動中的定義域清單,查看複合定義域中不同值之間的關聯性,以及適用於這些關聯性地統計資料。 例如,您可以查看有多少個執行個體屬於組成相同五個字串值的單一地址。 在「知識探索」活動的「探索」步驟中,分析是在複合定義域中的單一定義域上執行,而非在複合定義域上執行。 不過,在互動式清理時,您要清理複合定義域中的資料,而非單一定義域中的資料。

比對可以在組成複合定義域的單一定義域上執行,但無法在複合定義域本身執行。

搭配回到頁首連結使用的箭頭圖示[回到頁首]

資料比對

除了透過定義域管理對知識庫進行手動變更之外,您還可以將比對知識加入至知識庫。 若要為刪除重複資料程序準備 DQS,您必須建立一個 DQS 將用來計算比對機率的比對原則。 此原則包含一個或多個資料管理人所建立的比對規則,以識別 DQS 比較資料列的方式。 資料管理人會決定應該比較資料列中的哪些資料欄位,以及每個欄位在比較時應該佔多少比重。 資料管理人也將決定要將多高的機率視為相符。 DQS 會將比對規則加入至資料品質專案中用於執行比對活動的知識庫。

如需有關知識庫與資料比對的詳細資訊,請參閱<資料比對>。

搭配回到頁首連結使用的箭頭圖示[回到頁首]

本節內容

您可以在知識庫及其定義域上執行下列作業:

建立知識、開啟知識、將知識加入至知識庫,以及在知識庫上執行探索

建立知識庫

在定義域和知識庫上執行匯入和匯出作業

匯入和匯出知識

建立單一定義域、定義域規則、以詞彙為基礎的關聯,以及變更定義域值

管理定義域

建立複合定義域、建立跨定義域規則,以及使用值關聯

管理複合定義域

使用內建到 DQS 中的預設 DQS 資料知識庫

使用 DQS 預設知識庫