執行比對專案
適用於:SQL Server
此主題描述如何在 Data Quality Services (DQS) 中執行資料比對。 比對程序會根據比對原則中的比對規則來識別比對記錄叢集、根據存活規則將每一個叢集中的一筆記錄指定為存活者,然後匯出結果。 DQS 會在電腦輔助的程序中執行比對程序 (也稱為刪除重複作業),但是您可以互動方式建立比對規則,而且您會從數個選擇中選取存活規則,好讓您控制比對程序。
比對作業會在三個階段執行:識別資料來源並將定義域對應至資料來源的對應程序、執行比對分析的比對程序,以及指定存活規則並匯出比對結果的生存與匯出程序。 以上每一個程序都是在比對活動精靈的個別頁面中執行,好讓您來回移到不同的頁面、重新執行此程序,並退出特定比對程序,然後返回該程序的相同階段。 DQS 會提供有關來源資料、比對規則和比對結果的統計資料,好讓您做出有關比對的明智決定,並精簡比對程序。
您必須做好比對的準備,方法是建立包含一個或多個比對規則的比對原則,並針對取樣資料執行此原則。 比對專案程序與比對原則程序不同,而且不會使用取自比對專案的相符知識來擴展知識庫。 如需有關建立比對原則的詳細資訊,請參閱< Create a Matching Policy>。
開始之前
必要條件
您必須已使用包含一個或多個比對規則的比對原則建立知識庫。
如果要比對的來源資料為 Excel 檔案,則 Microsoft Excel 必須安裝在 Data Quality Client 電腦上。 否則,您將無法在對應階段選取此 Excel 檔案。 由 Microsoft Excel 建立的檔案可以具有 .xlsx、.xls 或 .csv 的副檔名。 如果使用 64 位元版本的 Excel,則僅支援 Excel 2003 檔案 (.xls);Excel 2007 或 2010 檔案 (.xlsx) 不受支援。 如果您使用 64 位元版本的 Excel 2007 或 2010,請將檔案儲存為 .xls 檔案或 .csv 檔案,或是改為安裝 32 位元版本的 Excel。
安全性
權限
您必須擁有 DQS_MAIN 資料庫的 dqs_kb_editor 角色或 dqs_administrator 角色,才能執行比對專案。
第一步:啟動比對專案
您會在於 DQS 用戶端應用程式中建立的資料品質專案內執行比對活動。
啟動 Data Quality Client。 如需這樣做的詳細資訊,請參閱執行 Data Quality Client 應用程式。
在 Data Quality Client 首頁畫面中,按一下 [新增 Data Quality 專案],於新的資料品質專案內執行比對。 為資料品質專案輸入名稱、輸入描述,然後在 [使用知識庫]中選取您想要用於比對的知識庫。 為此活動按一下 [比對] 。 按 [下一步] 繼續前往對應階段。
按一下 [開啟資料品質專案] ,在現有的資料品質專案中執行比對。 選取專案,然後按 [下一步] (或者您可以按一下 [最近使用的資料品質專案] 底下的專案)。如果您開啟已關閉的比對專案,您將會進入比對專案活動已關閉的階段 (如同專案資料表中的 [狀態] 資料行或 [最近使用的資料品質專案] 底下的專案名稱所指示)。 如果您開啟已完成的比對專案,您將會移至 [匯出] 頁面 (而且您無法返回之前的畫面)。
對應階段
在對應階段中,您會識別執行比對分析所針對的資料來源,而且您會將來源資料行對應至定義域,好讓定義域可供比對活動使用。
在 [對應] 頁面上,若要針對資料庫執行比對,請將 [資料來源] 保留為 [SQL Server]、選取執行比對所針對的資料庫,然後選取資料表。 來源資料庫必須與 DQS 伺服器位於相同的 SQL Server 執行個體上, 否則不會出現在下拉式清單中。
若要針對 Excel 試算表中的資料執行比對,請針對 [資料來源] 選取 [Excel 檔案]、按一下 [瀏覽] 及選取 Excel 檔案,並在適當情況下保留選取 [使用第一個資料列做為標頭] 。 在 [工作表]中,選取將會是資料來源之 Excel 檔案中的工作表。 Data Quality Client 電腦上必須安裝 Excel,才能選取 Excel 檔案。 如果 Excel 未安裝在 Data Quality Client 電腦上,將無法使用 [瀏覽] 按鈕,而且這個文字方塊下方會通知您尚未安裝 Excel。
在 [對應]底下,針對 [來源資料行]選取資料來源中的欄位,然後選取對應的定義域。 針對您在比對程序中使用的所有定義域重複以上步驟。 比對原則中定義的每一個定義域都必須對應到適當的來源資料行。 [對應] 頁面會顯示您已經在比對原則中定義的定義域以及右方窗格中比對原則內的規則。
注意
只有當 DQS 支援來源資料類型,而且該類型符合 DQS 定義域資料類型時,您才能將來源資料對應至 DQS 定義域。 如需有關 DQS 支援之資料類型的詳細資訊,請參閱< DQS 定義域支援的 SQL Server 和 SSIS 資料類型>。
按一下 [加號 (+)] 控制項,將資料列加入至對應資料表,或按一下 [減號 (-)] 控制項,移除資料列。
按一下 [預覽資料來源] 查看您選取之 SQL Server 資料表或檢視表中的資料,或者您選取的 Excel 工作表。
按一下 [檢視/選取複合定義域] 檢視知識庫中可用的複合定義域清單,並依適當的情況選取來進行對應。
按 [下一步] 繼續前往比對階段。
注意
按一下 [關閉] ,儲存比對專案的階段,並返回 DQS 首頁。 下一次開啟此專案時,就會從相同階段開始。 按一下 [取消] ,結束比對活動,不儲存工作並返回 DQS 首頁。
比對階段
在此階段中,您會執行電腦輔助的比對程序,此程序為您顯示根據比對規則的來源資料中有多少比對。 這個程序將會產生比對結果資料表,此資料表會顯示 DQS 已經識別的叢集 (叢集中的每一筆記錄都有其記錄識別碼和符合分數) 以及叢集的初始前置記錄。 叢集中的前置記錄是隨機選取的 當您執行比對專案時,您會在 [匯出] 頁面上選取存活規則來決定存活記錄。 叢集中的每一個額外資料列都視為相符項目,結果資料表中會提供其符合分數 (相較於前置記錄)。 叢集號碼與叢集中前置記錄的記錄識別碼相同。
在比對結果中,您可以篩選想要的資料,並拒絕不想要的相符項目。 您可以顯示整體比對程序的分析資料、有關套用之比對規則的細節,以及有關整體比對結果的統計資料。 比對程序可以識別重疊或非重疊的叢集,而且如果執行多次的話,就可以針對剛從來源複製且重新建立索引的資料或之前的資料來執行。
在 [比對]頁面上,從下拉式清單中選取 [重疊的叢集] ,以便在執行比對時顯示所有叢集的樞紐記錄和隨後的記錄,即使叢集的群組有共同的記錄亦然。 選取 [非重疊的叢集] ,在執行比對時顯示與單一叢集擁有共同記錄的叢集。
按一下 [從來源重新載入資料] (預設值),在您執行比對專案時,將資料來源中的資料複製到暫存資料表,並為資料重新建立索引。 按一下 [在先前的資料上執行] 執行比對專案,而不將資料複製到暫存資料表,也不重新建立資料的索引。 當您初次執行比對專案,或是您在[對應] 頁面中變更對應,然後在隨後的快顯視窗中按一下 [是] 時, [在先前的資料上執行] 將會停用。 在這兩種情況下,您都必須重新建立索引。 如果比對專案尚未變更,就不需要重新建立索引。 針對之前的資料執行有助於提高效能。
按一下 [開始] ,針對選取的資料來源執行比對。
如果您想要停止比對專案並捨棄結果,請按一下 [停止] 。
在完成比對程序之後,請確認 [比對結果] 資料表中的叢集是適當的,並檢視 [分析工具] 和 [比對結果] 索引標籤中的統計資料,以確保您會達成所需的結果。 針對 [篩選] 選取 [相符項] 來檢視相符的記錄,或是選取 [不符]來檢視不符的記錄。
如果您在比對原則中有多個比對規則,請按一下 [比對規則] 索引標籤來識別每一個規則的圖示,然後藉由識別 [比對結果] 資料表中 [規則] 資料行內的規則來確認哪一項規則將記錄識別為相符項目。
如果您在資料表中選取非樞紐記錄,然後按一下 [檢視詳細資料] 圖示 (或是按兩下此記錄),DQS 將會顯示 [符合分數詳細資料] 快顯視窗,該視窗會顯示按兩下的記錄及其樞紐記錄 (以及其所有欄位中的值)、兩者之間的分數,以及每一個欄位之符合分數比重的向下鑽研。 按兩下樞紐記錄將不會顯示此快顯視窗。
按一下 [全部摺疊] 圖示摺疊 [比對結果] 資料表中顯示的記錄,以便只包含樞紐記錄,而不是重複的記錄。 按一下 [全部展開] 展開 [比對結果] 資料表中顯示的記錄,以便包含所有重複的記錄。
若要拒絕比對結果中的記錄,請針對此記錄按一下 [拒絕] 核取方塊。
若要變更最低符合分數 (此分數會決定某筆記錄為了顯示所必須擁有的比對層級),請選取資料表右上方的 最小符合分數 圖示,並輸入較高的數字。 最小符合分數預設為 80%。 按一下 [重新整理] ,變更資料表的內容。
分析完成後, [啟動] 按鈕將變為 [重新啟動] 按鈕。 按一下 [重新啟動] ,再次執行分析專案。 但是,上一次分析的結果尚未儲存,所以按一下 [重新啟動] 將會遺失之前的資料。 若要繼續,請在快顯視窗中按一下 [是] 。 執行分析時請勿離開頁面,否則分析程序將會終止。
按 [下一步] 繼續前往生存和匯出階段。
生存和匯出階段
在生存程序中,Data Quality Services 會決定每一個叢集的生存記錄,該記錄將會取代叢集中相符的其他記錄。 然後它會將比對及/或生存結果匯出到 SQL Server 資料庫中的資料表、.csv 檔案或 Excel 檔案。
生存是選擇性的。 您可以匯出結果而不執行生存,此時 DQS 將會使用比對分析中指定的樞紐記錄。 如果叢集中有兩筆或多筆記錄符合存活規則,則生存程序將會在衝突的記錄中選取最低的記錄識別碼,使其成為存活者。 您可以使用不同的存活規則,將存活者匯出到不同的檔案或資料表。
在 [匯出] 頁面上,於 [目的地類型]中選取您要將符合的資料匯出到哪一個目的地: [SQL Server]、 [CSV 檔案]或 [Excel 檔案]。
重要
如果您要使用 64 位元版本的 Excel,就無法將符合的資料匯出到 Excel 檔案,只能匯出到 SQL Server 資料庫或 .csv 檔案。
如果您針對 [目的地類型] 選取 [SQL Server],請在 [資料庫名稱]中選取要將結果匯出到哪一個資料庫。
重要
目的地資料庫必須與 DQS 伺服器位於相同的 SQL Server 執行個體上, 否則不會出現在下拉式清單中。
選取 [比對結果] 的核取方塊,將比對結果 (請參閱以上的解釋) 匯出到 SQL Server 資料庫中的指定資料表或是指定的 .csv 或 Excel 檔案。 選取 [生存結果] 的核取方塊,將生存結果 (請參閱以上的解釋) 匯出到 SQL Server 資料庫中的指定資料表或是指定的 .csv 或 Excel 檔案。
將會針對比對結果匯出以下項目:
叢集清單及每一個叢集中相符的記錄,包括規則名稱和分數。 樞紐記錄將會標示為「樞紐」。 這些叢集會先出現在匯出清單中。
不相符的記錄清單,其中 [分數] 和 [規則名稱] 資料行中會有 "NULL"。 這些記錄將會附加到叢集後面的匯出清單。
將會針對生存結果匯出以下項目:
生存程序根據存活規則所決定的生存者記錄清單。 這些記錄會先出現在匯出清單中。
不相符的記錄清單,這些記錄不會包含在相符記錄的叢集中。 這些記錄會附加在存活者結果的後面。
如果您針對 [目的地類型] 選取 [SQL Server],請在 [資料表名稱]中選取匯出結果的目的資料表名稱。 如果您同時匯出比對結果和生存結果,則目的地資料表必須擁有不同的名稱 (該名稱在資料庫中是唯一的)。
如果您針對 [目的地類型] 選取 [CSV 檔案],請在 [CSV 檔案名稱]中選取匯出目標之 CSV 檔案的名稱和路徑。
如果您針對 [目的地類型] 選取 [Excel 檔案],請在 [Excel 檔案名稱]中選取匯出目標之 Excel 檔案的名稱和路徑。 如果您要使用 64 位元版本的 Excel,就無法匯出到 Excel 檔案。
選取存活規則,如下所示:
選取 [樞紐記錄] (預設值),將存活記錄識別為 DQS 任意選擇的初始樞紐記錄。
選取 [最完整且最長的記錄] ,將存活記錄識別為具有最大擴展欄位數目以及在每一個欄位中擁有最大詞彙數目的記錄。 所有來源欄位都會核取,即使是在 [對應] 頁面上尚未對應至定義域的欄位。
選取 [最完整的記錄] ,將存活記錄識別為具有最大擴展欄位數目的記錄。 擴展的欄位至少包含一個值 (字串、數值或這兩者)。 所有來源欄位都會核取,即使是在 [對應] 頁面上尚未對應至定義域的欄位。 擴展的欄位至少包含一個值 (字串、數值或這兩者)。
選取 [最長的記錄] ,將存活記錄識別為來源欄位中具有最大詞彙數目的記錄。 為了判斷每一筆記錄的長度,DQS 會驗證所有來源欄位中詞彙的長度,即使是在 [對應] 頁面上尚未對應至定義域的欄位。
請在 [分析工具] 索引標籤中檢視統計資料,以確保您會達成所需的結果。
按一下 [匯出] ,匯出結果。 這樣會顯示 [比對匯出] 對話方塊,其中會顯示匯出的進度和結果。
如果您選取 [SQL Server] 做為資料目的地,則會在選取的資料庫中建立具有指定之名稱的新資料表。
如果您選取 [CSV 檔案] 做為資料目的地,則會在 Data Quality Server 電腦位置上,以先前在 [Csv 檔案名稱] 方塊中指定的檔案名稱來建立 .csv 檔案。
如果您選取 [Excel 檔案] 做為資料目的地,則會在 Data Quality Server 電腦位置上,以先前在 [Excel 檔案名稱] 方塊中指定的檔案名稱來建立 .xlsx 檔案。
確認匯出已順利完成,然後按一下 [關閉]。
按一下 [完成] 完成比對專案。
注意
如果您已完成比對專案,然後再次使用它,此專案將會在之前發行它的地方使用知識庫。 它不會使用您在完成專案之後對知識庫所做的任何變更。 若要使用這些變更或是使用新的知識庫,您必須建立新的比對專案。 在另一方面,如果您已經建立但是尚未完成比對專案,而且如果您在專案中執行比對,將會使用您已發行至比對原則的任何變更。
後續操作:在執行比對專案之後
在您執行比對專案之後,您可以變更知識庫中的比對原則,並根據更新的比對原則來建立及執行另一個比對專案。 如需相關資訊,請參閱 建立訂閱。
Profiler and Results Tabs
[分析工具] 和 [結果] 索引標籤包含比對程序的統計資料。
分析工具索引標籤
按一下 [分析工具] 索引標籤,顯示來源資料庫及原則規則內所包含之每一個欄位的統計資料。 在執行原則規則時,將會更新統計資料。 分析可幫助您評估刪除重複程序的效用,有助於判斷此程序能夠改善資料品質的程度。 分析的精確度對於比對專案而言並不重要。
來源資料庫統計資料包含下列幾種:
記錄:資料庫中的記錄總數
總計值:欄位中的值總數
新值:上次執行之後所新增之值的總數以及這些值佔整體的百分比
唯一值:欄位中唯一值的總數以及這些值佔整體的百分比
新的唯一值:欄位中新增之唯一值的總數以及這些值佔整體的百分比
欄位統計資料包括以下項目:
欄位:對應中所包含的欄位名稱
定義域:對應至欄位的定義域名稱
新增:找到之新相符項目的數目以及其總計百分比
唯一:欄位中唯一記錄的數目以及其總計百分比
完整性:規則執行完整的百分比
比對原則通知
如果是比對原則活動,以下情況會產生通知:
此欄位在所有記錄中都是空的,建議您從對應中將它消除。
欄位完整性分數非常低,您可能會想要從對應中將它消除。
欄位中的所有值都無效;您應該驗證對應以及定義域規則與欄位內容的相關性。
欄位中有效值的數目不多;您應該驗證對應以及定義域規則與欄位內容的相關性。
此欄位中的唯一性層級很高。 在比對原則中使用這個欄位會減少比對結果。
比對規則索引標籤
按一下此索引標籤,即可顯示比對原則中的規則清單及規則中的條件。
規則清單
顯示比對原則中所有比對規則的清單。 選取其中一個規則,以便顯示此規則在 [比對規則] 資料表中的條件。
比對規則資料表
顯示選定規則中的每一個條件,包括定義域、相似度值、加權和必要條件選取。
比對結果索引標籤
按一下 [比對結果] 索引標籤,使用針對專案選取的知識以及該知識庫內的比對規則來顯示用於分析資料來源的統計資料。 這些統計資料包括以下各項:
資料庫中的記錄總數
資料庫中相符記錄的總數
資料庫中不被視為重複項目的記錄數目
探索的叢集數目
平均叢集大小 (重複記錄數目除以叢集數目)
叢集中最少的重複項目數
叢集中最多的重複項目數