使用模糊群組轉換來識別相似的資料列
若要加入和設定「模糊群組」轉換,封裝必須至少包含一個「資料流程」工作和一個來源。
在資料流程中實作「模糊群組」轉換
在 SQL Server Data Tools (SSDT) 中,開啟包含所需封裝的 Integration Services 專案。
在 [方案總管] 中,按兩下封裝將其開啟。
按一下 [資料流程] 索引標籤,然後將「模糊群組」轉換從 [工具箱] 拖曳到設計介面。
將連接子從資料來源或前一轉換拖曳至「模糊群組」轉換,以便將「模糊群組」轉換連接到資料流程。
按兩下「模糊群組」轉換。
在 [模糊群組轉換編輯器] 對話方塊的 [連接管理員] 索引標籤上,選取連接到 SQL Server 資料庫的 OLE DB 連接管理員。
[!附註]
該轉換需要到 SQL Server 資料庫的連接,以建立暫存資料表和索引。
按一下 [資料行] 索引標籤,並在 [可用的輸入資料行] 清單中,選取用於識別資料集中相似資料列之輸入資料行的核取方塊。
選取 [通過] 資料行中的核取方塊,以識別要傳遞至轉換輸出的輸入資料行。 重複資料列的識別處理中未包含傳遞資料行。
[!附註]
用於群組的輸入資料行會自動選取為傳遞資料行,並且在用於群組時,無法取消對它們的選取。
(選擇性) 在 [輸出別名] 資料行中更新輸出資料行的名稱。
(選擇性) 在 [群組輸出別名] 資料行中更新已清除資料行的名稱。
[!附註]
資料行的預設名稱是具有 "_clean" 後置詞之輸入資料行的名稱。
(選擇性) 在 [比對類型] 資料行中更新要使用的比對類型。
[!附註]
至少一個資料行必須使用模糊比對。
在 [最小相似度] 資料行中指定最小相似度層級資料行。 值長度必須介於 0 到 1 之間。 值愈接近 1,必須形成群組之輸入資料行中的值會愈相似。 最小相似度 1 表示完全相符。
(選擇性) 在 [相似度輸出別名] 資料行中更新相似度資料行的名稱。
若要指定資料值中數字的處理方式,請更新 [數字] 資料行中的值。
若要指定如何將轉換與資料行中的字串資料進行比較,請修改 [比較旗標] 資料行中之比較選項的預設選擇。
按一下 [進階] 索引標籤,以修改資料行的名稱,轉換會將這些資料行加入唯一資料列識別碼 (_key_in)、重複資料列識別碼 (_key_out) 和相似度值 (_score) 的輸出。
(選擇性) 藉由移動滑動軸來調整相似度臨界值。
(選擇性) 清除 Token 分隔符號核取方塊,以忽略資料中的分隔符號。
按一下 [確定]。
若要儲存更新的封裝,請按一下 [檔案] 功能表上的 [儲存選取項目]。