使用 [模糊群組轉換編輯器] 對話方塊的 [資料行] 索引標籤,即可指定用來以重複值分組數據列的數據行。
若要深入瞭解模糊群組轉換,請參閱 模糊群組轉換。
選項
可用的輸入資料行
從此清單中選取用來將重複值的數據列分組的輸入數據行。
名稱
檢視可用輸入數據行的名稱。
通過
選取是否要在轉換的輸出中包含輸入數據行。 用於分組的所有數據行都會自動複製到輸出。 您可以檢查此資料列來包含其他資料列。
輸入資料行
選取稍早在 [可用的輸入資料行] 清單中選取的其中一個 輸入數據行 。
輸出別名
輸入對應輸出數據列的描述性名稱。 根據預設,輸出數據行名稱與輸入數據行名稱相同。
群組輸出別名
輸入數據行的描述性名稱,其中包含群組重複項的正式值。 此輸出資料列的預設名稱是附加_clean的輸入數據行名稱。
比對類型
選擇模糊或完全相符。 如果數據列在具有模糊比對類型的所有數據行中都有足夠的相似性,則視為重複數據列。 如果您也在特定數據列上指定完全比對,則只有在完全比對數據列中包含相同值的數據行會被視為可能的重複項。 因此,如果您知道特定數據行不包含錯誤或不一致,您可以指定該數據行的完全比對,以增加其他數據行模糊比對的精確度。
最小相似度
使用滑桿在聯結層級設定相似度臨界值。 此值越接近 1,查閱值與來源值的相似度必須越接近才能認定為相符。 增加臨界值可改善比對速度,因為需要考慮的候選記錄越少。
相似度輸出別名
指定新輸出數據行的名稱,其中包含所選取聯結的相似度分數。 如果您將此值保留空白,則不會建立輸出資料行。
數字
在比較數據行數據時,指定前置和尾端數位的意義。 例如,如果前置數位很重要,“123 Main Street” 將不會分組為 “456 Main Street”。
| 價值觀 | 說明 |
|---|---|
| 也不 | 前置和尾端數位並不重要。 |
| 主導 | 只有前導數字很重要。 |
| 落後 | 只有尾端數位很重要。 |
| LeadingAndTrailing | 前置和尾端數位都很重要。 |
比較旗標
如需字串比較選項的相關信息,請參閱 比較字串數據。