模糊合併 是一種智慧的資料準備功能,可以在比較欄位時應用模糊匹配演算法。 這些演算法會嘗試在合併的表格中尋找匹配的對象。
你可以在 合併 對話框底部選擇「 使用模糊匹配」來執行合併 選項按鈕,來啟用模糊匹配。 更多資訊: 合併營運概述
備註
模糊匹配僅支援於文字欄位合併操作。 Power Query 使用 Jaccard 相似度演算法來衡量實例對之間的相似度。
範例案例
模糊匹配的常見應用場景包括在調查中使用自由文本欄位。 本文的樣本表直接取自一份線上問卷,該調查寄給只有一個問題的團體: 你最喜歡的水果是什麼?
該調查結果如下圖所示。
樣本調查輸出表的截圖,包含欄位分布圖,顯示九個獨立答案且所有答案皆為唯一,以及包含所有錯字、複數或單數及案例題的調查答案。
這九份紀錄反映了調查提交的內容。 調查提交的問題在於有些有錯字,有些是複數,有些是單數,有些是大寫,有些是小寫。
為了幫助標準化這些值,這個例子中有一個 Fruits 參考表。
水果參考表截圖,包含欄位分布圖,顯示四種不同水果且所有水果皆獨特,水果列表為:蘋果、鳳梨、西瓜和香蕉。
備註
為了簡化起見,這個 水果 參考表只包含此情境中所需的水果名稱。 你的參考表可以有你所需的任意多列。
目標是建立一個像以下這樣的表格,將所有這些數值標準化,以便進行更多分析。
範例調查輸出表的截圖,問題欄包含欄位分布圖。 圖表顯示九個不同的答案,且所有答案皆為唯一。 調查答案包含所有錯字、複數或單數問題,以及大小寫問題。 輸出表同時包含水果欄位。 本欄包含欄位分布圖,顯示四個不同答案且有一個獨特答案。 同時列出所有拼寫正確、單數且大小寫正確的水果。
模糊合併操作
要進行模糊合併,首先需要執行合併操作。 在這種情況下,你會使用 左外連接,其中左表是來自調查的表格,而右表是 水果 參照表。 在對話框底部,選擇 「使用模糊匹配」以執行合併 勾選框。
選擇 OK 後,你會看到表格中新增欄位,因為這個合併操作。 將其展開時,有一行沒有任何值。 這正是前一張圖片對話框中所說的:「選取符合第一張表格中9行中的8列。」
調查表中新增的水果欄位截圖。 問題欄中的所有行皆已展開,唯獨第 9 行無法展開,而水果欄為 null(空值)。
模糊匹配選項
你可以修改 模糊匹配選項 ,調整近似匹配的做法。 首先,選擇 「合併查詢 」指令,然後在 合併 對話框中展開模糊 匹配選項。
可用的選項如下:
- 相似度門檻(可選):介於 0.00 至 1.00 之間的值,能提供超過特定相似度分數的紀錄匹配能力。 1.00 的門檻等同於指定完全匹配的標準。 例如,葡萄 只有在閾值設定為小於 0.90 時,才與 Graes(缺少字母 p)匹配。 預設值設為 0.80。
- 忽略大小寫:允許不論文本大小寫均可匹配記錄。
- 透過合併文字部分來匹配:允許合併文字部分以尋找匹配。 例如,如果啟用了這個選項, Micro soft 會與 Microsoft 配對。
- 顯示相似度分數:顯示模糊匹配後輸入與匹配值之間的相似度分數。
- 匹配數量(可選):指定每個輸入列可回傳的最大匹配列數。
- 轉換表(可選):允許根據自訂值映射匹配紀錄。 例如,若提供一個轉換表,其中From欄位包含Grapes,而To欄位包含Raisins,則Grapes會匹配到Raisins。
轉換表
以本文的例子為例,你可以使用轉換表來映射缺少一對的值。 這個值是 APLS,需要映射到 Apple。 你的轉換表有兩欄:
- From 包含要尋找的值。
- To 包含用來替換在 From 欄位中找到的值的值。
本文的轉換表如下所示:
| 寄件者 | 發往 |
|---|---|
| APLS | 蘋果 |
你可以回到 合併 對話框,在 模糊匹配選項 中,匹配 數量下輸入 1。 啟用 「顯示相似度分數」 選項,然後在 「轉換表」下拉選單中選擇 「轉換表 」。
選擇 確定後,你可以進入合併步驟。 當你展開欄位顯示表格值時,除了 水果 欄位外,還會看到 相似度分數欄位。 選擇兩者並展開且不加前綴。
展開這兩個欄位後,它們會被加入你的表格。 請注意您取得的每個值的相似度分數。 這些分數能協助你進一步轉換,以判斷是否應該降低或提高相似度門檻。
在這個例子中, 相似度分數 僅作為額外資訊,並不需要在這個查詢的輸出中,所以你可以把它移除。 請注意範例一開始有九個不同的值,但經過模糊合併後,只有四個不同的值。
模糊合併調查輸出表的截圖,問題欄包含欄位分布圖,顯示九個獨立答案且所有答案皆為唯一,以及調查中所有錯字、複數或單數及格題的答案。 同時包含水果欄,並以欄位分布圖呈現四個不同答案,其中一個是唯一答案,並列出所有正確拼寫、單數及正確格的水果。
欲了解更多轉換表的運作方式,請參考「轉換表原則」。