共用方式為


模糊合併

模糊合併 是一種智慧的資料準備功能,可以在比較欄位時應用模糊匹配演算法。 這些演算法會嘗試在合併的表格中尋找匹配的對象。

你可以在 合併 對話框底部選擇「 使用模糊匹配」來執行合併 選項按鈕,來啟用模糊匹配。 更多資訊: 合併營運概述

備註

模糊匹配僅支援於文字欄位合併操作。 Power Query 使用 Jaccard 相似度演算法來衡量實例對之間的相似度。

範例案例

模糊匹配的常見應用場景包括在調查中使用自由文本欄位。 本文的樣本表直接取自一份線上問卷,該調查寄給只有一個問題的團體: 你最喜歡的水果是什麼?

該調查結果如下圖所示。

樣本調查,包含原始數據。

樣本調查輸出表的截圖,包含欄位分布圖,顯示九個獨立答案且所有答案皆為唯一,以及包含所有錯字、複數或單數及案例題的調查答案。

這九份紀錄反映了調查提交的內容。 調查提交的問題在於有些有錯字,有些是複數,有些是單數,有些是大寫,有些是小寫。

為了幫助標準化這些值,這個例子中有一個 Fruits 參考表。

水果參考表。

水果參考表截圖,包含欄位分布圖,顯示四種不同水果且所有水果皆獨特,水果列表為:蘋果、鳳梨、西瓜和香蕉。

備註

為了簡化起見,這個 水果 參考表只包含此情境中所需的水果名稱。 你的參考表可以有你所需的任意多列。

目標是建立一個像以下這樣的表格,將所有這些數值標準化,以便進行更多分析。

樣本調查結果表。

範例調查輸出表的截圖,問題欄包含欄位分布圖。 圖表顯示九個不同的答案,且所有答案皆為唯一。 調查答案包含所有錯字、複數或單數問題,以及大小寫問題。 輸出表同時包含水果欄位。 本欄包含欄位分布圖,顯示四個不同答案且有一個獨特答案。 同時列出所有拼寫正確、單數且大小寫正確的水果。

模糊合併操作

要進行模糊合併,首先需要執行合併操作。 在這種情況下,你會使用 左外連接,其中左表是來自調查的表格,而右表是 水果 參照表。 在對話框底部,選擇 「使用模糊匹配」以執行合併 勾選框。

合併對話框的截圖,展示如何使用模糊匹配來執行合併選項。

選擇 OK 後,你會看到表格中新增欄位,因為這個合併操作。 將其展開時,有一行沒有任何值。 這正是前一張圖片對話框中所說的:「選取符合第一張表格中9行中的8列。」

水果欄中的模糊比對結果。

調查表中新增的水果欄位截圖。 問題欄中的所有行皆已展開,唯獨第 9 行無法展開,而水果欄為 null(空值)。

模糊匹配選項

你可以修改 模糊匹配選項 ,調整近似匹配的做法。 首先,選擇 「合併查詢 」指令,然後在 合併 對話框中展開模糊 匹配選項

合併對話框的截圖,顯示模糊匹配選項。

可用的選項如下:

  • 相似度門檻(可選):介於 0.00 至 1.00 之間的值,能提供超過特定相似度分數的紀錄匹配能力。 1.00 的門檻等同於指定完全匹配的標準。 例如,葡萄 只有在閾值設定為小於 0.90 時,才與 Graes(缺少字母 p)匹配。 預設值設為 0.80。
  • 忽略大小寫:允許不論文本大小寫均可匹配記錄。
  • 透過合併文字部分來匹配:允許合併文字部分以尋找匹配。 例如,如果啟用了這個選項, Micro soft 會與 Microsoft 配對。
  • 顯示相似度分數:顯示模糊匹配後輸入與匹配值之間的相似度分數。
  • 匹配數量(可選):指定每個輸入列可回傳的最大匹配列數。
  • 轉換表(可選):允許根據自訂值映射匹配紀錄。 例如,若提供一個轉換表,其中From欄位包含Grapes,而To欄位包含Raisins,則Grapes會匹配到Raisins

轉換表

以本文的例子為例,你可以使用轉換表來映射缺少一對的值。 這個值是 APLS,需要映射到 Apple。 你的轉換表有兩欄:

  • From 包含要尋找的值。
  • To 包含用來替換在 From 欄位中找到的值的值。

本文的轉換表如下所示:

寄件者 發往
APLS 蘋果

你可以回到 合併 對話框,在 模糊匹配選項 中,匹配 數量下輸入 1。 啟用 「顯示相似度分數」 選項,然後在 「轉換表」下拉選單中選擇 「轉換表 」。

合併對話框擷取畫面,匹配數量設為 1,

選擇 確定後,你可以進入合併步驟。 當你展開欄位顯示表格值時,除了 水果 欄位外,還會看到 相似度分數欄位。 選擇兩者並展開且不加前綴。

水果欄的表格展開對話框截圖,該欄包含已選取的水果與相似度分數欄位。

展開這兩個欄位後,它們會被加入你的表格。 請注意您取得的每個值的相似度分數。 這些分數能協助你進一步轉換,以判斷是否應該降低或提高相似度門檻。

模糊合併過程後的表格輸出截圖,展示了每個值的新水果欄位和相似度分數欄位。

在這個例子中, 相似度分數 僅作為額外資訊,並不需要在這個查詢的輸出中,所以你可以把它移除。 請注意範例一開始有九個不同的值,但經過模糊合併後,只有四個不同的值。

模糊合併調查結果表。

模糊合併調查輸出表的截圖,問題欄包含欄位分布圖,顯示九個獨立答案且所有答案皆為唯一,以及調查中所有錯字、複數或單數及格題的答案。 同時包含水果欄,並以欄位分布圖呈現四個不同答案,其中一個是唯一答案,並列出所有正確拼寫、單數及正確格的水果。

欲了解更多轉換表的運作方式,請參考「轉換表原則」。