前置處理文字

發行項
06/01/2023

本文描述 Azure Machine Learning 設計工具中的一個元件。

使用前置處理文字元件來清除和簡化文字。其支援這些常見的文字處理作業：

移除停用字詞
使用規則運算式來搜尋和取代特定目標字串
詞形歸併還原，將多個相關的字組轉換成單一標準格式
大小寫正規化
移除某些類別的字元，例如數字、特殊字元和重複字元的序列，例如 "aaaa"
識別和移除電子郵件和 URL

前置處理文字元件目前僅支援英文。

設定文字前置處理

在 Azure Machine Learning 中，將前置處理文字元件新增至您的管線。您可以在 [文字分析] 下找到此元件。
連線至少有一個資料行包含文字的資料集。
從 [語言] 下拉式清單中選取語言。
要清除的文字資料行：選取您想要前置處理的資料行。
移除停用字詞：如果您想要將預先定義的停用字詞清單套用至文字資料行，請選取此選項。

停用字詞清單與語言相依且可自訂。
詞形歸併還原：如果您想要以標準格式呈現單字，請選取此選項。此選項有助於減少其他類似文字語彙基元的唯一出現次數。

詞形歸併還原程序高度與語言相依。
偵測句子：如果您想要元件在執行分析時插入句子界限標記，請選取此選項。

此元件使用一連串的三個管道字元 ||| 來代表句子結束字元。
使用規則運算式執行選擇性的尋找和取代作業。將在所有其他內建選項之前優先處理規則運算式。
- 自訂規則運算式：定義您要搜尋的文字。
- 自訂取代字串：定義單一取代值。
將大小寫標準化為小寫：如果您想要將 ASCII 大寫字元轉換成小寫格式，請選取此選項。

如果未將字元標準化，則大寫和小寫字母的相同字組會被視為兩個不同的字組。
您也可以從處理的輸出文字中移除下列類型的字元或字元序列：
- 移除數字：選取此選項可移除指定語言的所有數字字元。識別碼與網域相依和與語言相依。如果數字字元是已知字組不可或缺的部分，則可能不會移除該數字。在技術說明中深入了解。
- 移除特殊字元：使用此選項，可移除任何非英數字元的特殊字元。
- 移除重複的字元：選取此選項以移除任何序列中重複超過兩次的額外字元。例如，"aaaaa" 之類的序列會縮減為 "aa"。
- 移除電子郵件地址：選取此選項，以移除格式為 <string>@<string> 的任何序列。
- 移除 URL：選取此選項，以移除包含下列 URL 前置詞的任何序列：http、https、ftp、www
展開動詞縮寫：此選項只適用於使用動詞縮寫的語言；目前僅限英文。

例如，藉由選取此選項，您可以將片語 "wouldn't stay there" 取代為 "would not stay there"。
將反斜線標準化為斜線：選取此選項，可將 \\ 的所有執行個體對應至 /。
在特殊字元上分割語彙基元：如果您想要在 &、- 等字元上中斷字組，請選取此選項。此選項也可以減少重複兩次以上的特殊字元。

例如，字串 MS---WORD 會分成三個語彙基元：MS、- 和 WORD。
提交管線。

技術說明

工作室 (傳統) 中的前置處理文字元件和設計工具使用不同的語言模型。設計工具會使用來自 spaCy 的多工 CNN 定型模型。不同的模型會提供不同的語彙基元工具和詞性標記，這會導致不同的結果。

下列是一些範例：

組態	輸出結果
所有選項都已選取時說明：針對 'WC-3 3test 4test' 中的 '3test'，設計工具會移除整個字組 '3test'，因為在此內容中，詞性標記會將此語彙基元 '3test' 指定為數字，而根據詞性，該元件會將其移除。
只有選取 `Removing number` 時說明：針對 '3test'、'4-EC' 這類情況，設計工具語彙基元工具不會分割這些情況，而會將其視為整個語彙基元。因此其不會移除這些字組中的數字。

您也可以使用規則運算式來輸出自訂結果：

組態	輸出結果
選取所有選項時自訂規則運算式：`(\s+)(-\|\d+)(\s+)` 自訂取代字串：`\1 \2 \3`
僅選取 `Removing number` 時自訂規則運算式：`(\s+)(-\|\d+)(\s+)` 自訂取代字串：`\1 \2 \3`

後續步驟

請參閱 Azure Machine Learning 可用的元件集。

前置處理文字

設定文字前置處理

技術說明

後續步驟

其他資源