前置處理文字

本文描述 Azure Machine Learning 設計工具中的一個元件。

使用前置處理文字元件來清除和簡化文字。 其支援這些常見的文字處理作業:

  • 移除停用字詞
  • 使用規則運算式來搜尋和取代特定目標字串
  • 詞形歸併還原,將多個相關的字組轉換成單一標準格式
  • 大小寫正規化
  • 移除某些類別的字元,例如數字、特殊字元和重複字元的序列,例如 "aaaa"
  • 識別和移除電子郵件和 URL

前置處理文字元件目前僅支援英文。

設定文字前置處理

  1. 在 Azure Machine Learning 中,將前置處理文字元件新增至您的管線。 您可以在 [文字分析] 下找到此元件。

  2. 連線至少有一個資料行包含文字的資料集。

  3. 從 [語言] 下拉式清單中選取語言。

  4. 要清除的文字資料行:選取您想要前置處理的資料行。

  5. 移除停用字詞:如果您想要將預先定義的停用字詞清單套用至文字資料行,請選取此選項。

    停用字詞清單與語言相依且可自訂。

  6. 詞形歸併還原:如果您想要以標準格式呈現單字,請選取此選項。 此選項有助於減少其他類似文字語彙基元的唯一出現次數。

    詞形歸併還原程序高度與語言相依。

  7. 偵測句子:如果您想要元件在執行分析時插入句子界限標記,請選取此選項。

    此元件使用一連串的三個管道字元 ||| 來代表句子結束字元。

  8. 使用規則運算式執行選擇性的尋找和取代作業。 將在所有其他內建選項之前優先處理規則運算式。

    • 自訂規則運算式:定義您要搜尋的文字。
    • 自訂取代字串:定義單一取代值。
  9. 將大小寫標準化為小寫:如果您想要將 ASCII 大寫字元轉換成小寫格式,請選取此選項。

    如果未將字元標準化,則大寫和小寫字母的相同字組會被視為兩個不同的字組。

  10. 您也可以從處理的輸出文字中移除下列類型的字元或字元序列:

    • 移除數字:選取此選項可移除指定語言的所有數字字元。 識別碼與網域相依和與語言相依。 如果數字字元是已知字組不可或缺的部分,則可能不會移除該數字。 在技術說明中深入了解。

    • 移除特殊字元:使用此選項,可移除任何非英數字元的特殊字元。

    • 移除重複的字元:選取此選項以移除任何序列中重複超過兩次的額外字元。 例如,"aaaaa" 之類的序列會縮減為 "aa"。

    • 移除電子郵件地址:選取此選項,以移除格式為 <string>@<string> 的任何序列。

    • 移除 URL:選取此選項,以移除包含下列 URL 前置詞的任何序列:httphttpsftpwww

  11. 展開動詞縮寫:此選項只適用於使用動詞縮寫的語言;目前僅限英文。

    例如,藉由選取此選項,您可以將片語 "wouldn't stay there" 取代為 "would not stay there"

  12. 將反斜線標準化為斜線:選取此選項,可將 \\ 的所有執行個體對應至 /

  13. 在特殊字元上分割語彙基元:如果您想要在 &- 等字元上中斷字組,請選取此選項。 此選項也可以減少重複兩次以上的特殊字元。

    例如,字串 MS---WORD 會分成三個語彙基元:MS-WORD

  14. 提交管線。

技術說明

工作室 (傳統) 中的前置處理文字元件和設計工具使用不同的語言模型。 設計工具會使用來自 spaCy 的多工 CNN 定型模型。 不同的模型會提供不同的語彙基元工具和詞性標記,這會導致不同的結果。

下列是一些範例:

組態 輸出結果
所有選項都已選取時
說明:
針對 'WC-3 3test 4test' 中的 '3test',設計工具會移除整個字組 '3test',因為在此內容中,詞性標記會將此語彙基元 '3test' 指定為數字,而根據詞性,該元件會將其移除。
已選取所有選項
只有選取 Removing number
說明:
針對 '3test'、'4-EC' 這類情況,設計工具語彙基元工具不會分割這些情況,而會將其視為整個語彙基元。 因此其不會移除這些字組中的數字。
只選取 [移除數字]

您也可以使用規則運算式來輸出自訂結果:

組態 輸出結果
選取所有選項時
自訂規則運算式:(\s+)*(-|\d+)(\s+)*
自訂取代字串:\1 \2 \3
已選取所有選項和規則運算式
僅選取 Removing number
自訂規則運算式:(\s+)*(-|\d+)(\s+)*
自訂取代字串:\1 \2 \3
已選取移除數字和規則運算式

後續步驟

請參閱 Azure Machine Learning 可用的元件集