前置處理文字
本文描述 Azure Machine Learning 設計工具中的一個元件。
使用前置處理文字元件來清除和簡化文字。 其支援這些常見的文字處理作業:
- 移除停用字詞
- 使用規則運算式來搜尋和取代特定目標字串
- 詞形歸併還原,將多個相關的字組轉換成單一標準格式
- 大小寫正規化
- 移除某些類別的字元,例如數字、特殊字元和重複字元的序列,例如 "aaaa"
- 識別和移除電子郵件和 URL
前置處理文字元件目前僅支援英文。
設定文字前置處理
在 Azure Machine Learning 中,將前置處理文字元件新增至您的管線。 您可以在 [文字分析] 下找到此元件。
連線至少有一個資料行包含文字的資料集。
從 [語言] 下拉式清單中選取語言。
要清除的文字資料行:選取您想要前置處理的資料行。
移除停用字詞:如果您想要將預先定義的停用字詞清單套用至文字資料行,請選取此選項。
停用字詞清單與語言相依且可自訂。
詞形歸併還原:如果您想要以標準格式呈現單字,請選取此選項。 此選項有助於減少其他類似文字語彙基元的唯一出現次數。
詞形歸併還原程序高度與語言相依。
偵測句子:如果您想要元件在執行分析時插入句子界限標記,請選取此選項。
此元件使用一連串的三個管道字元
|||
來代表句子結束字元。使用規則運算式執行選擇性的尋找和取代作業。 將在所有其他內建選項之前優先處理規則運算式。
- 自訂規則運算式:定義您要搜尋的文字。
- 自訂取代字串:定義單一取代值。
將大小寫標準化為小寫:如果您想要將 ASCII 大寫字元轉換成小寫格式,請選取此選項。
如果未將字元標準化,則大寫和小寫字母的相同字組會被視為兩個不同的字組。
您也可以從處理的輸出文字中移除下列類型的字元或字元序列:
移除數字:選取此選項可移除指定語言的所有數字字元。 識別碼與網域相依和與語言相依。 如果數字字元是已知字組不可或缺的部分,則可能不會移除該數字。 在技術說明中深入了解。
移除特殊字元:使用此選項,可移除任何非英數字元的特殊字元。
移除重複的字元:選取此選項以移除任何序列中重複超過兩次的額外字元。 例如,"aaaaa" 之類的序列會縮減為 "aa"。
移除電子郵件地址:選取此選項,以移除格式為
<string>@<string>
的任何序列。移除 URL:選取此選項,以移除包含下列 URL 前置詞的任何序列:
http
、https
、ftp
、www
展開動詞縮寫:此選項只適用於使用動詞縮寫的語言;目前僅限英文。
例如,藉由選取此選項,您可以將片語 "wouldn't stay there" 取代為 "would not stay there"。
將反斜線標準化為斜線:選取此選項,可將
\\
的所有執行個體對應至/
。在特殊字元上分割語彙基元:如果您想要在
&
、-
等字元上中斷字組,請選取此選項。 此選項也可以減少重複兩次以上的特殊字元。例如,字串
MS---WORD
會分成三個語彙基元:MS
、-
和WORD
。提交管線。
技術說明
工作室 (傳統) 中的前置處理文字元件和設計工具使用不同的語言模型。 設計工具會使用來自 spaCy 的多工 CNN 定型模型。 不同的模型會提供不同的語彙基元工具和詞性標記,這會導致不同的結果。
下列是一些範例:
組態 | 輸出結果 |
---|---|
所有選項都已選取時 說明: 針對 'WC-3 3test 4test' 中的 '3test',設計工具會移除整個字組 '3test',因為在此內容中,詞性標記會將此語彙基元 '3test' 指定為數字,而根據詞性,該元件會將其移除。 |
|
只有選取 Removing number 時 說明: 針對 '3test'、'4-EC' 這類情況,設計工具語彙基元工具不會分割這些情況,而會將其視為整個語彙基元。 因此其不會移除這些字組中的數字。 |
您也可以使用規則運算式來輸出自訂結果:
組態 | 輸出結果 |
---|---|
選取所有選項時 自訂規則運算式: (\s+)*(-|\d+)(\s+)* 自訂取代字串: \1 \2 \3 |
|
僅選取 Removing number 時自訂規則運算式: (\s+)*(-|\d+)(\s+)* 自訂取代字串: \1 \2 \3 |
後續步驟
請參閱 Azure Machine Learning 可用的元件集。