文字分析

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。建議您在該日期之前轉換成 Azure Machine Learning。

自 2021 年 12 月 1 日起，您將無法建立新的 Machine Learning 工作室 (傳統) 資源。在 2024 年 8 月 31 日之前，您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

請參閱將機器學習專案從 ML 工作室 (傳統) 移至 Azure Machine Learning 的相關資訊。
深入瞭解Azure Machine Learning。

ML 工作室 (傳統) 文件即將淘汰，未來將不再更新。

本文說明機器學習 Studio (傳統) 中包含的文字分析模組。這些模組提供特製化的計算工具來處理結構化和非結構化文字，包括：

前置處理文字的多個選項。
語言偵測。
使用可自訂的 n 語法字典，從文字建立功能。
特徵雜湊，可有效率地分析文字，而不需預先處理或先進的語言分析。
Vowpal Wabbit，適用于非常快速的文字機器學習。 Vowpal Wabbit 支援「特徵雜湊」、 (LDA) 的主題模型，以及分類。
命名實體辨識，用來從非結構化文字中將人員、地點和組織的名稱解壓縮。

注意

適用于：僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

範例

如需使用機器學習的文字分析範例，請參閱Azure AI 資源庫：

新聞分類：使用特徵雜湊將文章分類成預先定義的類別清單。
尋找類似的公司：使用維琪百科文章的文字將公司分類。
文字分類：示範在情感分析中使用 Twitter 訊息中的文字 (五部分範例) 的端對端處理常式。

模組清單

機器學習 Studio (傳統) 中的文字分析類別包含下列模組：

偵測語言：偵測輸入檔中每一行的語言。
從文字中將關鍵字組解壓縮：從指定文字中將關鍵字組解壓縮。
從文字中解壓縮 n 語法特徵：建立 n 語法字典功能，並對其進行特徵選取。
特徵雜湊：使用 Vowpal Wabbit 程式庫將文字資料轉換成整數編碼的功能。
潛在的狄氏配置：使用 Vowpal Wabbit LIBRARY for LDA 來執行主題模型化。
命名實體辨識：辨識文字資料行中的已命名實體。
前置處理文字：在文字上執行清除作業。
評分 Vowpal Wabbit 7-4 模型：使用7-4 版的 Vowpal Wabbit 機器學習系統來評分 Azure 的輸入。
評分 Vowpal Wabbit 7-10 模型：使用7-10 版的 Vowpal Wabbit 機器學習系統來評分 Azure 的輸入。
評分 Vowpal Wabbit 8 模型：使用第8版的 Vowpal Wabbit 機器學習系統來評分 Azure 的輸入。
定型 Vowpal Wabbit 7-4 模型：使用7-4 版的 Vowpal Wabbit 機器學習系統來訓練模型。
定型 Vowpal Wabbit 7-10 模型：使用7-10 版的 Vowpal Wabbit 機器學習系統來訓練模型。
定型 Vowpal Wabbit 8 模型：使用第8版的 Vowpal Wabbit 機器學習系統來訓練模型。

另請參閱

Last updated on 2019-05-06