文字分析
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
本文說明機器學習 Studio (傳統) 中包含的文字分析模組。 這些模組提供特製化的計算工具來處理結構化和非結構化文字,包括:
- 前置處理文字的多個選項。
- 語言偵測。
- 使用可自訂的 n 語法字典,從文字建立功能。
- 特徵雜湊,可有效率地分析文字,而不需預先處理或先進的語言分析。
- Vowpal Wabbit,適用于非常快速的文字機器學習。 Vowpal Wabbit 支援「特徵雜湊」、 (LDA) 的主題模型,以及分類。
- 命名實體辨識,用來從非結構化文字中將人員、地點和組織的名稱解壓縮。
範例
如需使用機器學習的文字分析範例,請參閱Azure AI 資源庫:
新聞分類:使用特徵雜湊將文章分類成預先定義的類別清單。
尋找類似的公司:使用維琪百科文章的文字將公司分類。
文字分類:示範在情感分析中使用 Twitter 訊息中的文字 (五部分範例) 的端對端處理常式。
模組清單
機器學習 Studio (傳統) 中的文字分析類別包含下列模組:
- 偵測語言:偵測輸入檔中每一行的語言。
- 從文字中將關鍵字組解壓縮:從指定文字中將關鍵字組解壓縮。
- 從文字中解壓縮 n 語法特徵:建立 n 語法字典功能,並對其進行特徵選取。
- 特徵雜湊:使用 Vowpal Wabbit 程式庫將文字資料轉換成整數編碼的功能。
- 潛在的狄氏配置:使用 Vowpal Wabbit LIBRARY for LDA 來執行主題模型化。
- 命名實體辨識:辨識文字資料行中的已命名實體。
- 前置處理文字:在文字上執行清除作業。
- 評分 Vowpal Wabbit 7-4 模型:使用7-4 版的 Vowpal Wabbit 機器學習系統來評分 Azure 的輸入。
- 評分 Vowpal Wabbit 7-10 模型:使用7-10 版的 Vowpal Wabbit 機器學習系統來評分 Azure 的輸入。
- 評分 Vowpal Wabbit 8 模型:使用第8版的 Vowpal Wabbit 機器學習系統來評分 Azure 的輸入。
- 定型 Vowpal Wabbit 7-4 模型:使用7-4 版的 Vowpal Wabbit 機器學習系統來訓練模型。
- 定型 Vowpal Wabbit 7-10 模型:使用7-10 版的 Vowpal Wabbit 機器學習系統來訓練模型。
- 定型 Vowpal Wabbit 8 模型:使用第8版的 Vowpal Wabbit 機器學習系統來訓練模型。