重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
從指定的文字中解壓縮關鍵字組
Category:文字分析
本文說明如何使用機器學習 Studio (傳統) 中的文字模塊的 [將關鍵字組解壓縮],以預先處理文字資料行。 針對自然語言文字的資料行,此模組會解壓縮一或多個有意義的片語。 片語可能是單一單字、複合名詞或修飾詞加上名詞。
此模組是適用于主要片語解壓縮之自然語言處理 Api 的包裝函式。 在句子內容中,會針對各種原因,將片語分析為可能有意義:
- 此片語會捕捉句子的主題。
- 此片語包含表示情感的修飾元和名片語合。
例如,假設分析的句子是:「這是很棒的飯店,有獨特的 décor 和易記的員工」。
從文字模塊中解壓縮關鍵字組可能會傳回這些關鍵字組:
- 很棒的飯店
- 易記的員工
- 唯一 décor
若要將關鍵字組解壓縮,您必須連接具有文字資料行的資料集。
在機器學習 Studio (傳統) 中,從文字模塊將「解壓縮關鍵字組」新增至您的實驗。 然後,連接至少有一個全文檢索資料行的資料集。
使用 [資料行選取器] 選取 [字串] 類型的資料行,以從中解壓縮主要片語。
針對 [ 語言],請選取分析片語時要使用的語言。 如果您指定語言,則只會輸出目的語言中的片語。
如果文字資料行包含多種語言的片語,請選擇 [資料 行中識別的語言] 選項。 隨即顯示新的資料行選取器,可讓您選取包含語言識別項之資料集中的資料行。 語言識別項可以是語言名稱或 Iso6391 文化特性識別碼。 例如,可以接受「英文」或「en」。
提示
從文字執行將關鍵字組解壓縮之前,請使用 [偵測語言] 模組來識別每個資料列中的語言,並為您產生識別碼。 如果 [語言識別項] 資料行包含 從文字中解壓縮關鍵字組所不支援的任何語言,則會引發錯誤。
模組的輸出是資料集,其中包含以逗號分隔之主要片語的資料行。
例如,下列範例結果適用于輸入資料集,其中包含多種語言的評論:
主要片語 |
---|
新穎、海底、優質書、冒險故事、活動大量、良好字元 |
入門 misterio、personajes、風扇、aventura、isla |
所有的輸出片語都包含在單一資料行中;不會傳遞任何其他資料行,而且不會新增識別碼。 但是,如果您想要將輸出片語與來源文字對齊,您可以使用 [ 加入資料行 ] 模組,以輸入重新合併輸出片語。
關鍵字組解壓縮的輸出不會標示個別片語的語言。
如果包含了 [ 解壓縮關鍵字 組] 模組不支援的語言,則會 (0039) 引發錯誤。 若要避免發生錯誤,請務必篩選出具有不相容語言識別項的輸入文字。
如果有很多資料列的其他語言,您也可以省略此錯誤,方法是省略語言識別項,並使用單一語言選擇來分析所有文字。 但是,當您這樣做時,結果會很差,因為其他語言中的整個句子可能會輸出為單一按鍵片語。
下列範例示範如何使用此模組來將關鍵字組解壓縮,然後從片語建立單字雲端:將關鍵字組 解壓縮並顯示單字雲端
如需使用機器學習的文字處理範例,請參閱Azure AI 資源庫。
此課程模組目前支援下列語言:
- 荷蘭文
- 英文
- 法文
- 德文
- 義大利文
- 西班牙文
如需其他語言,請考慮在 Azure 認知服務中使用文字分析 API 。 如需詳細資訊,請參閱如何在文字分析中將關鍵字組解壓縮
名稱 | 類型 | 說明 |
---|---|---|
資料集 | 資料表 | 包含要處理之文字的資料表。 |
名稱 | 類型 | 範圍 | 選擇性 | 預設 | 描述 |
---|---|---|---|---|---|
文化特性語言資料行 | ColumnSelection | language:資料行包含語言 | 包含文化特性語言資訊之資料行的名稱或以一為基礎的索引 | ||
文字資料行 | ColumnSelection | 必要 | 文字資料行的名稱或以一為起始的索引。 | ||
語言 | T_Language | 英文、西班牙文、法文、荷蘭文、德文、義大利文、含語言的資料行 | 必要 | 英文 | 選取要處理之文字的語言。 |
名稱 | 類型 | 說明 |
---|---|---|
結果資料集 | 資料表 | 已解壓縮的主要片語 |
例外狀況 | 描述 |
---|---|
錯誤 0003 | 如果一或多個輸入為 Null 或空白,就會發生例外狀況。 |
錯誤 0010 | 如果輸入資料集有應符合但卻不符的資料行名稱,就會發生例外狀況。 |
錯誤 0016 | 如果傳至模組的輸入資料集應有相容的資料行類型,但卻沒有,就會發生例外狀況。 |
錯誤 0008 | 如果參數不在範圍內,就會發生例外狀況。 |
如需 Studio (傳統) 模組特定的錯誤清單,請參閱機器學習錯誤碼。
如需 API 例外狀況的清單,請參閱機器學習 REST API 錯誤碼。