Share via


偵測語言

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

偵測輸入檔中每一行的語言

Category:文字分析

注意

適用于僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

模組概觀

本文說明如何使用機器學習 Studio (傳統) 中的 [偵測語言] 模組來分析文字輸入,並識別與輸入中的每一筆記錄相關聯的語言。

語言偵測演算法可以識別許多不同的語言。 只需指定要分析的字串資料行,以及要偵測的語言總數。 演算法會分析每個資料列,並為每個語言指派機率分數。 第一個結果資料行中的語言是得到最高分的語言。

如何設定偵測語言

  1. 將包含您想要分析之文字的資料集新增至機器學習 Studio (傳統) 中的實驗。 具有要分析之文字的資料行必須是字串資料類型。

    資料集不需要包含標籤資料行;語言偵測演算法純粹適用于支援語言的語言功能。

    如果您要匯入新的資料,請確定您的資料是以 UTF-8 格式儲存。 不支援其他 Unicode 格式。

  2. 將 [偵測 語言 ] 模組新增至您的實驗,並串連資料組與語言偵測的文字。

  3. 針對 [ 文字資料行],選擇您想要分析的資料行。

  4. 如果要偵測的 語言數量上限,請指出要偵測的語言數目上限。

    設定語言數目上限可改善效能。

  5. 執行實驗。

結果

[偵測 語言 ] 模組會輸出每個資料列的語言識別項和分數。

例如,下表包含測試資料的範例分析。

  • 前兩個數據行 col1語言標籤 是從輸入資料集傳遞的資料行。 在此範例中,由於輸入資料集是設計用來測試模組,因此預期的語言是已知的,而且是在標籤資料行中提供。

  • 其餘的資料行是由 [偵測 語言 ] 模組所產生。 如果有相等的可能語言相符專案,則可能會列出數種語言,每個語言都有分數。 在此情況下,模組只會針對每個資料列預測一種語言,以及該語言的機率分數。

    如果模組無法偵測到具有足夠高度分數的任何語言,則會輸出 (未知) 的結果,其分數為0。 不過,模組所支援的語言在 API 更新時可能會隨時間變更。

Col1 語言標籤 Col1 語言 Col1 Iso6391 語言 Col1 Iso6391 語言分數
它是一個很棒的旅館,具有易記的員工和良好的服務 英文 英文 en 100
Es war ein wunderbares 飯店 mit freundlichem Personal 和 guter service 德文 德文 de 100
C'est un magnifique hôtel avec un 人事 sympathique et qualité de 法文 法文 fr 100
Det var et dejligt 飯店 med-v et venligt personale og 上帝 service 丹麥文 丹麥文 nl 100
Va ser magnífic 飯店 amb un personal amable i bon servei 卡達隆尼亞文 卡達隆尼亞文 ca 92.30769348
とても素敵なホテルで、スタッフは親切で、サービスもよかった 日文 (未知) 0
qu mebpa'mey naQ 易記 QaQ chavmoH je 克林貢文 法文 fr 77.5

範例

如需如何在實驗中使用「偵測 語言 」模組的範例,請參閱 Azure AI 資源庫

  • 依語言篩選電影標題:偵測電影名稱中使用的語言,然後使用語言識別項將資料集分割成英文和非英文的電影。

技術說明

如需可能偵測到之語言的一般概念,請參閱Bing 翻譯

您可以偵測到許多語言,而不是目前支援的 advanced text analytics 機器學習。 建議您使用偵測 語言 的結果來篩選您傳送給其他需要語言特定處理之模組的結果。

Azure 認知服務中的文字分析服務也會使用基礎語言服務。

預期的輸入

名稱 類型 說明
資料集 資料表 輸入的 。

模組參數

名稱 類型 範圍 選擇性 預設 描述
要偵測的語言數量上限 整數 [1; 184] 必要 1 要偵測的語言數量上限。
文字資料行 ColumnSelection 必要 以名稱或一為基礎的文字資料行索引。

輸出

名稱 類型 說明
結果資料集 資料表 結果

例外狀況

例外狀況 描述
錯誤 0003 如果一或多個輸入為 Null 或空白,就會發生例外狀況。
錯誤 0010 如果輸入資料集有應符合但卻不符的資料行名稱,就會發生例外狀況。
錯誤 0016 如果傳至模組的輸入資料集應有相容的資料行類型,但卻沒有,就會發生例外狀況。
錯誤 0008 如果參數不在範圍內,就會發生例外狀況。

如需 Studio (傳統) 模組特定的錯誤清單,請參閱機器學習錯誤碼

如需 API 例外狀況的清單,請參閱機器學習 REST API 錯誤碼

另請參閱

文字分析
A-Z 模組清單