了解 Azure 語言的文字分析功能

已完成

Azure Language 是 Foundry 工具產品的一部分,能在非結構化文字上執行進階自然語言處理。 Azure Language 的文字分析功能包括:

  • 具名實體辨識 可識別人員、地點、事件等等。 您也可以自定義此功能以擷取自定義類別。
  • ** 實體鏈接識別已知實體,並提供指向維基百科的連結。
  • 個人識別資訊(PII)偵測 會識別個人敏感性資訊,包括個人健康資訊(PHI)。
  • 語言偵測 會識別文字的語言,並傳回語言代碼,例如英文的 “en”。
  • 情感分析和意見採礦 會識別文字是正面還是負面的。
  • 摘要可藉由識別最重要的資訊來總結文字。
  • 關鍵詞組擷取 會列出非結構化文字的主要概念。

讓我們進一步瞭解其中一些功能。

實體辨識和連結

你可以提供 Azure 語言的非結構化文字,它會回傳一個它能辨識的 文本 實體清單。 實體是特定類型或類別的項目;在某些情況下,可能是一個子類型,例如:

類型 子類型 範例
“Bill Gates”, “John”
地點 “巴黎”、“紐約”
組織 “Microsoft”
數量 數字 "6" 或「六」
數量 百分比 "25%" 或「百分之五十」
數量 序數 "1st" 或「第一」
數量 年齡 “90天”或“30歲”
數量 貨幣 "10.99"
數量 尺寸 “10 英里”, “40 cm”
數量 溫度 “45 度”
DateTime “2012 年 2 月 4 日下午 6:30”
DateTime 日期 “May 2nd, 2017” 或 “05/02/2017”
DateTime 時間 “上午8點” 或 “8:00”
DateTime DateRange “5 月 2 日至 5 月 5 日”
DateTime 時間範圍 “下午6點到7點”
DateTime 持續時間 “1 分 45 秒”
DateTime 集合 “每個星期二”
URL https://www.bing.com
Email support@microsoft.com
美國電話號碼 "(312) 555-0176"
IP 位址 "10.0.1.125"

Azure 語言也支援 實體連結 ,透過連結特定參考資料來幫助消除實體的歧義。 針對已辨識的實體,服務會傳回相關 維琪百科 文章的 URL。

舉例來說,假設你使用 Azure 語言來偵測以下餐廳評論擷取中的實體:

我上周在西雅圖的餐廳吃飯。

實體 類型 子類型 維琪百科 URL
西雅圖 地點 https://en.wikipedia.org/wiki/Seattle
上個星期 DateTime DateRange

語言偵測

你可以利用 Azure Language 的語言偵測功能,辨識文字所寫的語言。 針對每個送出的文件,服務會偵測:

  • 語言名稱(例如“英文”)。
  • ISO 6391 語言代碼(例如“en”)。
  • 表示語言偵測信心水平的分數。

例如,請考慮您擁有和經營餐廳的案例。 客戶可以完成問卷調查,並提供食物、服務、員工等的意見反應。 假設您收到來自客戶的下列評論:

評論 1:“午餐的絕佳地方。湯很美味。

評論 2: “美味的食物和卓越的服務。

評價 3:「roque monsieur avec frites 非常棒。Bon appetit!

你可以利用 Azure 語言的文字分析功能來偵測每篇評論的語言;它可能會得到以下結果:

文件 語言名稱 ISO 6391 程式代碼 分數
評論 1 英語 en 1.0
評價 2 西班牙文 es 1.0
評價 3 英語 en 0.9

請注意,偵測到檢閱 3 的語言是英文,儘管文字包含英文和法文混合。 語言偵測服務著重於文字中 的主要 語言。 相較於文字中的其他語言,服務會使用演算法來判斷主要語言,例如片語長度或語言的文字總數。 主要語言是傳回的值,以及語言代碼。 由於混合語言文字,信賴分數可能小於 1。

可能有模棱兩可的文字,或具有混合語言內容的文字。 這些情況可能會提出挑戰。 模棱兩可的內容範例是檔包含有限文字或僅標點符號的情況。 例如,使用 Azure 語言分析文字「:-)」,語言名稱與語言識別碼的值為 未知 ,並獲得 NaN 分數(用來表示 非數字)。

情感分析和意見挖掘

Azure 語言中的文字分析功能能評估文字,並回傳每句話的情感分數與標籤。 這項功能適用於偵測社交媒體、客戶評論、討論論壇等正面和負面情緒。

Azure Language 使用預先建構的機器學習分類模型來評估文本。 此服務會傳回三個類別的情感分數:正面、中性和負數。 在每個類別中,會提供介於 0 到 1 之間的分數。 分數表示所提供文字表達特定情感的可能性有多高。 也提供了一個文件情緒。

例如,可以對下列兩個餐廳評論進行情感分析:

評論1:“我們昨晚在這家餐館共進晚餐,我注意到的第一件事是工作人員是多麼禮貌。我們以友好的方式迎接,立即來到我們的桌子上。桌子乾淨,椅子舒適,食物很棒。

以及

評論 2:“我們在這家餐廳的餐飲體驗是我有史以來最糟糕的一次。服務很慢,食物很糟糕。我再也不會吃這個機構了。

第一次評論的情感分數可能是:文件情感:正面分數:0.90 中性分數:0.10 負面分數:0.00

第二次檢閱可能會傳回回應:文件情感:負面 正面分數:0.00 中性分數:0.00 負面分數:0.99

關鍵片語擷取

關鍵片語擷取會從文字識別主要點。 請考慮先前討論過的餐廳案例。 如果您有大量的問卷,可能需要很長的時間才能閱讀評論。 相反地,您可以使用語言服務的關鍵詞組擷取功能來摘要主要要點。

您可能會收到評論,例如:

我們在這裡共進晚餐慶祝生日,體驗很棒。我們受到一位友好的接待員的歡迎,立即帶到我們的桌子上。氛圍很放鬆,食物很棒,服務很棒。如果你喜歡偉大的食物和周到的服務,你應該嘗試這個地方。

關鍵片語擷取可藉由擷取下列片語,提供一些內容給此檢閱:

  • 生日慶祝活動
  • 夢幻般的體驗
  • 友好的接待員
  • 美味的食物
  • 細心服務
  • 晚餐
  • 表格
  • 氣氛
  • 地點

接著,讓我們來看看 Azure Language 的對話式 AI 能力。