了解 Azure 語言的文字分析功能
Azure Language 是 Foundry 工具產品的一部分,能在非結構化文字上執行進階自然語言處理。 Azure Language 的文字分析功能包括:
- 具名實體辨識 可識別人員、地點、事件等等。 您也可以自定義此功能以擷取自定義類別。
- ** 實體鏈接識別已知實體,並提供指向維基百科的連結。
- 個人識別資訊(PII)偵測 會識別個人敏感性資訊,包括個人健康資訊(PHI)。
- 語言偵測 會識別文字的語言,並傳回語言代碼,例如英文的 “en”。
- 情感分析和意見採礦 會識別文字是正面還是負面的。
- 摘要可藉由識別最重要的資訊來總結文字。
- 關鍵詞組擷取 會列出非結構化文字的主要概念。
讓我們進一步瞭解其中一些功能。
實體辨識和連結
你可以提供 Azure 語言的非結構化文字,它會回傳一個它能辨識的 文本 實體清單。 實體是特定類型或類別的項目;在某些情況下,可能是一個子類型,例如:
| 類型 | 子類型 | 範例 |
|---|---|---|
| 人 | “Bill Gates”, “John” | |
| 地點 | “巴黎”、“紐約” | |
| 組織 | “Microsoft” | |
| 數量 | 數字 | "6" 或「六」 |
| 數量 | 百分比 | "25%" 或「百分之五十」 |
| 數量 | 序數 | "1st" 或「第一」 |
| 數量 | 年齡 | “90天”或“30歲” |
| 數量 | 貨幣 | "10.99" |
| 數量 | 尺寸 | “10 英里”, “40 cm” |
| 數量 | 溫度 | “45 度” |
| DateTime | “2012 年 2 月 4 日下午 6:30” | |
| DateTime | 日期 | “May 2nd, 2017” 或 “05/02/2017” |
| DateTime | 時間 | “上午8點” 或 “8:00” |
| DateTime | DateRange | “5 月 2 日至 5 月 5 日” |
| DateTime | 時間範圍 | “下午6點到7點” |
| DateTime | 持續時間 | “1 分 45 秒” |
| DateTime | 集合 | “每個星期二” |
| URL | 「https://www.bing.com」 |
|
「support@microsoft.com」 |
||
| 美國電話號碼 | "(312) 555-0176" | |
| IP 位址 | "10.0.1.125" |
Azure 語言也支援 實體連結 ,透過連結特定參考資料來幫助消除實體的歧義。 針對已辨識的實體,服務會傳回相關 維琪百科 文章的 URL。
舉例來說,假設你使用 Azure 語言來偵測以下餐廳評論擷取中的實體:
“我上周在西雅圖的餐廳吃飯。
| 實體 | 類型 | 子類型 | 維琪百科 URL |
|---|---|---|---|
| 西雅圖 | 地點 | https://en.wikipedia.org/wiki/Seattle | |
| 上個星期 | DateTime | DateRange |
語言偵測
你可以利用 Azure Language 的語言偵測功能,辨識文字所寫的語言。 針對每個送出的文件,服務會偵測:
- 語言名稱(例如“英文”)。
- ISO 6391 語言代碼(例如“en”)。
- 表示語言偵測信心水平的分數。
例如,請考慮您擁有和經營餐廳的案例。 客戶可以完成問卷調查,並提供食物、服務、員工等的意見反應。 假設您收到來自客戶的下列評論:
評論 1:“午餐的絕佳地方。湯很美味。
評論 2: “美味的食物和卓越的服務。”
評價 3:「roque monsieur avec frites 非常棒。Bon appetit!」
你可以利用 Azure 語言的文字分析功能來偵測每篇評論的語言;它可能會得到以下結果:
| 文件 | 語言名稱 | ISO 6391 程式代碼 | 分數 |
|---|---|---|---|
| 評論 1 | 英語 | en | 1.0 |
| 評價 2 | 西班牙文 | es | 1.0 |
| 評價 3 | 英語 | en | 0.9 |
請注意,偵測到檢閱 3 的語言是英文,儘管文字包含英文和法文混合。 語言偵測服務著重於文字中 的主要 語言。 相較於文字中的其他語言,服務會使用演算法來判斷主要語言,例如片語長度或語言的文字總數。 主要語言是傳回的值,以及語言代碼。 由於混合語言文字,信賴分數可能小於 1。
可能有模棱兩可的文字,或具有混合語言內容的文字。 這些情況可能會提出挑戰。 模棱兩可的內容範例是檔包含有限文字或僅標點符號的情況。 例如,使用 Azure 語言分析文字「:-)」,語言名稱與語言識別碼的值為 未知 ,並獲得 NaN 分數(用來表示 非數字)。
情感分析和意見挖掘
Azure 語言中的文字分析功能能評估文字,並回傳每句話的情感分數與標籤。 這項功能適用於偵測社交媒體、客戶評論、討論論壇等正面和負面情緒。
Azure Language 使用預先建構的機器學習分類模型來評估文本。 此服務會傳回三個類別的情感分數:正面、中性和負數。 在每個類別中,會提供介於 0 到 1 之間的分數。 分數表示所提供文字表達特定情感的可能性有多高。 也提供了一個文件情緒。
例如,可以對下列兩個餐廳評論進行情感分析:
評論1:“我們昨晚在這家餐館共進晚餐,我注意到的第一件事是工作人員是多麼禮貌。我們以友好的方式迎接,立即來到我們的桌子上。桌子乾淨,椅子舒適,食物很棒。
以及
評論 2:“我們在這家餐廳的餐飲體驗是我有史以來最糟糕的一次。服務很慢,食物很糟糕。我再也不會吃這個機構了。
第一次評論的情感分數可能是:文件情感:正面分數:0.90 中性分數:0.10 負面分數:0.00
第二次檢閱可能會傳回回應:文件情感:負面 正面分數:0.00 中性分數:0.00 負面分數:0.99
關鍵片語擷取
關鍵片語擷取會從文字識別主要點。 請考慮先前討論過的餐廳案例。 如果您有大量的問卷,可能需要很長的時間才能閱讀評論。 相反地,您可以使用語言服務的關鍵詞組擷取功能來摘要主要要點。
您可能會收到評論,例如:
“我們在這裡共進晚餐慶祝生日,體驗很棒。我們受到一位友好的接待員的歡迎,立即帶到我們的桌子上。氛圍很放鬆,食物很棒,服務很棒。如果你喜歡偉大的食物和周到的服務,你應該嘗試這個地方。
關鍵片語擷取可藉由擷取下列片語,提供一些內容給此檢閱:
- 生日慶祝活動
- 夢幻般的體驗
- 友好的接待員
- 美味的食物
- 細心服務
- 晚餐
- 表格
- 氣氛
- 地點
接著,讓我們來看看 Azure Language 的對話式 AI 能力。