開始使用文字分析
Azure AI 語言屬於 Azure AI 服務供應項目的一部分,可對非結構化文字執行進階的自然語言處理。 Azure AI 語言的文字分析功能包括:
- 具名實體辨識可識別人員、地點、事件等等。 您也可以自訂此功能以擷取自訂類別。
- 實體連結可識別已知實體以及維基百科的連結。
- 個人識別資訊 (PII) 偵測可識別個人機密資訊,包括個人健康資訊 (PHI)。
- 語言偵測可識別文字的語言並傳回語言代碼,例如英文的「en」。
- 情感分析和意見挖掘可識別文字是正面或是負面的。
- 摘要可藉由識別最重要的資訊來總結文字。
- 關鍵片語擷取可列出非結構化文字的主要概念。
實體辨識和連結
您可向 Azure AI 語言提供非結構化的文字,其將會傳回所辨識出文字的 實體 清單。 實體是特定類型的項目或分類;而在某些情況下會是子類型 (如下表所示)。
類型 | 子類型 | 範例 |
---|---|---|
個人 | 「比爾·蓋茲」、「約翰」 | |
位置 | 「巴黎」、「紐約」 | |
組織 | "Microsoft" | |
數量 | 數值 | "6" 或 「六」 |
數量 | 百分比 | "25%" 或 「百分之五十」 |
數量 | 序數 | "1st" 或「第一」 |
數量 | Age | 「90 天」或「30歲」 |
數量 | 貨幣 | "10.99" |
數量 | 維度 | 「10 英哩」、"40 cm" |
數量 | 溫度 | 「45 度」 |
Datetime | 「2012 年 2 月 4 日上午 6 點 30 分」 | |
Datetime | Date | 「2017 年 5 月 2 日」或 "05/02/2017" |
Datetime | Time | 「上午 8 點」 或 "8:00" |
Datetime | DateRange | 「5 月 2 日至 5 月 5 日」 |
Datetime | TimeRange | 「下午 6 點至 7 點」 |
Datetime | 期間 | 「1 分鐘 45 秒」 |
Datetime | 設定 | 「每星期二」 |
URL | 「https://www.bing.com 」 |
|
電子郵件 | 「support@microsoft.com 」 |
|
美國電話號碼 | "(312) 555-0176" | |
IP 位址 | "10.0.1.125" |
Azure AI 語言也支援 實體連結,其可藉由連結至特定的參考來協助區分實體。 針對已辨識的實體,服務會傳回相關 Wikipedia 文章的 URL。
例如,假設您使用 Azure AI 語言來偵測下列餐廳評價摘要中的實體:
「我上周在西雅圖的這間餐廳中用過餐。」
實體 | 類型 | 子類型 | Wikipedia URL |
---|---|---|---|
西雅圖 | 位置 | https://en.wikipedia.org/wiki/Seattle | |
上週 | Datetime | DateRange |
語言偵測
使用 Azure AI 語言的語言偵測功能來識別書寫文字的語言。 您可一次提交多份文件以供分析。 針對已提交的每份文件,本服務會偵測:
- 語言名稱 (例如「英文」)。
- ISO 639-1 語言代碼 (例如 "en")。
- 表示語言偵測信賴等級的分數。
例如,假設您是餐廳老闆,負責日常營運,而顧客可填寫問卷調查以提供有關食物、服務、員工等的意見反應。 並假設您收到來自客戶的下列評價:
評價 1:"A fantastic place for lunch. The soup was delicious." (吃午餐的好地方,湯很美味)
評價 2:"Comida maravillosa y gran servicio." (食物美味,服務絕佳)
評價 3:"The croque monsieur avec frites was terrific. Bon appetit!" (火腿起司三明治和薯條很好吃,好好享用!)
您可使用 Azure AI 語言中的文字分析功能來偵測每個評價的語言;且其可能會回覆下列結果:
文件 | 語言名稱 | ISO 6391 代碼 | Score |
---|---|---|---|
評價 1 | 英語 | en | 1.0 |
評價 2 | 西班牙文 | es | 1.0 |
評價 3 | 英語 | en | 0.9 |
請注意,雖然文字混合了英文及法文,但偵測到的評價 3 語言為英文。 語言偵測服務會將焦點放在文字的「主要」語言上。 服務會使用演算法來判斷主要語言,例如文字中的片語長度,或該語言對比其他語言的文字總數。 主要語言會是傳回的值,以及語言代碼。 由於文字混合不同語言,信賴分數可能小於 1。
部分文字可能在本質上並不明確,或具有混合語言內容。 這些情況可能會形成挑戰。 其中一項不明確內容的範例就是文件包含有限文字,或只有標點符號的情況。 例如,使用 Azure AI 語言來分析文字 ":-)",會使語言名稱及語言識別項出現 未知 值,以及 NaN 的分數 (表示該分數 不是數值)。
情感分析和意見挖掘
Azure AI 語言中的文字分析功能可評估文字,並傳回每個句子的情感分數及標籤。 這項功能非常適合用來偵測社交媒體、客戶評價、討論論壇及其他項目的正面與負面情感。
Azure AI 語言會使用預先建置的機器學習分類模型來評估文字。 此服務會傳回三個類別的情緒分數:正面、中性和負面。 在每個類別中,提供 0 到 1 之間的分數。 分數表示所提供的文字是特定情緒的可能性。 也提供了一個文件情緒。
例如,您可針對下列兩條餐廳評價進行情感分析:
評價 1:「我們昨晚在此餐廳享用晚餐,而我所注意到的第一件事就是員工非常禮貌。我們受到友善的招待,且員工立即將我們帶位至餐桌。餐桌十分乾淨、椅子很舒適,且食物令人驚豔。」
和
評價 2:「我們在這間餐廳中的晚餐體驗是我所經歷過最糟體驗之一。服務的速度很慢,且食物很糟糕。我永遠都不會再到這間餐廳吃飯了。」
第一個評價的情緒分數可能是:文件情緒:正面 正面分數:.90 中性分數:.10 負面分數:.00
第二個評價可能會傳回回應:文件情緒:負面 正面分數:.00 中性分數:.00 負面分數:.99
關鍵片語擷取
關鍵片語擷取會識別文字中的要點。 請考量先前討論的餐廳案例。 如果您有大量的問卷,可能需要很長的時間才能閱讀評論。 您可改為使用語言服務的關鍵片語擷取功能來總結重點。
您可能會收到下列評價:
「我們在這裡共進晚餐慶祝生日,感受夢幻般的體驗。我們獲得女服務生親切的招待,而且立即被帶到餐桌坐下。氛圍很放鬆,食物很美味,服務很周到。如果您喜歡美味的食物和周到的服務,您應該來這裡。」
關鍵片語擷取可藉由擷取下列片語來提供此評價的部分內容:
- 生日慶祝
- 絕佳的體驗
- 友善女服務員
- 美味食物
- 體貼服務
- 晚餐
- table
- 氣氛
- 地點
除了使用情感分析來判斷這是正面評論之外,您也可以使用關鍵片語服務來識別評論的重要元素。
建立 Azure AI 語言的資源
若要在應用程式中使用 Azure AI 語言,則必須在 Azure 訂閱中佈建適當的資源。 您可選擇下列其中一種資源類型:
- 語言資源 - 如果只打算使用 Azure AI 語言服務,或想要與其他服務分開管理資源的存取權及帳單,請選擇此資源類型。
- Azure AI 服務 資源 - 如果打算搭配其他 Azure AI 服務來使用Azure AI 語言,且想要同時管理這些服務的存取權及帳單,請選擇此資源類型。