開始使用文字分析

已完成

Azure AI 語言屬於 Azure AI 服務供應項目的一部分,可對非結構化文字執行進階的自然語言處理。 Azure AI 語言的文字分析功能包括:

  • 具名實體辨識可識別人員、地點、事件等等。 您也可以自訂此功能以擷取自訂類別。
  • 實體連結可識別已知實體以及維基百科的連結。
  • 個人識別資訊 (PII) 偵測可識別個人機密資訊,包括個人健康資訊 (PHI)。
  • 語言偵測可識別文字的語言並傳回語言代碼,例如英文的「en」。
  • 情感分析和意見挖掘可識別文字是正面或是負面的。
  • 摘要可藉由識別最重要的資訊來總結文字。
  • 關鍵片語擷取可列出非結構化文字的主要概念。

實體辨識和連結

您可向 Azure AI 語言提供非結構化的文字,其將會傳回所辨識出文字的 實體 清單。 實體是特定類型的項目或分類;而在某些情況下會是子類型 (如下表所示)。

類型 子類型 範例
個人 「比爾·蓋茲」、「約翰」
位置 「巴黎」、「紐約」
組織 "Microsoft"
數量 數值 "6" 或 「六」
數量 百分比 "25%" 或 「百分之五十」
數量 序數 "1st" 或「第一」
數量 Age 「90 天」或「30歲」
數量 貨幣 "10.99"
數量 維度 「10 英哩」、"40 cm"
數量 溫度 「45 度」
Datetime 「2012 年 2 月 4 日上午 6 點 30 分」
Datetime Date 「2017 年 5 月 2 日」或 "05/02/2017"
Datetime Time 「上午 8 點」 或 "8:00"
Datetime DateRange 「5 月 2 日至 5 月 5 日」
Datetime TimeRange 「下午 6 點至 7 點」
Datetime 期間 「1 分鐘 45 秒」
Datetime 設定 「每星期二」
URL https://www.bing.com
電子郵件 support@microsoft.com
美國電話號碼 "(312) 555-0176"
IP 位址 "10.0.1.125"

Azure AI 語言也支援 實體連結,其可藉由連結至特定的參考來協助區分實體。 針對已辨識的實體,服務會傳回相關 Wikipedia 文章的 URL。

例如,假設您使用 Azure AI 語言來偵測下列餐廳評價摘要中的實體:

我上周在西雅圖的這間餐廳中用過餐。

實體 類型 子類型 Wikipedia URL
西雅圖 位置 https://en.wikipedia.org/wiki/Seattle
上週 Datetime DateRange

語言偵測

使用 Azure AI 語言的語言偵測功能來識別書寫文字的語言。 您可一次提交多份文件以供分析。 針對已提交的每份文件,本服務會偵測:

  • 語言名稱 (例如「英文」)。
  • ISO 639-1 語言代碼 (例如 "en")。
  • 表示語言偵測信賴等級的分數。

例如,假設您是餐廳老闆,負責日常營運,而顧客可填寫問卷調查以提供有關食物、服務、員工等的意見反應。 並假設您收到來自客戶的下列評價:

評價 1:"A fantastic place for lunch. The soup was delicious." (吃午餐的好地方,湯很美味)

評價 2:"Comida maravillosa y gran servicio." (食物美味,服務絕佳)

評價 3:"The croque monsieur avec frites was terrific. Bon appetit!" (火腿起司三明治和薯條很好吃,好好享用!)

您可使用 Azure AI 語言中的文字分析功能來偵測每個評價的語言;且其可能會回覆下列結果:

文件 語言名稱 ISO 6391 代碼 Score
評價 1 英語 en 1.0
評價 2 西班牙文 es 1.0
評價 3 英語 en 0.9

請注意,雖然文字混合了英文及法文,但偵測到的評價 3 語言為英文。 語言偵測服務會將焦點放在文字的「主要」語言上。 服務會使用演算法來判斷主要語言,例如文字中的片語長度,或該語言對比其他語言的文字總數。 主要語言會是傳回的值,以及語言代碼。 由於文字混合不同語言,信賴分數可能小於 1。

部分文字可能在本質上並不明確,或具有混合語言內容。 這些情況可能會形成挑戰。 其中一項不明確內容的範例就是文件包含有限文字,或只有標點符號的情況。 例如,使用 Azure AI 語言來分析文字 ":-)",會使語言名稱及語言識別項出現 未知 值,以及 NaN 的分數 (表示該分數 不是數值)。

情感分析和意見挖掘

Azure AI 語言中的文字分析功能可評估文字,並傳回每個句子的情感分數及標籤。 這項功能非常適合用來偵測社交媒體、客戶評價、討論論壇及其他項目的正面與負面情感。

Azure AI 語言會使用預先建置的機器學習分類模型來評估文字。 此服務會傳回三個類別的情緒分數:正面、中性和負面。 在每個類別中,提供 0 到 1 之間的分數。 分數表示所提供的文字是特定情緒的可能性。 也提供了一個文件情緒。

例如,您可針對下列兩條餐廳評價進行情感分析:

評價 1:「我們昨晚在此餐廳享用晚餐,而我所注意到的第一件事就是員工非常禮貌。我們受到友善的招待,且員工立即將我們帶位至餐桌。餐桌十分乾淨、椅子很舒適,且食物令人驚豔。

評價 2:「我們在這間餐廳中的晚餐體驗是我所經歷過最糟體驗之一。服務的速度很慢,且食物很糟糕。我永遠都不會再到這間餐廳吃飯了。

第一個評價的情緒分數可能是:文件情緒:正面 正面分數:.90 中性分數:.10 負面分數:.00

第二個評價可能會傳回回應:文件情緒:負面 正面分數:.00 中性分數:.00 負面分數:.99

關鍵片語擷取

關鍵片語擷取會識別文字中的要點。 請考量先前討論的餐廳案例。 如果您有大量的問卷,可能需要很長的時間才能閱讀評論。 您可改為使用語言服務的關鍵片語擷取功能來總結重點。

您可能會收到下列評價:

我們在這裡共進晚餐慶祝生日,感受夢幻般的體驗。我們獲得女服務生親切的招待,而且立即被帶到餐桌坐下。氛圍很放鬆,食物很美味,服務很周到。如果您喜歡美味的食物和周到的服務,您應該來這裡。

關鍵片語擷取可藉由擷取下列片語來提供此評價的部分內容:

  • 生日慶祝
  • 絕佳的體驗
  • 友善女服務員
  • 美味食物
  • 體貼服務
  • 晚餐
  • table
  • 氣氛
  • 地點

除了使用情感分析來判斷這是正面評論之外,您也可以使用關鍵片語服務來識別評論的重要元素。

建立 Azure AI 語言的資源

若要在應用程式中使用 Azure AI 語言,則必須在 Azure 訂閱中佈建適當的資源。 您可選擇下列其中一種資源類型:

  • 語言資源 - 如果只打算使用 Azure AI 語言服務,或想要與其他服務分開管理資源的存取權及帳單,請選擇此資源類型。
  • Azure AI 服務 資源 - 如果打算搭配其他 Azure AI 服務來使用Azure AI 語言,且想要同時管理這些服務的存取權及帳單,請選擇此資源類型。