開始使用文字分析

10 分鐘

Azure AI 語言屬於 Azure AI 服務供應項目的一部分，可對非結構化文字執行進階的自然語言處理。 Azure AI 語言的文字分析功能包括：

具名實體辨識可識別人員、地點、事件等等。您也可以自訂此功能以擷取自訂類別。
實體連結可識別已知實體以及維基百科的連結。
個人識別資訊 (PII) 偵測可識別個人機密資訊，包括個人健康資訊 (PHI)。
語言偵測可識別文字的語言並傳回語言代碼，例如英文的「en」。
情感分析和意見挖掘可識別文字是正面或是負面的。
摘要可藉由識別最重要的資訊來總結文字。
關鍵片語擷取可列出非結構化文字的主要概念。

實體辨識和連結

您可向 Azure AI 語言提供非結構化的文字，其將會傳回所辨識出文字的實體清單。實體是特定類型的項目或分類；而在某些情況下會是子類型 (如下表所示)。

類型	子類型	範例
個人		「比爾·蓋茲」、「約翰」
位置		「巴黎」、「紐約」
組織		"Microsoft"
數量	數值	"6" 或「六」
數量	百分比	"25%" 或「百分之五十」
數量	序數	"1st" 或「第一」
數量	Age	「90 天」或「30歲」
數量	貨幣	"10.99"
數量	維度	「10 英哩」、"40 cm"
數量	溫度	「45 度」
Datetime		「2012 年 2 月 4 日上午 6 點 30 分」
Datetime	Date	「2017 年 5 月 2 日」或 "05/02/2017"
Datetime	Time	「上午 8 點」或 "8:00"
Datetime	DateRange	「5 月 2 日至 5 月 5 日」
Datetime	TimeRange	「下午 6 點至 7 點」
Datetime	期間	「1 分鐘 45 秒」
Datetime	設定	「每星期二」
URL		「`https://www.bing.com`」
電子郵件		「`support@microsoft.com`」
美國電話號碼		"(312) 555-0176"
IP 位址		"10.0.1.125"

Azure AI 語言也支援 實體連結，其可藉由連結至特定的參考來協助區分實體。針對已辨識的實體，服務會傳回相關 Wikipedia 文章的 URL。

例如，假設您使用 Azure AI 語言來偵測下列餐廳評價摘要中的實體:

「我上周在西雅圖的這間餐廳中用過餐。」

實體	類型	子類型	Wikipedia URL
西雅圖	位置		https://en.wikipedia.org/wiki/Seattle
上週	Datetime	DateRange

語言偵測

使用 Azure AI 語言的語言偵測功能來識別書寫文字的語言。您可一次提交多份文件以供分析。針對已提交的每份文件，本服務會偵測：

語言名稱 (例如「英文」)。
ISO 639-1 語言代碼 (例如 "en")。
表示語言偵測信賴等級的分數。

例如，假設您是餐廳老闆，負責日常營運，而顧客可填寫問卷調查以提供有關食物、服務、員工等的意見反應。並假設您收到來自客戶的下列評價：

評價 1："A fantastic place for lunch. The soup was delicious." (吃午餐的好地方，湯很美味)

評價 2："Comida maravillosa y gran servicio." (食物美味，服務絕佳)

評價 3："The croque monsieur avec frites was terrific. Bon appetit!" (火腿起司三明治和薯條很好吃，好好享用！)

您可使用 Azure AI 語言中的文字分析功能來偵測每個評價的語言；且其可能會回覆下列結果：

文件	語言名稱	ISO 6391 代碼	Score
評價 1	英語	en	1.0
評價 2	西班牙文	es	1.0
評價 3	英語	en	0.9

請注意，雖然文字混合了英文及法文，但偵測到的評價 3 語言為英文。語言偵測服務會將焦點放在文字的「主要」語言上。服務會使用演算法來判斷主要語言，例如文字中的片語長度，或該語言對比其他語言的文字總數。主要語言會是傳回的值，以及語言代碼。由於文字混合不同語言，信賴分數可能小於 1。

部分文字可能在本質上並不明確，或具有混合語言內容。這些情況可能會形成挑戰。其中一項不明確內容的範例就是文件包含有限文字，或只有標點符號的情況。例如，使用 Azure AI 語言來分析文字 ":-)"，會使語言名稱及語言識別項出現未知值，以及 NaN 的分數 (表示該分數 不是數值)。

情感分析和意見挖掘

Azure AI 語言中的文字分析功能可評估文字，並傳回每個句子的情感分數及標籤。這項功能非常適合用來偵測社交媒體、客戶評價、討論論壇及其他項目的正面與負面情感。

Azure AI 語言會使用預先建置的機器學習分類模型來評估文字。此服務會傳回三個類別的情緒分數：正面、中性和負面。在每個類別中，提供 0 到 1 之間的分數。分數表示所提供的文字是特定情緒的可能性。也提供了一個文件情緒。

例如，您可針對下列兩條餐廳評價進行情感分析：

評價 1：「我們昨晚在此餐廳享用晚餐，而我所注意到的第一件事就是員工非常禮貌。我們受到友善的招待，且員工立即將我們帶位至餐桌。餐桌十分乾淨、椅子很舒適，且食物令人驚豔。」

和

評價 2：「我們在這間餐廳中的晚餐體驗是我所經歷過最糟體驗之一。服務的速度很慢，且食物很糟糕。我永遠都不會再到這間餐廳吃飯了。」

第一個評價的情緒分數可能是：文件情緒：正面正面分數：.90 中性分數：.10 負面分數：.00

第二個評價可能會傳回回應：文件情緒：負面正面分數：.00 中性分數：.00 負面分數：.99

關鍵片語擷取

關鍵片語擷取會識別文字中的要點。請考量先前討論的餐廳案例。如果您有大量的問卷，可能需要很長的時間才能閱讀評論。您可改為使用語言服務的關鍵片語擷取功能來總結重點。

您可能會收到下列評價：

「我們在這裡共進晚餐慶祝生日，感受夢幻般的體驗。我們獲得女服務生親切的招待，而且立即被帶到餐桌坐下。氛圍很放鬆，食物很美味，服務很周到。如果您喜歡美味的食物和周到的服務，您應該來這裡。」

關鍵片語擷取可藉由擷取下列片語來提供此評價的部分內容：

生日慶祝
絕佳的體驗
友善女服務員
美味食物
體貼服務
晚餐
table
氣氛
地點

除了使用情感分析來判斷這是正面評論之外，您也可以使用關鍵片語服務來識別評論的重要元素。

建立 Azure AI 語言的資源

若要在應用程式中使用 Azure AI 語言，則必須在 Azure 訂閱中佈建適當的資源。您可選擇下列其中一種資源類型：

語言資源 - 如果只打算使用 Azure AI 語言服務，或想要與其他服務分開管理資源的存取權及帳單，請選擇此資源類型。
Azure AI 服務 資源 - 如果打算搭配其他 Azure AI 服務來使用Azure AI 語言，且想要同時管理這些服務的存取權及帳單，請選擇此資源類型。

繼續