什麼是文件和交談摘要?
重要
我們的預覽區域瑞典中部展示我們以 GPT 模型為基礎的最新且不斷演進的 LLM 微調技術。 歡迎在瑞典中部地區使用語言資源試用。
交談摘要只能使用:
- REST API
- Python
- C#
摘要是 Azure AI 語言所提供的其中一項功能,這是雲端中機器學習和 AI 演算法的集合,用於開發涉及書面語言的智慧型應用程式。 使用本文深入瞭解此功能,以及如何在應用程式中使用它。
雖然服務標示為檔與交談摘要,但文件摘要只接受純文本塊,而交談摘要接受各種語音成品,以便模型深入瞭解。 如果您想要處理交談但只關心文字,則可以針對該案例使用文件摘要。
自訂摘要可讓使用者建置自訂 AI 模型來總結非結構化文字,例如合約或小說。 建立自訂摘要專案,開發人員即可先反覆標示資料、定型、評估以及改善模型效能,再使其可供取用。 已標記數據的品質會大幅影響模型效能。 為了簡化模型建置和自定義,該服務提供可透過 Language Studio 存取的自定義入口網站。 您可以遵循本 快速入門中的步驟,輕鬆地開始使用服務。
本檔案包含下列文章類型:
檔摘要使用自然語言處理技術來產生檔的摘要。 自動摘要有兩種支援的 API 方法:擷取和抽象。
擷取摘要會擷取整體代表原始內容內最重要的或相關信息的句子。 抽象摘要會產生摘要,其中包含不逐字擷取源檔中句子的簡潔、連貫的句子或單字。 這些功能的設計目的是縮短可能被視為太長而無法讀取的內容。
原生文件支援
原生檔是指用來建立源文件的檔格式,例如 Microsoft Word (docx) 或可攜式檔案 (pdf)。 原生文件支援不需要在使用 Azure AI 語言資源功能之前先進行文字前置處理。 目前,原生文件支援適用於 AbstractiveSummarization 和 ExtractiveSummarization 功能。
目前 檔案摘要 支援下列原生檔案格式:
檔案類型 | 副檔名 | 描述 |
---|---|---|
Text | .txt |
未格式化的文字檔。 |
Adobe PDF | .pdf |
可攜式檔檔格式的檔。 |
Microsoft Word | .docx |
Microsoft Word 文件檔。 |
如需詳細資訊, 請參閱使用原生文件來處理語言
主要功能
此 API 提供兩種類型的檔案摘要:
擷取摘要:藉由擷取檔中的突出句子來產生摘要。
- 多個擷取的句子:這些句子會共同傳達檔的主要概念。 它們是從輸入文件內容擷取的原始句子。
- 排名分數:排名分數會指出句子與檔的主要主題有多相關。 文件摘要排名擷取的句子,而且您可以判斷其傳回的順序,或根據其排名。
- 多個傳回的句子:決定要傳回的句子數目上限。 例如,如果您要求三句摘要擷取摘要會傳回三個最高評分句子。
- 位置資訊:擷取句子的開始位置和長度。
抽象摘要:產生摘要,其不會使用與檔中相同的字組,但擷取主要概念。
- 摘要文字:抽象摘要會傳回檔內每個內容輸入範圍的摘要。 長檔可以分割,以便使用其內容輸入範圍傳回多個摘要文字群組。
- 內容型輸入範圍:用來產生摘要文字之輸入檔中的範圍。
例如,請考慮下列文字段落:
「在 Microsoft,我們正尋求超越現有技術來推進 AI,方法是採用更全面、以人為本的學習和理解方法。 身為 Azure AI 服務的技術長,我一直致力於與優秀的科學家和工程師合作,將這項追求轉變成現實。 在我的角色中,我享有獨特的視角來檢視人類認知的三個屬性之間的關係:單語言文字(X)、音訊或視覺感訊號、(Y)和多語系(Z)。 在這三者交集時,有魔術,我們稱之為 XYZ 程式代碼,如圖 1 所示,這是一個聯合表示法,可建立更強大的 AI,以更能說話、聆聽、查看及了解人類。 我們相信 XYZ 程式代碼可讓我們實現我們的長期願景:跨領域轉移學習、跨越形式和語言。 目標是讓預先定型的模型能夠共同學習表示法,以支援廣泛的下游 AI 工作,就像人類現今所做的一樣。 在過去五年中,我們在對話式語音辨識、機器翻譯、對話式問答、機器閱讀理解和影像 標題 方面達到人類效能。 這五項突破為我們提供了更雄心勃勃的信號,以產生AI功能的飛躍,實現多感測器和多語系學習,這更符合人類學習和理解的方式。 我相信,如果以下游 AI 工作中的外部知識來源為基礎,聯合 XYZ 程式代碼是此願望的基礎元件。
文件摘要 API 要求會在收到要求時處理,方法是建立 API 後端的作業。 如果作業成功,則會傳回 API 的輸出。 輸出可供擷取 24 小時。 在此時間之後,會清除輸出。 由於多語系和表情符號支援,回應可以包含文字位移。 如需詳細資訊,請參閱 如何處理位移。
如果我們使用上述範例,API 可能會傳回這些摘要句子:
擷取摘要:
- 「在 Microsoft,我們正尋求超越現有技術來推進 AI,方法是採用更全面、以人為本的學習和理解方法。
- 「我們相信 XYZ 程式代碼可讓我們實現我們的長期願景:跨領域轉移學習、跨越形式和語言。
- 「目標是讓預先定型的模型能夠共同學習表示法,以支援廣泛的下游 AI 工作,就像人類今天所做的一樣。
抽象摘要:
- 「Microsoft 正在採取更全面、以人為本的方法來學習和理解。 我們相信 XYZ 程式代碼可讓我們實現我們的長期願景:跨領域轉移學習、跨越形式和語言。 在過去的五年裡,我們在對話式語音辨識的基準上取得了人類的表現。
開始使用摘要
若要使用摘要,您可以提交以進行分析並處理應用程式中的 API 輸出。 分析會依目前方式執行,且不會對數據所使用的模型新增自定義。 有兩種方式可以使用摘要:
開發選項 | 描述 |
---|---|
Language Studio | Language Studio 是以 Web 為基礎的平台,可讓您在沒有 Azure 帳戶的情況下嘗試使用文字範例進行實體連結,以及在註冊時使用自己的資料。 如需詳細資訊,請參閱 Language Studio 網站或 Language Studio 快速入門。 |
REST API 或用戶端連結庫 (Azure SDK) | 使用 REST API 或各種語言提供的用戶端連結庫,將檔案摘要整合到您的應用程式中。 如需詳細資訊,請參閱摘要快速入門。 |
輸入需求和服務限制
- 摘要會採用文字進行分析。 如需詳細資訊,請參閱 操作指南中的數據和服務限制 。
- 摘要適用於各種書面語言。 如需詳細資訊,請參閱 語言支援。
參考檔和程式代碼範例
當您在應用程式中使用文件摘要時,請參閱下列 Azure AI 語言的參考文件和範例:
開發選項/ 語言 | 參考文件 | 範例 |
---|---|---|
C# | C# 文件 | C# 範例 |
Java | Java 檔 | Java 範例 |
JavaScript | JavaScript 文件 | JavaScript 範例 |
Python | Python 檔 | Python 範例 |
負責 AI
AI 系統不僅包含技術,也包括使用它的人員、受其影響的人員,以及部署環境。 閱讀摘要的透明度附註,以了解系統中負責任的 AI 使用和部署。 如需詳細資訊,請參閱下列文章: