什麼是文件和交談摘要?

重要

我們的預覽區域瑞典中部展示我們以 GPT 模型為基礎的最新且不斷演進的 LLM 微調技術。 歡迎在瑞典中部地區使用語言資源試用。

交談摘要只能使用:

  • REST API
  • Python
  • C#

摘要是 Azure AI 語言所提供的其中一項功能,這是雲端中機器學習和 AI 演算法的集合,用於開發涉及書面語言的智慧型應用程式。 使用本文深入瞭解此功能,以及如何在應用程式中使用它。

雖然服務標示為檔與交談摘要,但文件摘要只接受純文本塊,而交談摘要接受各種語音成品,以便模型深入瞭解。 如果您想要處理交談但只關心文字,則可以針對該案例使用文件摘要。

自訂摘要可讓使用者建置自訂 AI 模型來總結非結構化文字,例如合約或小說。 建立自訂摘要專案,開發人員即可先反覆標示資料、定型、評估以及改善模型效能,再使其可供取用。 已標記數據的品質會大幅影響模型效能。 為了簡化模型建置和自定義,該服務提供可透過 Language Studio 存取的自定義入口網站。 您可以遵循本 快速入門中的步驟,輕鬆地開始使用服務。

本檔案包含下列文章類型:

檔摘要使用自然語言處理技術來產生檔的摘要。 自動摘要有兩種支援的 API 方法:擷取和抽象。

擷取摘要會擷取整體代表原始內容內最重要的或相關信息的句子。 抽象摘要會產生摘要,其中包含不逐字擷取源檔中句子的簡潔、連貫的句子或單字。 這些功能的設計目的是縮短可能被視為太長而無法讀取的內容。

原生文件支援

原生檔是指用來建立源文件的檔格式,例如 Microsoft Word (docx) 或可攜式檔案 (pdf)。 原生文件支援不需要在使用 Azure AI 語言資源功能之前先進行文字前置處理。 目前,原生文件支援適用於 AbstractiveSummarization ExtractiveSummarization 功能。

目前 檔案摘要 支援下列原生檔案格式:

檔案類型 副檔名 描述
Text .txt 未格式化的文字檔。
Adobe PDF .pdf 可攜式檔檔格式的檔。
Microsoft Word .docx Microsoft Word 文件檔。

如需詳細資訊, 請參閱使用原生文件來處理語言

主要功能

此 API 提供兩種類型的檔案摘要:

  • 擷取摘要:藉由擷取檔中的突出句子來產生摘要。

    • 多個擷取的句子:這些句子會共同傳達檔的主要概念。 它們是從輸入文件內容擷取的原始句子。
    • 排名分數:排名分數會指出句子與檔的主要主題有多相關。 文件摘要排名擷取的句子,而且您可以判斷其傳回的順序,或根據其排名。
    • 多個傳回的句子:決定要傳回的句子數目上限。 例如,如果您要求三句摘要擷取摘要會傳回三個最高評分句子。
    • 位置資訊:擷取句子的開始位置和長度。
  • 抽象摘要:產生摘要,其不會使用與檔中相同的字組,但擷取主要概念。

    • 摘要文字:抽象摘要會傳回檔內每個內容輸入範圍的摘要。 長檔可以分割,以便使用其內容輸入範圍傳回多個摘要文字群組。
    • 內容型輸入範圍:用來產生摘要文字之輸入檔中的範圍。

例如,請考慮下列文字段落:

「在 Microsoft,我們正尋求超越現有技術來推進 AI,方法是採用更全面、以人為本的學習和理解方法。 身為 Azure AI 服務的技術長,我一直致力於與優秀的科學家和工程師合作,將這項追求轉變成現實。 在我的角色中,我享有獨特的視角來檢視人類認知的三個屬性之間的關係:單語言文字(X)、音訊或視覺感訊號、(Y)和多語系(Z)。 在這三者交集時,有魔術,我們稱之為 XYZ 程式代碼,如圖 1 所示,這是一個聯合表示法,可建立更強大的 AI,以更能說話、聆聽、查看及了解人類。 我們相信 XYZ 程式代碼可讓我們實現我們的長期願景:跨領域轉移學習、跨越形式和語言。 目標是讓預先定型的模型能夠共同學習表示法,以支援廣泛的下游 AI 工作,就像人類現今所做的一樣。 在過去五年中,我們在對話式語音辨識、機器翻譯、對話式問答、機器閱讀理解和影像 標題 方面達到人類效能。 這五項突破為我們提供了更雄心勃勃的信號,以產生AI功能的飛躍,實現多感測器和多語系學習,這更符合人類學習和理解的方式。 我相信,如果以下游 AI 工作中的外部知識來源為基礎,聯合 XYZ 程式代碼是此願望的基礎元件。

文件摘要 API 要求會在收到要求時處理,方法是建立 API 後端的作業。 如果作業成功,則會傳回 API 的輸出。 輸出可供擷取 24 小時。 在此時間之後,會清除輸出。 由於多語系和表情符號支援,回應可以包含文字位移。 如需詳細資訊,請參閱 如何處理位移

如果我們使用上述範例,API 可能會傳回這些摘要句子:

擷取摘要

  • 「在 Microsoft,我們正尋求超越現有技術來推進 AI,方法是採用更全面、以人為本的學習和理解方法。
  • 「我們相信 XYZ 程式代碼可讓我們實現我們的長期願景:跨領域轉移學習、跨越形式和語言。
  • 「目標是讓預先定型的模型能夠共同學習表示法,以支援廣泛的下游 AI 工作,就像人類今天所做的一樣。

抽象摘要

  • 「Microsoft 正在採取更全面、以人為本的方法來學習和理解。 我們相信 XYZ 程式代碼可讓我們實現我們的長期願景:跨領域轉移學習、跨越形式和語言。 在過去的五年裡,我們在對話式語音辨識的基準上取得了人類的表現。

開始使用摘要

若要使用摘要,您可以提交以進行分析並處理應用程式中的 API 輸出。 分析會依目前方式執行,且不會對數據所使用的模型新增自定義。 有兩種方式可以使用摘要:

開發選項 描述
Language Studio Language Studio 是以 Web 為基礎的平台,可讓您在沒有 Azure 帳戶的情況下嘗試使用文字範例進行實體連結,以及在註冊時使用自己的資料。 如需詳細資訊,請參閱 Language Studio 網站Language Studio 快速入門
REST API 或用戶端連結庫 (Azure SDK) 使用 REST API 或各種語言提供的用戶端連結庫,將檔案摘要整合到您的應用程式中。 如需詳細資訊,請參閱摘要快速入門

輸入需求和服務限制

參考檔和程式代碼範例

當您在應用程式中使用文件摘要時,請參閱下列 Azure AI 語言的參考文件和範例:

開發選項/ 語言 參考文件 範例
C# C# 文件 C# 範例
Java Java 檔 Java 範例
JavaScript JavaScript 文件 JavaScript 範例
Python Python 檔 Python 範例

負責 AI

AI 系統不僅包含技術,也包括使用它的人員、受其影響的人員,以及部署環境。 閱讀摘要的透明度附註,以了解系統中負責任的 AI 使用和部署。 如需詳細資訊,請參閱下列文章: