Jak używać podsumowania dokumentów

Artykuł
12/19/2023

Podsumowanie dokumentów zostało zaprojektowane tak, aby skrócić zawartość, którą użytkownicy uważają za zbyt długo do odczytania. Zarówno wyodrębniające, jak i abstrakcyjne podsumowania kondensują artykuły, dokumenty lub dokumenty do kluczowych zdań.

Podsumowanie wyodrębniające: tworzy podsumowanie, wyodrębniając zdania, które łącznie reprezentują najważniejsze lub istotne informacje w oryginalnej zawartości.

Podsumowanie abstrakcyjne: tworzy podsumowanie, generując podsumowane zdania z dokumentu, które przechwytują główny pomysł.

Podsumowanie skoncentrowane na zapytaniach: umożliwia użycie zapytania podczas podsumowywania.

Każda z tych funkcji może podsumowywać określone elementy zainteresowania po określeniu.

Modele sztucznej inteligencji używane przez interfejs API są dostarczane przez usługę. Wystarczy wysłać zawartość do analizy.

Aby ułatwić nawigację, poniżej znajdują się linki do odpowiednich sekcji dla każdej usługi:

Aspekt	Sekcja
Wydobywczych	Podsumowanie wyodrębnione
Abstrakcja	Podsumowanie abstrctive
Skoncentrowanie na zapytaniach	Podsumowanie ukierunkowane na zapytania

Funkcje

Napiwek

Jeśli chcesz rozpocząć korzystanie z tych funkcji, możesz skorzystać z artykułu Szybki start, aby rozpocząć pracę. Możesz również wysyłać przykładowe żądania przy użyciu programu Language Studio bez konieczności pisania kodu.

Interfejs API podsumowania wyodrębniającego używa technik przetwarzania języka naturalnego do lokalizowania kluczowych zdań w dokumencie tekstowym bez struktury. Zdania te łącznie przekazują główną ideę dokumentu.

Podsumowanie wyodrębniane zwraca wynik klasyfikacji w ramach odpowiedzi systemowej wraz z wyodrębnionymi zdaniami i ich pozycją w oryginalnych dokumentach. Wynik rangi jest wskaźnikiem, w jaki sposób istotne jest zdanie, do głównego pomysłu dokumentu. Model daje wynik z zakresu od 0 do 1 (włącznie) do każdego zdania i zwraca najwyższe oceny zdań na żądanie. Jeśli na przykład zażądasz podsumowania z trzema zdaniami, usługa zwróci trzy zdania o najwyższych wynikach.

Istnieje inna funkcja w języku sztucznej inteligencji platformy Azure, wyodrębnianie kluczowych fraz, które mogą wyodrębniać kluczowe informacje. Podczas podejmowania decyzji o wyodrębnieniu kluczowych fraz i podsumowaniu wyodrębniającym należy wziąć pod uwagę następujące kwestie:

Wyodrębnianie kluczowych fraz zwraca frazy, podczas gdy podsumowanie wyodrębniane zwraca zdania.
Podsumowanie wyodrębniane zwraca zdania wraz z oceną rangi, a na żądanie są zwracane najwyższe zdania.
Podsumowanie wyodrębnione zwraca również następujące informacje pozycyjne:
- Przesunięcie: pozycja początkowa każdego wyodrębnionego zdania.
- Długość: długość każdego wyodrębnionego zdania.

Określanie sposobu przetwarzania danych (opcjonalnie)

Przesyłanie danych

Dokumenty są przesyłane do interfejsu API jako ciągi tekstu. Analiza jest wykonywana po odebraniu żądania. Ponieważ interfejs API jest asynchroniczny, może wystąpić opóźnienie między wysłaniem żądania interfejsu API i odebraniem wyników.

W przypadku korzystania z tej funkcji wyniki interfejsu API są dostępne przez 24 godziny od momentu pozyskiwania żądania i są wskazywane w odpowiedzi. Po upływie tego okresu wyniki są czyszczone i nie są już dostępne do pobierania.

Pobieranie wyników podsumowania dokumentu

Po otrzymaniu wyników z wykrywania języka można przesyłać strumieniowo wyniki do aplikacji lub zapisywać dane wyjściowe w pliku w systemie lokalnym.

Poniżej przedstawiono przykład zawartości, którą można przesłać do podsumowania, która jest wyodrębniona przy użyciu artykułu w blogu firmy Microsoft A holistycznej reprezentacji w kierunku integracyjnej sztucznej inteligencji. Ten artykuł jest tylko przykładem, interfejs API może akceptować dłuższy tekst wejściowy. Aby uzyskać więcej informacji, zobacz sekcję Limity danych.

"W firmie Microsoft dążyliśmy do rozwoju sztucznej inteligencji poza istniejącymi technikami, przyjmując bardziej całościowe, skoncentrowane na człowieku podejście do uczenia się i zrozumienia. Jako dyrektor ds. technologii usług Azure AI pracuję z zespołem niesamowitych naukowców i inżynierów, aby przekształcić to zadanie w rzeczywistość. W mojej roli lubię wyjątkową perspektywę w wyświetlaniu relacji między trzema atrybutami poznania ludzkiego: monolingual text (X), audio lub wizualnych sygnałów sensorycznej, (Y) i wielojęzycznych (Z). Na skrzyżowaniu wszystkich trzech elementów istnieje magia — to, co nazywamy kodem XYZ, jak pokazano na rysunku 1 — wspólną reprezentacją umożliwiającą tworzenie bardziej wydajnej sztucznej inteligencji, która może mówić, słyszeć, widzieć i lepiej rozumieć ludzi. Uważamy, że kod XYZ umożliwia nam spełnienie naszej długoterminowej wizji: uczenie się transferu między domenami, obejmujące modalizacje i języki. Celem jest posiadanie wstępnie wytrenowanych modeli, które mogą wspólnie uczyć się reprezentacji w celu obsługi szerokiej gamy podrzędnych zadań sztucznej inteligencji, znacznie w sposób, w jaki ludzie robią to dzisiaj. W ciągu ostatnich pięciu lat osiągnęliśmy ludzką wydajność na testach porównawczych w rozpoznawaniu mowy konwersacyjnej, tłumaczenia maszynowego, odpowiadaniu na pytania konwersacyjne, wyczytaniu maszynowym i podpis obrazom. Te pięć przełomowych przełomów dało nam silne sygnały w kierunku naszych bardziej ambitnych aspiracji do stworzenia skoku w zakresie możliwości sztucznej inteligencji, osiągnięcia wieloczułowego i wielojęzycznego uczenia się, który jest bliżej tego, jak ludzie uczą się i rozumieją. Wierzę, że wspólny kod XYZ jest podstawowym składnikiem tego aspiracji, jeśli uziemiony zewnętrznymi źródłami wiedzy w podrzędnych zadaniach sztucznej inteligencji."

Żądanie interfejsu API podsumowania dokumentu jest przetwarzane po otrzymaniu żądania przez utworzenie zadania dla zaplecza interfejsu API. Jeśli zadanie zakończyło się pomyślnie, zwracane są dane wyjściowe interfejsu API. Dane wyjściowe są dostępne do pobierania przez 24 godziny. Po tym czasie dane wyjściowe są czyszczone. Ze względu na obsługę języków wielojęzycznych i emoji odpowiedź może zawierać przesunięcia tekstu. Aby uzyskać więcej informacji, zobacz , jak przetwarzać przesunięcia .

W przypadku użycia powyższego przykładu interfejs API może zwrócić następujące podsumowane zdania:

Podsumowanie wyodrębnione:

"W firmie Microsoft dążyliśmy do rozwoju sztucznej inteligencji poza istniejącymi technikami, przyjmując bardziej całościowe, skoncentrowane na człowieku podejście do uczenia się i zrozumienia".
"Uważamy, że XYZ-code umożliwia nam spełnienie naszej długoterminowej wizji: uczenie transferowe między domenami, obejmujące modalizacje i języki."
"Celem jest posiadanie wstępnie wytrenowanych modeli, które mogą wspólnie uczyć się reprezentacji, aby obsługiwać szeroką gamę podrzędnych zadań sztucznej inteligencji, znacznie w sposób, w jaki ludzie robią dziś."

Podsumowanie abstrakcyjne:

"Firma Microsoft przyjmuje bardziej całościowe, skoncentrowane na człowieku podejście do uczenia się i zrozumienia. Uważamy, że kod XYZ umożliwia nam spełnienie naszej długoterminowej wizji: uczenie się transferu między domenami, obejmujące modalizacje i języki. W ciągu ostatnich pięciu lat osiągnęliśmy ludzkie wyniki w zakresie testów porównawczych.

Wypróbuj podsumowanie wyodrębniania dokumentów

Możesz użyć podsumowania wyodrębnianego dokumentu, aby uzyskać podsumowania artykułów, dokumentów lub dokumentów. Aby zapoznać się z przykładem, zobacz artykuł Szybki start.

Możesz użyć parametru sentenceCount , aby pokierować liczbą zwracanych zdań i 3 być wartością domyślną. Zakres wynosi od 1 do 20.

Można również użyć parametru sortby , aby określić, w jakiej kolejności zwracane są wyodrębnione zdania — Offset lub Rank, z wartością Offset domyślną.

wartość parametru	opis
Ranga	Porządkowaj zdania zgodnie z ich istotnością dla dokumentu wejściowego, zgodnie z decyzją usługi.
Przesunięcie	Przechowuje oryginalną kolejność, w której zdania są wyświetlane w dokumencie wejściowym.

Wypróbuj podsumowanie abstrakcyjne dokumentu

Poniższy przykład umożliwia rozpoczęcie pracy z podsumowaniem abstrakcyjnym dokumentu:

Skopiuj poniższe polecenie do edytora tekstów. Przykład powłoki BASH używa znaku kontynuacji \ wiersza. Jeśli konsola lub terminal używa innego znaku kontynuacji wiersza, użyj tego znaku.

curl -i -X POST https://<your-language-resource-endpoint>/language/analyze-text/jobs?api-version=2022-10-01-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: <your-language-resource-key>" \
-d \
' 
{
  "displayName": "Document Abstractive Summarization Task Example",
  "analysisInput": {
    "documents": [
      {
        "id": "1",
        "language": "en",
        "text": "At Microsoft, we have been on a quest to advance AI beyond existing techniques, by taking a more holistic, human-centric approach to learning and understanding. As Chief Technology Officer of Azure AI services, I have been working with a team of amazing scientists and engineers to turn this quest into a reality. In my role, I enjoy a unique perspective in viewing the relationship among three attributes of human cognition: monolingual text (X), audio or visual sensory signals, (Y) and multilingual (Z). At the intersection of all three, there’s magic—what we call XYZ-code as illustrated in Figure 1—a joint representation to create more powerful AI that can speak, hear, see, and understand humans better. We believe XYZ-code enables us to fulfill our long-term vision: cross-domain transfer learning, spanning modalities and languages. The goal is to have pretrained models that can jointly learn representations to support a broad range of downstream AI tasks, much in the way humans do today. Over the past five years, we have achieved human performance on benchmarks in conversational speech recognition, machine translation, conversational question answering, machine reading comprehension, and image captioning. These five breakthroughs provided us with strong signals toward our more ambitious aspiration to produce a leap in AI capabilities, achieving multi-sensory and multilingual learning that is closer in line with how humans learn and understand. I believe the joint XYZ-code is a foundational component of this aspiration, if grounded with external knowledge sources in the downstream AI tasks."
      }
    ]
  },
  "tasks": [
    {
      "kind": "AbstractiveSummarization",
      "taskName": "Document Abstractive Summarization Task 1",
      "parameters": {
        "summaryLength": short
      }
    }
  ]
}
'

Jeśli nie określisz sentenceCountparametru , model określa długość podsumowania. Należy pamiętać, że sentenceCount przybliżenie liczby zdań podsumowania danych wyjściowych, zakres od 1 do 20. Używanie funkcji sentenceCount nie jest zalecane w przypadku podsumowania abstrakcyjnego.

W razie potrzeby wprowadź w poleceniu następujące zmiany:
- Zastąp wartość your-language-resource-key kluczem.
- Zastąp pierwszą część adresu URL żądania adresem URL your-language-resource-endpoint punktu końcowego.
Otwórz okno wiersza polecenia (na przykład: BASH).
Wklej polecenie z edytora tekstów do okna wiersza polecenia, a następnie uruchom polecenie.
Pobierz element operation-location z nagłówka odpowiedzi. Wartość wygląda podobnie do następującego adresu URL:

https://<your-language-resource-endpoint>/language/analyze-text/jobs/12345678-1234-1234-1234-12345678?api-version=2022-10-01-preview

Aby uzyskać wyniki żądania, użyj następującego polecenia cURL. Pamiętaj, aby zastąpić <my-job-id> ciąg wartością liczbową identyfikatora otrzymaną z poprzedniego operation-location nagłówka odpowiedzi:

curl -X GET https://<your-language-resource-endpoint>/language/analyze-text/jobs/<my-job-id>?api-version=2022-10-01-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: <your-language-resource-key>"

Podsumowanie dokumentu abstrakcyjnego — przykładowa odpowiedź JSON

{
    "jobId": "cd6418fe-db86-4350-aec1-f0d7c91442a6",
    "lastUpdateDateTime": "2022-09-08T16:45:14Z",
    "createdDateTime": "2022-09-08T16:44:53Z",
    "expirationDateTime": "2022-09-09T16:44:53Z",
    "status": "succeeded",
    "errors": [],
    "displayName": "Document Abstractive Summarization Task Example",
    "tasks": {
        "completed": 1,
        "failed": 0,
        "inProgress": 0,
        "total": 1,
        "items": [
            {
                "kind": "AbstractiveSummarizationLROResults",
                "taskName": "Document Abstractive Summarization Task 1",
                "lastUpdateDateTime": "2022-09-08T16:45:14.0717206Z",
                "status": "succeeded",
                "results": {
                    "documents": [
                        {
                            "summaries": [
                                {
                                    "text": "Microsoft is taking a more holistic, human-centric approach to AI. We've developed a joint representation to create more powerful AI that can speak, hear, see, and understand humans better. We've achieved human performance on benchmarks in conversational speech recognition, machine translation, ...... and image captions.",
                                    "contexts": [
                                        {
                                            "offset": 0,
                                            "length": 247
                                        }
                                    ]
                                }
                            ],
                            "id": "1"
                        }
                    ],
                    "errors": [],
                    "modelVersion": "latest"
                }
            }
        ]
    }
}

parametr	Opis
`-X POST <endpoint>`	Określa punkt końcowy na potrzeby uzyskiwania dostępu do interfejsu API.
`-H Content-Type: application/json`	Typ zawartości do wysyłania danych JSON.
`-H "Ocp-Apim-Subscription-Key:<key>`	Określa klucz dostępu do interfejsu API.
`-d <documents>`	Kod JSON zawierający dokumenty, które chcesz wysłać.

Następujące polecenia cURL są wykonywane z powłoki BASH. Edytuj te polecenia przy użyciu własnych nazw zasobów, klucza zasobu i wartości JSON.

Podsumowanie oparte na zapytaniach

Interfejs API podsumowania dokumentów oparty na zapytaniach jest rozszerzeniem istniejącego interfejsu API podsumowania dokumentów.

Największą różnicą jest nowe query pole w treści żądania (w obszarze tasks>parameters>query). Ponadto istnieje nowy sposób określania preferowanego summaryLength w zasobnikach "zasobników" krótkich/średnich/długich, które zalecamy użyć zamiast sentenceCount, zwłaszcza w przypadku korzystania z abstrakcji. Poniżej przedstawiono przykładowe żądanie:

curl -i -X POST https://<your-language-resource-endpoint>/language/analyze-text/jobs?api-version=2023-11-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: <your-language-resource-key>" \
-d \
' 
{
  "displayName": "Document Extractive Summarization Task Example",
  "analysisInput": {
    "documents": [
      {
        "id": "1",
        "language": "en",
        "text": "At Microsoft, we have been on a quest to advance AI beyond existing techniques, by taking a more holistic, human-centric approach to learning and understanding. As Chief Technology Officer of Azure AI services, I have been working with a team of amazing scientists and engineers to turn this quest into a reality. In my role, I enjoy a unique perspective in viewing the relationship among three attributes of human cognition: monolingual text (X), audio or visual sensory signals, (Y) and multilingual (Z). At the intersection of all three, there’s magic—what we call XYZ-code as illustrated in Figure 1—a joint representation to create more powerful AI that can speak, hear, see, and understand humans better. We believe XYZ-code enables us to fulfill our long-term vision: cross-domain transfer learning, spanning modalities and languages. The goal is to have pretrained models that can jointly learn representations to support a broad range of downstream AI tasks, much in the way humans do today. Over the past five years, we have achieved human performance on benchmarks in conversational speech recognition, machine translation, conversational question answering, machine reading comprehension, and image captioning. These five breakthroughs provided us with strong signals toward our more ambitious aspiration to produce a leap in AI capabilities, achieving multi-sensory and multilingual learning that is closer in line with how humans learn and understand. I believe the joint XYZ-code is a foundational component of this aspiration, if grounded with external knowledge sources in the downstream AI tasks."
      }
    ]
  },
  "tasks": [
    {
      "kind": "ExtractiveSummarization",
      "taskName": "Document Extractive Summarization Task 1",
      "parameters": {
        "query": "XYZ-code",
        "summaryLength": short
      }
    }
  ]
}
'

Korzystanie z parametru summaryParameter

W przypadku parametru summaryLength akceptowane są trzy wartości:

short: Generuje podsumowanie głównie 2–3 zdań z około 120 tokenami.
średni: generuje podsumowanie głównie 4–6 zdań z około 170 tokenami.
long: Generuje podsumowanie głównie ponad 7 zdań z około 210 tokenami.

Limity usług i danych

Aby uzyskać informacje na temat rozmiaru i liczby żądań, które można wysłać na minutę i sekundę, zobacz artykuł Dotyczący limitów usług.

Zobacz też

Podsumowanie — omówienie