Was ist Zusammenfassung?

Artikel
09/03/2024

Wichtig

Unsere Vorschauregion „Schweden, Mitte“ zeigt unsere neuesten und ständig weiterentwickelten LLM-Optimierungstechniken auf der Grundlage von GPT-Modellen. Sie können sie gerne mit einer Sprachressource in der Region „Schweden, Mitte“ ausprobieren.

Die Konversationszusammenfassung ist nur verfügbar mit:

REST-API
Python
C#

Die Zusammenfassung ist ein Feature, das von Azure KI Language angeboten wird. Dies ist eine Kombination aus generativen großen Sprachmodellen und aufgabenoptimierten Encodermodellen, die Zusammenfassungslösungen mit höherer Qualität, Kosteneffizienz und geringerer Latenz bieten. In diesem Artikel erfahren Sie mehr über dieses Feature und wie Sie es in Ihren Anwendungen nutzen können.

Standardmäßig bietet der Dienst Zusammenfassungslösungen für drei Arten von Genres: einfache Texte, Unterhaltungen und native Dokumente. Die Textzusammenfassung akzeptiert nur Nur-Text-Blöcke. Die Unterhaltungszusammenfassung akzeptiert Konversationseingaben, einschließlich verschiedener Sprachaudiosignale, damit das Modell effektiv segmentieren und zusammenfassen kann. Das native Dokument kann direkt für Dokumente in ihren nativen Formaten Zusammenfassungen erstellen, z. B. Word, PDF usw.

Diese Dokumentation enthält die folgenden Arten von Artikeln:

Schnellstarts sind Anleitungen zu den ersten Schritten, die Sie durch das Senden von Anforderungen an den Dienst führen.
Schrittanleitungen enthalten Anweisungen zur spezifischeren oder individuelleren Verwendung des Diensts.

Diese Features wurden entwickelt, um Inhalte zu kürzen, die als zum Lesen zu lang betrachtet werden könnten.

Schlüsselfunktionen der Textzusammenfassung

Die Textzusammenfassung verwendet Techniken für die Verarbeitung natürlicher Sprachen, um eine Zusammenfassung für einfache Texte zu generieren, die aus einem Dokument oder einer Unterhaltung oder beliebigen Texten stammen können. Diese API bietet zwei Ansätze für die Textzusammenfassung:

Extraktive Zusammenfassung: Erstellt eine Zusammenfassung durch Extrahieren markanter Sätze innerhalb des Dokuments sowie Positionierungsinformationen für diese Sätze.
- Mehrere extrahierte Sätze: Diese Sätze vermitteln zusammen die Hauptidee des Dokuments. Es sind Originalsätze, die aus dem Inhalt des Eingabedokuments extrahiert wurden.
- Rangbewertung: Die Rangbewertung gibt an, wie relevant ein Satz für das Hauptthema ist. Die Textzusammenfassung bringt extrahierte Sätze in eine Rangfolge, und Sie können bestimmen, ob sie in der Reihenfolge zurückgegeben werden, in der sie im Text vorkommen, oder entsprechend ihrem Rang. Wenn Sie beispielsweise eine Zusammenfassung in drei Sätzen anfordern, gibt die extraktive Zusammenfassung die drei am höchsten bewerteten Sätze zurück.
- Positionsinformationen: Die Startposition und die Länge der extrahierten Sätze
Abstrahierende Zusammenfassung: Generiert eine Zusammenfassung mit prägnanten, zusammenhängenden Sätzen oder Wörtern, die keine wörtlich aus dem Originaldokument extrahierten Sätze sind.
- Zusammenfassungstexte: Die abstrakte Zusammenfassung gibt eine Zusammenfassung für jeden kontextbezogenen Eingabebereich zurück. Eine lange Eingabe kann segmentiert werden, sodass mehrere Gruppen von Zusammenfassungstexten mit ihrem kontextbezogenen Eingabebereich zurückgegeben werden können.
- Kontextbezogener Eingabebereich: Der Bereich innerhalb der Eingabe, der zum Generieren des Zusammenfassungstexts verwendet wurde.

Betrachten Sie beispielsweise den folgenden Textabschnitt:

„Wir bei Microsoft sind bestrebt, die KI über die bestehenden Techniken hinaus zu verbessern, indem wir einen ganzheitlicheren, menschenzentrierten Ansatz für das Lernen und Verstehen wählen. Als Chief Technology Officer von Azure KI Services habe ich mit einem Team von erstaunlichen Wissenschaftlern und Ingenieuren zusammengearbeitet, um dieses Vorhaben in die Tat umzusetzen. „In meiner Rolle sehe ich die Beziehung der drei Attribute der menschlichen Wahrnehmung aus einer ganz besonderen Perspektive: einsprachiger Text (X), Audiosignale oder visuelle Signale (Y) und mehrsprachiger Text (Z).“ Die Schnittmenge dieser drei Attribute ist jedoch der Schlüssel. Wir bezeichnen das als XYZ-Code (Abbildung 1). Durch das Zusammenspiel dieser Faktoren können wir leistungsfähigere KI schaffen, die sprechen, hören, sehen und Menschen besser verstehen kann. Wir sind der Meinung, dass XYZ-Code uns die Möglichkeit gibt, unsere langfristige Vision zu realisieren: domänenübergreifender Lerntransfer über Modalitäten und Sprachgrenzen hinweg. Das Ziel besteht in der Verfügbarkeit vortrainierter Modelle, die gemeinsam Darstellungen erlernen können, um eine Vielzahl von nachgelagerten KI-Aufgaben zu unterstützen, ganz ähnlich wie Menschen es heute tun. Im Lauf der letzten fünf Jahre haben wir bei Benchmarks für Spracherkennung in Unterhaltungen, maschinelle Übersetzung, Beantwortung von Fragen im Unterhaltungskontext, maschinelles Leseverständnis und Bildbeschriftung ein menschliches Leistungsniveau erzielt. Diese fünf Durchbrüche waren für uns ein starkes Signal im Hinblick auf unser ehrgeizigeres Ziel, einen Sprung in den KI-Fähigkeiten zu erreichen, indem wir zu einem multisensorischen und mehrsprachigen Lernen gelangen, das dem menschlichen Lernen und Verstehen ähnlicher ist. Meiner Meinung nach ist gemeinsamer XYZ-Code eine Grundkomponente dieser Aufgabe, wenn er sich auf externe Wissensquellen in den nachgelagerten KI-Aufgaben stützt."

Die Anforderung der Textzusammenfassung-API wird nach Erhalt der Anforderung verarbeitet, indem ein Auftrag für das API Back-End erstellt wird. Wenn der Auftrag erfolgreich war, wird die Ausgabe der API zurückgegeben. Die Ausgabe kann 24 Stunden lang abgerufen werden. Anschließend wird die Ausgabe gelöscht. Aufgrund der Unterstützung von Emojis und mehreren Sprachen enthält der Antworttext unter Umständen Textversätze. Weitere Informationen finden Sie unter Verarbeiten von Versätzen.

Wenn wir das obige Beispiel verwenden, könnte die API diese Zusammenfassungen zurückgeben:

Extraktive Zusammenfassung:

„Wir bei Microsoft sind bestrebt, die KI über die bestehenden Techniken hinaus zu verbessern, indem wir einen ganzheitlicheren, menschenzentrierten Ansatz für das Lernen und Verstehen wählen.“
„Wir sind der Meinung, dass XYZ-Code uns die Möglichkeit gibt, unsere langfristige Vision zu realisieren: domänenübergreifender Lerntransfer über Modalitäten und Sprachgrenzen hinweg.“
„Das Ziel besteht in der Verfügbarkeit vortrainierter Modelle, die gemeinsam Darstellungen erlernen können, um eine Vielzahl von nachgelagerten KI-Aufgaben zu unterstützen, ganz ähnlich wie Menschen es heute tun.“

Abstrakte Zusammenfassung:

„Microsoft verfolgt einen ganzheitlicheren, auf den Menschen ausgerichteten Ansatz für das Lernen und Verstehen. Wir sind der Meinung, dass XYZ-Code uns die Möglichkeit gibt, unsere langfristige Vision zu realisieren: domänenübergreifender Lerntransfer über Modalitäten und Sprachgrenzen hinweg. In den letzten fünf Jahren haben wir bei Benchmarks in der Spracherkennung menschliche Leistungen erzielt.“

Diese Dokumentation enthält die folgenden Arten von Artikeln:

Schnellstarts sind Anleitungen zu den ersten Schritten, die Sie durch das Senden von Anforderungen an den Dienst führen.
Schrittanleitungen enthalten Anweisungen zur spezifischeren oder individuelleren Verwendung des Diensts.

Schlüsselfunktionen der Konversationszusammenfassung

Die Konversationszusammenfassung unterstützt die folgenden Features:

Zusammenfassung: Fasst eine Unterhaltung in einem kurzen Absatz zusammen.
Zusammenfassung von Problemen/Lösungen: Callcenter-spezifische Funktionen, die eine Zusammenfassung von Problemen und Lösungen in Gesprächen zwischen Kundendienstmitarbeitern und Ihren Kunden liefern.
Kapiteltitelzusammenfassung: Segmentiert eine Unterhaltung basierend auf den in der Unterhaltung erörterten Themen in Kapitel und liefert vorgeschlagene Kapiteltitel der Eingabeunterhaltung.
Narrative Zusammenfassung: Generiert ausführliche Anrufnotizen, Besprechungsnotizen oder Chatzusammenfassungen von den Eingabeunterhaltungen.

Sehen Sie sich die folgende Beispielunterhaltung an:

Mitarbeiter*in: „Hallo, Sie chatten mit Rene. Wie kann ich Ihnen helfen?“

Kund*in: „Hallo. Ich habe versucht, eine WLAN-Verbindung für die Espressomaschine Smart Brew 300 einzurichten, aber es hat nicht geklappt.“

Mitarbeiter*in: „Das tut mir leid. Mal sehen, wie wir dieses Problem beheben können. Könnten Sie bitte die WLAN-Verbindungstaste drei Sekunden lang gedrückt halten und mir dann sagen, ob die Betriebsanzeige langsam blinkt?“

Kunde:„Ja. Ich habe die WLAN-Verbindungstaste gedrückt, und jetzt blinkt die Betriebsanzeige langsam.“

Mitarbeiter:„Sehr gut, danke! Überprüfen Sie nun bitte Ihre Contoso Coffee-App. Werden Sie aufgefordert, eine Verbindung mit dem Gerät herzustellen?“

Kunde:„Nein, da tut sich nichts.“

Mitarbeiter*in: „Verstehe. Vielen Dank. Mal sehen, ob sich das Problem durch Zurücksetzen auf die Werkseinstellungen beheben lässt. Könnten Sie bitte die mittlere Taste fünf Sekunden lang gedrückt halten, um die Zurücksetzung auf die Werkseinstellungen zu starten?“

Kund*in: „Ich das Gerät auf die Werkseinstellungen zurückgesetzt und die obigen Schritte erneut ausgeführt, aber es funktioniert trotzdem nicht.“

Mitarbeiter*in: „Das tut mir leid. Lassen Sie mich nachsehen, ob es eine andere Möglichkeit gibt, das Problem zu beheben. Warten Sie bitte einen Moment.“

Das Konversationszusammenfassungsfeature würde den Text wie folgt vereinfachen:

Beispielzusammenfassung	Anmerkung	Aspekt der Unterhaltung
Kund*in kann keine WLAN-Verbindung für die Espressomaschine Smart Brew 300 einrichten	Ein Kundenproblem in einer Unterhaltung zwischen Kunde und Agent	Problem
Der Agent schlug mehrere Schritte zur Problembehandlung vor, einschließlich der Überprüfung der WLAN-Verbindung, der Überprüfung der Contoso Coffee-App und der Zurücksetzung auf Werkseinstellungen. Das Problem wurde jedoch mit keinem dieser Schritte behoben. Der Agent setzt dann den Kunden in die Warteschleife, um nach einer anderen Lösung zu suchen.	Getestete Lösungen in einer Unterhaltung zwischen Kunde und Agent	auflösung
Der Kunde kontaktierte den Agenten bezüglich Unterstützung bei der Einrichtung einer WLAN-Verbindung für seine Smart Brew 300 Espressomaschine. Der Agent führte den Kunden durch mehrere Schritte zur Problembehandlung, einschließlich der Überprüfung der WLAN-Verbindung, der Überprüfung der Betriebsanzeige und einer Zurücksetzung auf Werkseinstellungen. Trotz dieser Schritte blieb das Problem bestehen. Der Agent entschied sich dann, andere potenzielle Lösungen zu erkunden	Fasst eine Unterhaltung in einem Absatz zusammen.	Zusammenfassung
Problembehandlung bei SmartBrew 300 Espressomaschine	Segmentiert eine Unterhaltung und generiert einen Titel für jedes Segment; in der Regel in Zusammenarbeit mit `narrative`-Aspekt	chapterTitle
Der Kunde hat Probleme beim Einrichten einer WLAN-Verbindung für seine Smart Brew 300 Espressomaschine. Der Agent schlägt mehrere Lösungen vor, einschließlich einer Zurücksetzung auf Werkseinstellungen, aber das Problem bleibt bestehen.	Segmentiert eine Unterhaltung und generiert eine Zusammenfassung für jedes Segment, in der Regel in Zusammenarbeit mit `chapterTitle`-Aspekt	Storytelling

Diese Dokumentation enthält die folgenden Arten von Artikeln:

Schnellstarts sind Anleitungen zu den ersten Schritten, die Sie durch das Senden von Anforderungen an den Dienst führen.
Schrittanleitungen enthalten Anweisungen zur spezifischeren oder individuelleren Verwendung des Diensts.

Die Dokumentzusammenfassung verwendet Techniken zur Verarbeitung natürlicher Sprache, um eine Zusammenfassung für Dokumente zu erstellen.

Ein natives Dokument bezieht sich auf das Dateiformat, das zur Erstellung des Originaldokuments verwendet wurde, z. B. Microsoft Word (docx) oder eine portierbare Dokumentdatei (pdf). Durch die Unterstützung nativer Dokumente ist vor der Nutzung von Azure KI Language-Ressourcen keine Textvorverarbeitung mehr erforderlich. Derzeit steht die Unterstützung nativer Dokumente für zwei Arten von Zusammenfassungen zur Verfügung:

Extraktive Zusammenfassung: Erstellt eine Zusammenfassung durch Extrahieren markanter Sätze innerhalb des Dokuments sowie Positionierungsinformationen für diese Sätze.
- Mehrere extrahierte Sätze: Diese Sätze vermitteln zusammen die Hauptidee des Dokuments. Es sind Originalsätze, die aus dem Inhalt des Eingabedokuments extrahiert wurden.
- Rangbewertung: Die Rangbewertung gibt an, wie relevant ein Satz für das Hauptthema ist. Die Textzusammenfassung bringt extrahierte Sätze in eine Rangfolge, und Sie können bestimmen, ob sie in der Reihenfolge zurückgegeben werden, in der sie im Text vorkommen, oder entsprechend ihrem Rang. Wenn Sie beispielsweise eine Zusammenfassung in drei Sätzen anfordern, gibt die extraktive Zusammenfassung die drei am höchsten bewerteten Sätze zurück.
- Positionsinformationen: Die Startposition und die Länge der extrahierten Sätze
Abstrahierende Zusammenfassung: Generiert eine Zusammenfassung mit prägnanten, zusammenhängenden Sätzen oder Wörtern, die keine wörtlich aus dem Originaldokument extrahierten Sätze sind.
- Zusammenfassungstexte: Die abstrakte Zusammenfassung gibt eine Zusammenfassung für jeden kontextbezogenen Eingabebereich zurück. Eine lange Eingabe kann segmentiert werden, sodass mehrere Gruppen von Zusammenfassungstexten mit ihrem kontextbezogenen Eingabebereich zurückgegeben werden können.
- Kontextbezogener Eingabebereich: Der Bereich innerhalb der Eingabe, der zum Generieren des Zusammenfassungstexts verwendet wurde.

Derzeit unterstützt Dokumentzusammenfassung die folgenden nativen Dokumentformate:

Dateityp	Dateierweiterung	Beschreibung
Text	`.txt`	Ein unformatiertes Textdokument.
Adobe PDF	`.pdf`	Ein als portierbare Dokumentdatei formatiertes Dokument
Microsoft Word	`.docx`	Eine Microsoft Word-Dokumentdatei

Weitere Informationen finden Sie unter Verwenden nativer Dokumente für die Sprachverarbeitung

Erste Schritte mit der Zusammenfassung

Zur Verwendung der Zusammenfassung übermitteln Sie Text zur Analyse und verarbeiten die API-Ausgabe in Ihrer Anwendung. Die Analyse wird ohne zusätzliche Anpassung des Modells durchgeführt, das für Ihre Daten verwendet wird. Es gibt zwei Möglichkeiten, die Zusammenfassung zu verwenden:

Entwicklungsoption	BESCHREIBUNG
Language Studio	Language Studio ist eine webbasierte Plattform, mit der Sie ohne Azure-Konto und mit Ihren eigenen Daten die Verknüpfung von Entitäten mit Textbeispielen ausprobieren können, wenn Sie sich registrieren. Weitere Informationen finden Sie auf der Language Studio-Website oder im Language Studio-Schnellstart.
REST-API oder Clientbibliothek (Azure SDK)	Integrieren Sie die Textzusammenfassung mithilfe der REST-API oder der Clientbibliothek, die in verschiedenen Sprachen verfügbar ist, in Ihre Anwendungen. Weitere Informationen finden Sie im Schnellstart zur Zusammenfassung.

Entwicklungsoption	BESCHREIBUNG	Links
REST-API	Integrieren Sie die Konversationszusammenfassung mithilfe der REST-API in Ihre Anwendungen.	Schnellstart: Verwenden der Konversationszusammenfassung

Entwicklungsoption	BESCHREIBUNG
Language Studio	Language Studio ist eine webbasierte Plattform, mit der Sie ohne Azure-Konto und mit Ihren eigenen Daten die Verknüpfung von Entitäten mit Textbeispielen ausprobieren können, wenn Sie sich registrieren. Weitere Informationen finden Sie auf der Language Studio-Website oder im Language Studio-Schnellstart.
REST-API oder Clientbibliothek (Azure SDK)	Integrieren Sie die Textzusammenfassung mithilfe der REST-API oder der Clientbibliothek, die in verschiedenen Sprachen verfügbar ist, in Ihre Anwendungen. Weitere Informationen finden Sie im Schnellstart zur Zusammenfassung.

Eingabeanforderungen und Dienstgrenzwerte

Bei der Zusammenfassung wird Text für die Analyse verwendet. Weitere Informationen finden Sie in der Schrittanleitung unter Daten- und Dienstgrenzwerte.
Die Zusammenfassung funktioniert mit verschiedenen geschriebenen Sprachen. Weitere Informationen finden Sie unter Sprachunterstützung.

Referenzdokumentation und Codebeispiele

Wenn Sie die Textzusammenfassung in Ihren Anwendungen verwenden, lesen Sie die folgende Referenzdokumentation und Beispiele für Azure KI Language:

Entwicklungsoption/Sprache	Referenzdokumentation	Beispiele
C#	C#-Dokumentation	Beispiele für C#
Java	Java-Dokumentation	Java-Beispiele
JavaScript	JavaScript-Dokumentation	JavaScript samples (JavaScript-Beispiele)
Python	Python-Dokumentation	Python-Beispiele

Verantwortungsbewusste künstliche Intelligenz

Zu einem KI-System gehört nicht nur die Technologie, sondern auch die Personen, die es verwenden, die davon betroffenen Personen und die Bereitstellungsumgebung. Weitere Informationen zur verantwortungsbewussten Verwendung und Bereitstellung von KI in Ihren Systemen finden Sie im Transparenzhinweis für die Zusammenfassung. Weitere Informationen finden Sie in den folgenden Artikeln:

Teilen über

Was ist Zusammenfassung?

Schlüsselfunktionen der Textzusammenfassung

Schlüsselfunktionen der Konversationszusammenfassung

Erste Schritte mit der Zusammenfassung

Eingabeanforderungen und Dienstgrenzwerte

Referenzdokumentation und Codebeispiele

Verantwortungsbewusste künstliche Intelligenz

Feedback

Zusätzliche Ressourcen