Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Wichtig
- Azure KI Content Understanding ist als Vorschau verfügbar. Öffentliche Vorschauversionen bieten frühzeitigen Zugriff auf Features, die sich in der aktiven Entwicklung befinden.
- Features, Ansätze und Prozesse können sich vor der allgemeinen Verfügbarkeit (General Availability, GA) noch ändern oder eine eingeschränkte Funktionalität aufweisen.
- Weitere Informationen finden Sie in den ergänzenden Nutzungsbedingungen für Microsoft Azure-Vorschauversionen.
Audioanalysatoren ermöglichen die Transkription und Diarisierung von Unterhaltungsaudio, das Extrahieren strukturierter Felder wie Zusammenfassungen, Stimmungen und wichtige Themen. Passen Sie eine Audioanalysevorlage an Ihre geschäftlichen Anforderungen an, indem Sie das Azure KI Foundry-Portal verwenden, um mit dem Generieren von Ergebnissen zu beginnen.
Hier sind gängige Szenarien für die Verarbeitung von gesprochenen Audiodaten:
- Erhalten Sie Kundenerkenntnisse durch Zusammenfassung und Standpunktanalyse-
- Bewerten und Überprüfen der Anrufqualität und Compliance in Callcentern.
- Erstellen Sie automatisierte Zusammenfassungen und Metadaten für die Podcastveröffentlichung.
Audioanalysefunktionen
Content Understanding dient als Eckpfeiler für Speech Analytics-Lösungen, wodurch die folgenden Funktionen für Audiodateien ermöglicht werden:
Inhaltsextraktion
Die Audioinhaltsextraktion ist der Prozess der Transkribierung von Audiodateien. Dieser Prozess umfasst das Trennen von Transkriptionen nach Sprecher und kann optionale Funktionen wie die Rollenerkennung umfassen, um Sprecherergebnisse auf aussagekräftige Sprecherrollen zu aktualisieren. Sie kann auch detaillierte Ergebnisse umfassen, einschließlich Zeitstempel auf Wortebene.
Sprachverarbeitung
Wir unterstützen verschiedene Optionen zur Behandlung der Sprachverarbeitung während der Transkription.
In der folgenden Tabelle finden Sie eine Übersicht über die Optionen, die durch die Konfiguration "locales" gesteuert werden.
Gebietsschemaeinstellungen | Dateigröße | Unterstützte Verarbeitung | Unterstützte Gebietsschemas | Ergebnislatenz |
---|---|---|---|---|
automatisch oder leer | ≤ 300 MB und/oder ≤ 2 Stunden | Mehrsprachige Transkription | de-DE , en-AU , en-CA , en-GB , en-IN , en-US , es-ES , es-MX , fr-CA , und fr-FR , hi-IN , it-IT , ja-JP , ko-KR , und zh-CN |
Nahezu in Echtzeit |
automatisch oder leer | > 300 MB und >2 HR ≤ 4 Stunden | Mehrsprachige Transkription | en-US , es-ES , es-MX , fr-FR , hi-IN , it-IT , ja-JP , ko-KR , pt-BR , zh-CN |
Regulär |
einzelnes Gebietsschema | ≤ 1 GB und/oder ≤ 4 Stunden | Transkription einzelner Sprachen | Alle unterstützten Gebietsschemas[^1] | • ≤ 300 MB und/oder ≤ 2 Stunden: Nahezu-Echtzeit • > 300 MB und >2 HR ≤ 4 Stunden: Normal |
mehrere Regionen | ≤ 1 GB und/oder ≤ 4 Stunden | Transkription in einer sprache (basierend auf der Spracherkennung) | Alle unterstützten Gebietsschemas[^1] | • ≤ 300 MB und/oder ≤ 2 Stunden: Nahezu-Echtzeit • > 300 MB und >2 HR ≤ 4 Stunden: Normal |
[^1]: Das Inhaltsverständnis unterstützt den vollständigen Satz von Azure KI Speech Speech in Textsprachen. Bei Sprachen mit Unterstützung für schnelle Transkriptionen und für Dateien ≤ 300 MB und/oder ≤ 2 Stunden wird die Transkriptionszeit erheblich reduziert.
Transkription. Konvertiert Unterhaltungsaudio in durchsuchbare und analysierbare textbasierte Transkripte im WebVTT-Format. Anpassbare Felder können aus Transkriptionsdaten generiert werden. Zeitstempel auf Satzebene und Wortebene sind auf Anfrage verfügbar.
Diarisierung. Unterscheidet zwischen Sprechern in einer Unterhaltung, wobei Teile des Transkripts bestimmten Sprechern zugewiesen werden.
Erkennung von Sprecherrollen. Identifiziert Telefonist- und Kundenrollen innerhalb von Anrufdaten von Kontaktcentern.
Mehrsprachige Transkription. Generiert mehrsprachige Transkripte, wobei Sprache/Gebietsschemas pro Ausdruck angewendet werden. Das Feature wird von der Spracherkennung abweichend aktiviert, wenn keine Sprache bzw. kein Gebietsschema angegeben ist oder auf "
auto
Sprache" festgelegt ist.
Hinweis
Wenn mehrsprachige Transkription verwendet wird, erzeugen alle Dateien mit nicht unterstützten Gebietsschemas ein Ergebnis basierend auf dem nächstgelegenen unterstützten Gebietsschema, das wahrscheinlich falsch ist. Dieses Ergebnis ist ein bekanntes Verhalten. Vermeiden Sie Probleme mit der Transkription, indem Sie sicherstellen, dass Sie Gebietsschemas konfigurieren, wenn Sie kein mehrsprachiges Transkription unterstütztes Gebietsschema verwenden!
- Sprachenerkennung. Erkennt automatisch die dominante Sprache/das Gebietsschema, die zum Transkribieren der Datei verwendet wird. Legen Sie mehrere Sprachen/Gebietsschemas fest, um die Spracherkennung zu aktivieren.
Feldextraktion
Mit der Feldextraktion können Sie strukturierte Daten aus Audiodateien extrahieren, z. B. Zusammenfassungen, Stimmungen und erwähnte Entitäten aus Anrufprotokollen. Sie können beginnen, eine Vorlage für vorgeschlagene Analyse zu anpassen oder eine von Grund auf neu zu erstellen.
Hauptvorteile
Erweiterte Audiofunktionen, einschließlich:
Anpassbare Datenextraktion. Passen Sie die Ausgabe an Ihre spezifischen Anforderungen an, indem Sie das Feldschema ändern, was eine präzise Generierung und Extraktion von Daten ermöglicht.
Generative Modelle. Verwenden Sie generative KI-Modelle, um in natürlicher Sprache den Inhalt anzugeben, den Sie extrahieren möchten, und der Dienst generiert die gewünschte Ausgabe.
Integrierte Vorverarbeitung. Profitieren Sie von integrierten Vorverarbeitungsschritten wie Transkription, Sprechersegmentierung und Rollenerkennung, die einen umfassenden Kontext für generative Modelle bieten.
Anpassungsfähigkeit des Szenarios. Passen Sie den Dienst an Ihre Anforderungen an, indem Sie benutzerdefinierte Felder generieren und relevante Daten extrahieren.
Vorgefertigte Audioanalysatoren
Die vorgefertigten Analyzer ermöglichen das Extrahieren wertvoller Einblicke in Audioinhalte, ohne dass ein Analysesetup erstellt werden muss.
Alle Audioanalysatoren generieren Transkriptionen im standardmäßigen WEBVTT-Format, getrennt durch Lautsprecher.
Hinweis
Vordefinierte Analysegeräte werden so eingestellt, dass mehrsprachige Transkription verwendet und returnDetails
aktiviert wird.
Die folgenden vorgefertigten Analysegeräte sind verfügbar:
Analyse nach dem Aufruf (vorkonfiguriertes CallCenter) Analysieren Sie Anrufaufzeichnungen, um folgendes zu generieren:
- Aufzeichnungen von Unterhaltungen mit Sprecherrollenerkennungsergebnis
- Anrufzusammenfassung
- Anrufstimmung
- Die fünf wichtigsten Artikel, die erwähnt wurden
- Liste der erwähnten Unternehmen
- Liste der erwähnten Personen (Name und Titel/Rolle)
- Liste der relevanten Anrufkategorien
Beispielergebnis:
{
"id": "bc36da27-004f-475e-b808-8b8aead3b566",
"status": "Succeeded",
"result": {
"analyzerId": "prebuilt-callCenter",
"apiVersion": "2025-05-01-preview",
"createdAt": "2025-05-06T22:53:28Z",
"stringEncoding": "utf8",
"warnings": [],
"contents": [
{
"markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Agent>Good day.\n\n00:00.960 --> 00:02.240\n<v Agent>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Agent>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Agent>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Agent>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Agent>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Agent>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Agent>No problem.\n\n00:12.880 --> 00:13.920\n<v Agent>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Agent>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Agent>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Agent>Great.\n\n00:20.800 --> 00:24.160\n<v Agent>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Agent>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Agent>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Agent>That was all.\n\n00:28.720 --> 00:29.280\n<v Agent>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Agent>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Agent>Goodbye at Contoso.\n```",
"fields": {
"Summary": {
"type": "string",
"valueString": "Maria Smith contacted Contoso to inquire about her current point balance. After confirming her identity with her date of birth, the agent, John Doe, informed her that her balance was 599 points. Maria did not require any further assistance, and the call concluded politely."
},
"Topics": {
"type": "array",
"valueArray": [
{
"type": "string",
"valueString": "Point balance inquiry"
},
{
"type": "string",
"valueString": "Identity confirmation"
},
{
"type": "string",
"valueString": "Customer service"
}
]
},
"Companies": {
"type": "array",
"valueArray": [
{
"type": "string",
"valueString": "Contoso"
}
]
},
"People": {
"type": "array",
"valueArray": [
{
"type": "object",
"valueObject": {
"Name": {
"type": "string",
"valueString": "John Doe"
},
"Role": {
"type": "string",
"valueString": "Agent"
}
}
},
{
"type": "object",
"valueObject": {
"Name": {
"type": "string",
"valueString": "Maria Smith"
},
"Role": {
"type": "string",
"valueString": "Customer"
}
}
}
]
},
"Sentiment": {
"type": "string",
"valueString": "Positive"
},
"Categories": {
"type": "array",
"valueArray": [
{
"type": "string",
"valueString": "Business"
}
]
}
},
"kind": "audioVisual",
"startTimeMs": 0,
"endTimeMs": 32183,
"transcriptPhrases": [
{
"speaker": "Agent",
"startTimeMs": 80,
"endTimeMs": 640,
"text": "Good day.",
"words": []
}, ...
{
"speaker": "Customer",
"startTimeMs": 5440,
"endTimeMs": 6320,
"text": "Yes, good day.",
"words": []
}, ...
]
}
]
}
}
Unterhaltungsanalyse (prebuilt-audioAnalyzer). Analysieren Sie die Aufzeichnungen, um Folgendes zu erstellen:
- Gesprächsprotokolle
- Zusammenfassung des Gesprächs
Beispielergebnis:
{
"id": "9624cc49-b6b3-4ce5-be6c-e895d8c2484d",
"status": "Succeeded",
"result": {
"analyzerId": "prebuilt-audioAnalyzer",
"apiVersion": "2025-05-01-preview",
"createdAt": "2025-05-06T23:00:12Z",
"stringEncoding": "utf8",
"warnings": [],
"contents": [
{
"markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Speaker 1>Good day.\n\n00:00.960 --> 00:02.240\n<v Speaker 1>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Speaker 1>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Speaker 1>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Speaker 1>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Speaker 1>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Speaker 1>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Speaker 1>No problem.\n\n00:12.880 --> 00:13.920\n<v Speaker 1>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Speaker 1>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Speaker 1>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Speaker 1>Great.\n\n00:20.800 --> 00:24.160\n<v Speaker 1>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Speaker 1>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Speaker 1>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Speaker 1>That was all.\n\n00:28.720 --> 00:29.280\n<v Speaker 1>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Speaker 1>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Speaker 1>Goodbye at Contoso.\n```",
"fields": {
"Summary": {
"type": "string",
"valueString": "Maria Smith contacted Contoso to inquire about her current point balance. John Doe assisted her by confirming her identity using her date of birth and informed her that her balance was 599 points. Maria expressed no further inquiries, and the conversation concluded politely."
}
},
"kind": "audioVisual",
"startTimeMs": 0,
"endTimeMs": 32183,
"transcriptPhrases": [
{
"speaker": "Speaker 1",
"startTimeMs": 80,
"endTimeMs": 640,
"text": "Good day.",
"words": []
}, ...
{
"speaker": "Speaker 2",
"startTimeMs": 5440,
"endTimeMs": 6320,
"text": "Yes, good day.",
"words": []
}, ...
]
}
]
}
}
Sie können auch vorgefertigte Analysegeräte anpassen, um eine feinkörnige Steuerung der Ausgabe zu erhalten, indem Sie benutzerdefinierte Felder definieren. Mithilfe der Anpassung können Sie die volle Leistungsfähigkeit von generativen Modellen nutzen, um tiefe Einblicke aus dem Audio zu extrahieren. Durch Anpassung können Sie beispielsweise Folgendes tun:
- Generieren Sie weitere Einblicke.
- Steuern der Sprache der Feldextraktionsausgabe.
- Konfigurieren Sie das Transkriptionsverhalten.
Accelerator für Conversational Knowledge Mining-Lösungen
Eine End-2-End-Schnellstartanleitung für Speech Analytics-Lösungen finden Sie im Accelerator für Conversation Knowledge Mining.
Gewinnen Sie umsetzbare Einblicke aus großen Mengen von Unterhaltungsdaten, indem Sie wichtige Themen, Muster und Beziehungen identifizieren. Mithilfe von Azure AI Foundry, Azure AI Content Understanding, Azure OpenAI in Azure AI Foundry Models und Azure AI Search analysiert diese Lösung unstrukturierte Dialoge und ordnet sie aussagekräftigen, strukturierten Erkenntnissen zu.
Funktionen wie Themenmodellierung, Schlüsselbegriffextraktion, Sprach-zu-Text-Transkription und interaktiver Chat ermöglichen Es Benutzern, Daten natürlich zu untersuchen und schnellere, fundiertere Entscheidungen zu treffen.
Analysten, die mit großen Mengen von Unterhaltungsdaten arbeiten, können diese Lösung verwenden, um Erkenntnisse durch Interaktion mit natürlicher Sprache zu extrahieren. Es unterstützt Aufgaben wie das Identifizieren von Kundensupport-Trends, die Verbesserung der Qualität des Contact Centers und das Aufdecken von operationaler Intelligenz, was es Teams ermöglicht, Muster zu erkennen, auf Feedback zu reagieren und fundierte Entscheidungen schneller zu treffen.
Eingabeanforderungen
Eine detaillierte Liste der unterstützten Audioformate finden Sie unterDienstgrenzwerte und Codecs.
Unterstützte Sprachen und Regionen
Eine vollständige Liste der unterstützten Regionen, Sprachen und Gebietsschemas finden Sie unter Sprach- und Regionsunterstützung.
Datenschutz und Sicherheit
Entwickler, die diesen Dienst verwenden, sollten die Richtlinien von Microsoft zu Kundendaten überprüfen. Weitere Informationen finden Sie unter"Daten", "Schutz" und "Datenschutz".
Nächste Schritte
- Versuchen Sie, Ihre Audioinhalte im Azure AI Foundry-Portal zu verarbeiten.
- Erfahren Sie, wie Sie Audioinhalte mit Analysevorlagen analysieren.
- Codebeispiele überprüfen: