Bearbeiten

Verwenden einer Transkriptionspipeline für die Spracherkennung (Sprache-in-Text) zum Analysieren aufgezeichneter Unterhaltungen

Azure KI Speech
Azure KI Language
Azure KI Services
Azure Synapse Analytics
Azure Logic Apps

Die Spracherkennung und die Analyse von aufgezeichneten Kundenanrufen können Ihrem Unternehmen wertvolle Informationen zu aktuellen Trends, Produktfehlern und Erfolgen liefern.

Die in diesem Artikel beschriebene Beispiellösung enthält eine wiederholbare Pipeline für das Transkribieren und Analysieren von Unterhaltungsdaten.

Aufbau

Die Architektur besteht aus zwei Pipelines: einer Transkriptionspipeline zum Konvertieren von Audio in Text und einer Anreicherungs- und Visualisierungspipeline.

Transkriptionspipeline

Diagramm, das zeigt wie Sprache mithilfe von Azure KI Services erfasst und in Text konvertiert wird.

Laden Sie eine Visio-Datei dieser Architektur herunter.

Datenfluss

  1. Audiodateien werden über beliebige unterstützte Methoden in ein Azure Storage-Konto hochgeladen. Sie können ein benutzeroberflächenbasiertes Tool wie Azure Storage-Explorer oder ein Speicher-SDK oder eine API verwenden.
  2. Der Upload in Azure Storage löst eine Azure-Logik-App aus. Die Logik-App greift auf alle erforderlichen Anmeldeinformationen in Azure Key Vault zu und sendet eine Anforderung an die Batchtranskriptions-API des Speech-Diensts.
  3. Die Logik-App sendet die Audiodateien des Anrufs an den Speech-Dienst, einschließlich optionaler Einstellungen für die Sprecherdiarisierung.
  4. Der Speech-Dienst führt die Batchtranskription durch und lädt die Transkriptionsergebnisse in das Storage-Konto.

Anreicherungs- und Visualisierungspipeline

Diagramm, das die Anreicherungs- und Visualisierungspipeline zeigt.

Laden Sie eine Visio-Datei dieser Architektur herunter.

Datenfluss

  1. Eine Azure Synapse Analytics-Pipeline wird ausgeführt, um den transkribierten Audiotext abzurufen und zu verarbeiten.
  2. Die Pipeline sendet verarbeiteten Text über einen API-Aufruf an den Sprachdienst. Der Dienst führt verschiedene Anreicherungen zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) aus, etwa Stimmungsanalyse und Opinion Mining, Zusammenfassung sowie benutzerdefinierte und vorkonfigurierte benannte Entitätserkennung.
  3. Die verarbeiteten Daten werden in einem Azure Synapse Analytics-SQL-Pool gespeichert, aus dem sie für Visualisierungstools wie Power BI bereitgestellt werden können.

Komponenten

  • Azure Blob Storage Ein hochgradig skalierbarer und sicherer Objektspeicher für cloudnative Workloads, Archive, Data Lakes, High Performance Computing und maschinelles Lernen. In dieser Lösung dient Azure Blob Storage zum Speichern von Audiodateien und Transkriptionsergebnissen sowie als Data Lake für die Downstreamanalyse.
  • Azur Logic Apps. Eine Integration Platform as a Service (iPaaS), die auf einer Containerruntime basiert. In dieser Lösung integriert sie Dienste für Speicher und künstliche Intelligenz (KI) für Sprache.
  • KI Speech-Dienst. Eine KI-basierte API, die Sprachfunktionen wie Spracherkennung (Sprache-in-Text), Sprachsynthese (Text-zu-Sprache), Sprachübersetzung und Sprecher*innenerkennung bereitstellt. Die Batchtranskriptionsfunktion der API wird in dieser Lösung verwendet.
  • AI Language. Ein KI-basierter verwalteter Dienst, der Funktionen für natürliche Sprache wie Stimmungsanalyse, Entitätsextraktion sowie automatisierte Fragen und Antworten bereitstellt.
  • Azure Synapse Analytics. Eine Sammlung von Diensten, die Datenintegration, Data Warehousing für Unternehmen und Big Data-Analyse bereitstellen. In dieser Lösung wird Azure Synapse Analytics verwendet, um Transkriptionsdaten zu transformieren und anzureichern sowie Daten für Downstream-Visualisierungstools bereitzustellen.
  • Power BI: Ein Tool für die Datenmodellierung und visuelle Analyse. In dieser Lösung stellt Power BI Erkenntnisse aus transkribierten Audiodaten für Benutzer und Entscheidungsträger dar.

Alternativen

Nachfolgend finden Sie einige alternative Ansätze für diese Lösungsarchitektur:

  • Erwägen Sie, das Blob Storage-Konto zur Verwendung eines hierarchischen Namespaces zu konfigurieren. Diese Konfiguration bietet auf Zugriffssteuerungslisten (Access Control List, ACL) basierende Sicherheitskontrollen und kann die Leistung für einige Big Data-Workloads verbessern.
  • Je nach Größe und Skalierung der Workload können Sie möglicherweise anstelle von Logic Apps- oder Azure Synapse-Pipelines Azure Functions als Code-First-Integrationstool verwenden.

Szenariodetails

Kundendienstzentren sind für viele Unternehmen in verschiedenen Branchen ein integraler Bestandteil des geschäftlichen Erfolgs. In dieser Lösung wird die Speech-API von Azure KI Services für die Audiotranskription und Diarisierung aufgezeichneter Kundenanrufe verwendet. Azure Synapse Analytics wird verwendet, um NLP-Aufgaben wie die Stimmungsanalyse und benutzerdefinierte benannte Entitätserkennung über API-Aufrufe an die KI-Sprache zu verarbeiten und auszuführen.

Sie können die hier beschriebenen Dienste und die Pipeline zum Verarbeiten von transkribiertem Text verwenden, um vertrauliche Informationen zu erkennen und zu entfernen, Stimmungsanalysen durchzuführen usw. Die Dienste und die Pipeline können für beliebige Mengen aufgezeichneter Daten skaliert werden.

Mögliche Anwendungsfälle

Diese Lösung kann für Organisationen in vielen Branchen von Nutzen sein, einschließlich Telekommunikation, Finanzdienstleistungen und Behörden. Sie ist für jede Organisation relevant, die Unterhaltungen aufzeichnet. Insbesondere können kundenorientierte oder interne Call Center oder Supportdesks von den Erkenntnissen profitieren, die sich mit dieser Lösung ableiten lassen.

Überlegungen

Diese Überlegungen bilden die Säulen des Azure Well-Architected Framework, einer Reihe von Leitprinzipien, die Sie zur Verbesserung der Qualität eines Workloads verwenden können. Weitere Informationen finden Sie unter Microsoft Azure Well-Architected Framework.

Sicherheit

Sicherheit bietet Schutz vor vorsätzlichen Angriffen und dem Missbrauch Ihrer wertvollen Daten und Systeme. Weitere Informationen finden Sie unter Übersicht über die Säule „Sicherheit“.

  • Die Anforderung an die Speech-API kann einen SAS-URI (Shared Access Signature) für einen Zielcontainer in Azure Storage enthalten. Ein SAS-URI ermöglicht dem Speech-Dienst die direkte Ausgabe der Transkriptionsdateien an den Containerspeicherort. Wenn Ihre Organisation die Verwendung von SAS-URIs für Speicher nicht erlaubt, müssen Sie eine Funktion implementieren, die regelmäßig vollständige Ressourcen von der Spracherkennungs-API abfragt.
  • Anmeldeinformationen wie Konto- oder API-Schlüssel sollten in Azure Key Vault als Geheimnisse gespeichert werden. Konfigurieren Sie Ihre Logic Apps- und Azure Synapse-Pipelines für den Zugriff auf den Schlüsseltresor anhand verwalteter Identitäten, damit Geheimnisse nicht in den Anwendungseinstellungen oder im Code gespeichert werden müssen.
  • Die im Blob gespeicherten Audiodateien können vertrauliche Kundendaten enthalten. Wenn diese Lösung von mehreren Clients genutzt wird, muss der Zugriff auf diese Dateien eingeschränkt werden. Verwenden Sie einen hierarchischen Namespace für das Speicherkonto, und erzwingen Sie Berechtigungen auf Ordner- und Dateiebene, um den Zugriff nur auf die erforderliche Microsoft Entra-Instanz zu beschränken.

Kostenoptimierung

Bei der Kostenoptimierung geht es um die Suche nach Möglichkeiten, unnötige Ausgaben zu reduzieren und die Betriebseffizienz zu verbessern. Weitere Informationen finden Sie unter Übersicht über die Säule „Kostenoptimierung“.

Für alle in dieser Architektur beschriebenen Azure-Dienste ist eine Option für die nutzungsbasierte Bezahlung verfügbar, sodass die Kosten der Lösung linear zum Bedarf zu- und abnehmen.

Azure Synapse bietet eine Option für serverlose SQL-Pools, bei der die Computeressourcen für die Data Warehousing-Workload nach Bedarf gestartet werden können. Wenn Sie Azure Synapse nicht für andere nachgelagerte Anwendungsfälle nutzen, sollten Sie die Verwendung der serverlosen Option erwägen, um die Kosten zu reduzieren.

Weitere Strategien zur Kostenoptimierung finden Sie unter Übersicht über die Säule „Kostenoptimierung“.

Verwenden Sie den Azure-Preisrechner, um die Kosten für die hier vorgeschlagenen Dienste abzuschätzen.

Effiziente Leistung

Leistungseffizienz ist die Fähigkeit Ihrer Workload, auf effiziente Weise eine den Anforderungen der Benutzer entsprechende Skalierung auszuführen. Weitere Informationen finden Sie unter Übersicht über die Säule „Leistungseffizienz“.

Die Batch-Spracherkennungs-API ist für große Mengen konzipiert. Bei anderen Azure KI Services-APIs gelten jedoch möglicherweise Anforderungsgrenzwerte für die einzelnen Abonnementebenen. Erwägen Sie, diese APIs zu containerisieren, um eine Drosselung bei der Verarbeitung großer Datenmengen zu vermeiden. Container erhöhen die Flexibilität bei der Bereitstellung – in der Cloud oder lokal. Sie können Container auch verwenden, um die Nebenwirkungen der Einführung neuer Versionen abzumildern. Weitere Informationen finden Sie unter Containerunterstützung in Azure KI Services.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautoren:

Andere Mitwirkende:

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Nächste Schritte