Wiedergeben von Audiodaten in einem Anruf

2025-06-05

Mit der Wiedergabeaktion, die über das Azure Communication Services Call Automation SDK bereitgestellt wird, können Sie Audioaufforderungen für Teilnehmende im Anruf wiedergeben. Auf diese Aktion kann über die serverseitige Implementierung Ihrer Anwendung zugegriffen werden. Sie können Audio wiedergeben, um Teilnehmende über eine von zwei Methoden anzurufen:

Bereitstellen von Azure Communication Services-Zugriff auf vorab aufgezeichnete Audiodateien im WAV-Format, auf die Azure Communication Services mit Unterstützung für die Authentifizierung zugreifen kann.
Regulärer Text, der über die Integration in Azure KI Services in eine Sprachausgabe konvertiert werden kann.

Sie können die neu angekündigte Integration von Azure Communication Services und Azure KI Services verwenden, um personalisierte Antworten mithilfe von Azure Sprachsynthesewiederzugeben. Sie können menschlich klingende, vordefinierte neuronale Stimmen verwenden oder eine benutzerdefinierte neuronale Stimme speziell für Ihr Produkt oder Ihre Marke erstellen. Weitere Informationen zu unterstützten Stimmen, Sprachen und Gebietsschemata finden Sie unter Sprach- und Stimmunterstützung für den Speech-Dienst.

Hinweis

Azure Communication Services unterstützt derzeit zwei Dateiformate, MP3-Dateien mit ID3V2TAG- und WAV-Dateien, die als 16-Bit Pulse Code Modulation (PCM)-Monokanalaudio mit 16 KHz aufgezeichnet wurden. Sie können Ihre eigenen Audiodateien mithilfe der Sprachsynthese mit dem Tool zur Audioinhaltserstellung erstellen.

Vordefinierte neuronale Stimmen für die Sprachsynthese

Microsoft verwendet erweitertes maschinelles Lernen, um die Grenzen der herkömmlichen Sprachsynthese bei der Behandlung von Stress und Intonation in gesprochener Sprache zu überwinden. Prosody-Vorhersage und Sprachsynthese erfolgen gleichzeitig, was zu einer flüssigeren und natürlicher klingenden Ausgabe führt. Sie können diese neuronalen Stimmen verwenden, um Interaktionen mit Chatbots und Sprachassistenten natürlicher und ansprechender zu gestalten. Es stehen über 100 vorgefertigte Stimmen zur Auswahl. Erfahren Sie mehr über Stimmen für die Azure Sprachsynthese.

Gängige Anwendungsfälle

Es gibt zahlreiche Möglichkeiten zur Verwendung der Wiedergabeaktion. Nachfolgend finden Sie einige Beispiele dafür, wie Fachkräfte in der Entwicklung die Wiedergabeaktion ggf. in ihren Anwendungen einsetzen.

Ankündigungen

Ihre Anwendung soll möglicherweise eine Art Ankündigung wiedergeben, wenn ein Teilnehmer dem Anruf beitritt oder den Anruf verlässt, um andere Benutzer zu informieren.

Self-Service-Kunden

In Szenarien mit IvR-Systemen (Interactive Voice Response) und virtuellen Assistenten können Sie Ihre Anwendung oder Bots verwenden, um Audioaufforderungen für Anrufer wiederzugeben. Diese Eingabeaufforderung kann sich in Form eines Menüs befinden, um den Anrufer durch ihre Interaktion zu leiten.

Warteschleifenmusik

Die Wiedergabeaktion kann auch zum Wiedergeben von Warteschleifenmusik für Anrufer verwendet werden. Diese Aktion kann als Schleife eingerichtet werden, damit die Musik so lange wiedergegeben wird, bis ein Mitarbeiter für den Anrufer verfügbar ist.

Wiedergeben von Compliancehinweisen

Im Rahmen der Complianceanforderungen in verschiedenen Branchen wird erwartet, dass Anbieter rechtliche oder Compliance-Meldungen an Anrufer wiedergeben, z. B. "Dieser Anruf wird zu Qualitätszwecken aufgezeichnet.".

Beispielarchitektur für die Wiedergabe von Audio im Anruf mithilfe der Sprachsynthese

Diagramm mit Beispielarchitektur für „Wiedergabe mit KI“.

Beispielarchitektur für die Audiowiedergabe in einem Anruf

Screenshot: Flow für Wiedergabeaktion

Bekannte Einschränkungen

Text-zu-Sprache-Eingabeaufforderungen unterstützen maximal 4.000 Zeichen. Wenn Ihre Eingabeaufforderung länger als dieser Grenzwert ist, empfehlen wir die Verwendung von Speech Synthesis Markup Language (SSML) für Text-zu-Sprache-basierte Wiedergabeaktionen.
HD-Stimmen aus Azure AI Foundry werden nicht offiziell unterstützt. Die Verwendung dieser Stimmen führt zu Timeouts.
Sie können in Szenarien, in denen Sie Ihre Kontingentgrenze für den Speech-Dienst überschreiten, eine Erhöhung dieses Grenzwerts anfordern, indem Sie die hier beschriebenen Schritte ausführen.

Nächste Schritte

Sehen Sie sich unsere Schrittanleitung an, um zu erfahren, wie Sie benutzerdefinierte Sprachansagen für Benutzer*innen wiedergeben.
Erfahren Sie mehr über Nutzungs- und Betriebsprotokolle, die von der Anrufautomatisierung veröffentlicht wurden.
Erfahren Sie mehr über das Sammeln von Kundeneingaben.