Wiedergeben von Audiodaten in einem Anruf

Artikel
03/05/2024

Mit der Wiedergabeaktion, die über das Azure Communication Services Call Automation SDK bereitgestellt wird, können Sie Audioaufforderungen für Teilnehmende im Anruf wiedergeben. Auf diese Aktion kann über die serverseitige Implementierung Ihrer Anwendung zugegriffen werden. Sie können Audio wiedergeben, um Teilnehmende über eine von zwei Methoden anzurufen:

Bereitstellen von Azure Communication Services-Zugriff auf vorab im WAV-Format aufgezeichnete Audiodateien, auf die Azure Communication Services mit Unterstützung für die Authentifizierung zugreifen kann
Regulärer Text, der über die Integration in Azure KI Services in eine Sprachausgabe konvertiert werden kann.

Sie können die neu angekündigte Integration von Azure Communication Services und Azure KI Services verwenden, um personalisierte Antworten mithilfe von Azure Sprachsynthesewiederzugeben. Sie können menschlich klingende, vordefinierte neuronale Stimmen verwenden oder eine benutzerdefinierte neuronale Stimme speziell für Ihr Produkt oder Ihre Marke erstellen. Weitere Informationen zu unterstützten Stimmen, Sprachen und Gebietsschemata finden Sie unter Sprach- und Stimmunterstützung für den Speech-Dienst.

Hinweis

Azure Communication Services unterstützt derzeit zwei Dateiformate: MP3-Dateien mit ID3V2TAG und WAV-Dateien, die als 16-Bit-PCM-Monokanalaudio mit 16 kHz aufgezeichnet wurden. Sie können Ihre eigenen Audiodateien mithilfe der Sprachsynthese mit dem Tool zur Audioinhaltserstellung erstellen.

Vordefinierte neuronale Stimmen für die Sprachsynthese

Microsoft verwendet tiefe neuronale Netzwerke, um die Grenzen der herkömmlichen Sprachsynthese in Bezug auf Betonung und Intonation in gesprochener Sprache zu überwinden. Prosody-Vorhersage und Sprachsynthese erfolgen gleichzeitig, was zu einer flüssigeren und natürlicher klingenden Ausgabe führt. Sie können diese neuronalen Stimmen verwenden, um Interaktionen mit Chatbots und Sprachassistenten natürlicher und ansprechender zu gestalten. Es stehen über 100 vorgefertigte Stimmen zur Auswahl. Erfahren Sie mehr über Stimmen für die Azure Sprachsynthese.

Gängige Anwendungsfälle

Es gibt zahlreiche Möglichkeiten zur Verwendung der Wiedergabeaktion. Nachfolgend finden Sie einige Beispiele dafür, wie Fachkräfte in der Entwicklung die Wiedergabeaktion ggf. in ihren Anwendungen einsetzen.

Ankündigungen

Ihre Anwendung soll möglicherweise eine Art Ankündigung wiedergeben, wenn ein Teilnehmer dem Anruf beitritt oder den Anruf verlässt, um andere Benutzer zu informieren.

Self-Service-Kunden

In Szenarien mit IVRs und virtuellen Assistenten können Sie mithilfe Ihrer Anwendung oder Bots Audioaufforderungen für Anrufer wiedergeben. Diese Aufforderung kann die Form eines Menüs aufweisen, um den Anrufer durch die entsprechenden Interaktionen zu leiten.

Warteschleifenmusik

Die Wiedergabeaktion kann auch zum Wiedergeben von Warteschleifenmusik für Anrufer verwendet werden. Diese Aktion kann als Schleife eingerichtet werden, damit die Musik so lange wiedergegeben wird, bis ein Mitarbeiter für den Anrufer verfügbar ist.

Wiedergeben von Compliancehinweisen

Im Rahmen der Complianceanforderungen in verschiedenen Branchen wird von Anbietern erwartet, dass sie den Anrufenden rechtliche Hinweise oder Compliancehinweise vorspielen, etwa „Dieser Anruf wird zu Qualitätszwecken aufgezeichnet“.

Beispielarchitektur für die Wiedergabe von Audio im Anruf mithilfe der Sprachsynthese

Diagramm mit Beispielarchitektur für „Wiedergabe mit KI“.

Beispielarchitektur für die Audiowiedergabe in einem Anruf

Screenshot: Flow für Wiedergabeaktion

Bekannte Einschränkungen

In Textprompts für die Sprachsynthese werden maximal 400 Zeichen unterstützen. Wenn Ihr Prompt länger ist, wird die Verwendung von SSML für Sprachsynthese-Wiedergabeaktionen empfohlen.
Sie können in Szenarien, in denen Sie Ihre Kontingentgrenze für den Speech-Dienst überschreiten, eine Erhöhung dieses Grenzwerts anfordern, indem Sie die hier beschriebenen Schritte ausführen.

Nächste Schritte

Sehen Sie sich unsere Schrittanleitung an, um zu erfahren, wie Sie benutzerdefinierte Sprachansagen für Benutzer*innen wiedergeben.
Erfahren Sie mehr über Nutzungs- und Betriebsprotokolle, die von der Anrufautomatisierung veröffentlicht wurden.
Erfahren Sie mehr über das Sammeln von Kundeneingaben.

Teilen über