Odtwarzanie dźwięku w wywołaniu

2025-06-05

Akcja odtwarzania udostępniona za pośrednictwem zestawu SDK usługi Azure Communication Services Call Automation umożliwia odtwarzanie monitów dźwiękowych uczestnikom połączenia. Dostęp do tej akcji można uzyskać za pośrednictwem implementacji aplikacji po stronie serwera. Możesz odtwarzać dźwięk, aby wywoływać uczestników za pomocą jednej z dwóch metod;

Zapewnianie usług Azure Communication Services dostępu do wstępnie zapisanych plików audio w formacie WAV, do których usługi Azure Communication Services mogą uzyskiwać dostęp z obsługą uwierzytelniania.
Zwykły tekst, który można przekonwertować na dane wyjściowe mowy za pośrednictwem integracji z usługami Azure AI.

Nowo ogłoszona integracja między usługami Azure Communication Services i Azure AI umożliwia odtwarzanie spersonalizowanych odpowiedzi przy użyciu usługi Azure Text-To-Speech. Możesz użyć ludzkich, takich jak wstępnie utworzone neuronowe głosy gotowe do użycia, lub utworzyć niestandardowe neuronowe głosy, które są unikatowe dla twojego produktu lub marki. Aby uzyskać więcej informacji na temat obsługiwanych głosów, języków i ustawień regionalnych, zobacz Obsługa języka i głosu dla usługi Mowa.

Uwaga

Usługi Azure Communication Services obsługują obecnie dwa formaty plików: pliki MP3 z tagami ID3V2 oraz pliki WAV sformatowane jako 16-bitowe modulowanie kodu impulsowego (PCM) audio kanału mono, z częstotliwością próbkowania 16 kHz. Możesz utworzyć własne pliki audio przy użyciu syntezy mowy za pomocą narzędzia do tworzenia zawartości audio.

Wstępnie utworzony tekst neuronowy na głosy mowy

Firma Microsoft wykorzystuje zaawansowane uczenie maszynowe do przezwyciężenia ograniczeń tradycyjnej syntezy mowy w obsłudze stresu i intonacji w języku mówionym. Przewidywanie prosody i synteza głosu występują jednocześnie, co skutkuje bardziej płynnym i naturalnym dźwiękowym wyjściem. Możesz użyć tych neuronowych głosów, aby interakcje z czatbotami i asystentami głosowymi były bardziej naturalne i angażujące. Istnieje ponad 100 wstępnie utworzonych głosów do wyboru. Dowiedz się więcej o głosach zamiany tekstu na mowę platformy Azure.

Typowe przypadki użycia

Akcja odtwarzania może być używana na wiele sposobów, niektóre przykłady sposobu, w jaki deweloperzy mogą chcieć używać akcji odtwarzania w swoich aplikacjach, są wymienione tutaj.

Anonsy

Aplikacja może chcieć odtworzyć jakiś anons, gdy uczestnik dołączy lub opuści połączenie, aby powiadomić innych użytkowników.

Klienci samoobsługowi

W scenariuszach z systemami interaktywnej odpowiedzi głosowej (IVR) i asystentami wirtualnymi możesz użyć aplikacji lub botów do odtwarzania monitów dźwiękowych dla rozmówców, przy czym te monity mogą być w formie menu, które poprowadzą rozmówcę przez ich interakcję.

Przytrzymaj muzykę

Akcja odtwarzania może być również używana do odtwarzania muzyki dla rozmówców. Tę akcję można skonfigurować w pętli, tak aby muzyka grała, dopóki agent nie będzie dostępny, aby pomóc rozmówcowi.

Odtwarzanie komunikatów dotyczących zgodności

W ramach wymagań dotyczących zgodności w różnych branżach oczekuje się, że dostawcy będą odtwarzać komunikaty dotyczące zgodności lub przestrzegania przepisów dla osób dzwoniących, na przykład "Ta rozmowa jest rejestrowana dla zapewnienia jakości".

Przykładowa architektura odtwarzania dźwięku w wywołaniu przy użyciu zamiany tekstu na mowę

Diagram przedstawiający przykładową architekturę do odtwarzania ze sztuczną inteligencją.

Przykładowa architektura odtwarzania dźwięku w wywołaniu

Zrzut ekranu przedstawiający przepływ akcji odtwarzania.

Znane ograniczenia

Opcje zamiany tekstu na mowę obsługują maksymalnie 4000 znaków. Jeśli monit jest dłuższy niż ten limit, sugerujemy użycie języka SSML (Speech Synthesis Markup Language) dla akcji odtwarzania opartych na zamianie tekstu na mowę.
Głosy HD z usługi Azure AI Foundry nie są oficjalnie obsługiwane. Użycie tych głosów powoduje przekroczenie limitu czasu.
W przypadku scenariuszy, w których przekroczono limit przydziału usługi Mowa, możesz poprosić o zwiększenie tego limitu, wykonując kroki opisane tutaj.

Następne kroki

Zapoznaj się z naszym przewodnikiem z instrukcjami, aby dowiedzieć się , jak odtwarzać niestandardowe monity głosowe dla użytkowników.
Dowiedz się więcej o użyciu i dziennikach operacyjnych opublikowanych przez automatyzację wywołań.
Dowiedz się więcej o zbieraniu danych wejściowych klientów.