Udostępnij za pośrednictwem


Odtwarzanie dźwięku w wywołaniu

Akcja odtwarzania udostępniona za pośrednictwem zestawu SDK usługi Azure Communication Services Call Automation umożliwia odtwarzanie monitów dźwiękowych uczestnikom połączenia. Dostęp do tej akcji można uzyskać za pośrednictwem implementacji aplikacji po stronie serwera. Możesz odtwarzać dźwięk, aby wywoływać uczestników za pomocą jednej z dwóch metod;

  • Zapewnienie usług Azure Communication Services dostępu do wstępnie zapisanych plików audio w formacie WAV, do których usługi Azure Communication Services mogą uzyskiwać dostęp z obsługą uwierzytelniania
  • Zwykły tekst, który można przekonwertować na dane wyjściowe mowy za pośrednictwem integracji z usługami Azure AI.

Nowo ogłoszona integracja między usługami Azure Communication Services i Azure AI umożliwia odtwarzanie spersonalizowanych odpowiedzi przy użyciu usługi Azure Text-To-Speech. Możesz użyć ludzkich, takich jak wstępnie utworzone neuronowe głosy gotowe do użycia, lub utworzyć niestandardowe neuronowe głosy, które są unikatowe dla twojego produktu lub marki. Aby uzyskać więcej informacji na temat obsługiwanych głosów, języków i ustawień regionalnych, zobacz Obsługa języka i głosu dla usługi Mowa.

Uwaga

Usługi Azure Communication Services obsługują obecnie dwa formaty plików, pliki MP3 z plikami ID3V2TAG i WAV sformatowanymi jako 16-bitowy dźwięk kanału mono PCM zarejestrowany na 16KHz. Możesz utworzyć własne pliki audio przy użyciu syntezy mowy za pomocą narzędzia do tworzenia zawartości audio.

Wstępnie utworzony tekst neuronowy na głosy mowy

Firma Microsoft wykorzystuje głębokie sieci neuronowe do przezwyciężenia ograniczeń tradycyjnej syntezy mowy w odniesieniu do stresu i intonacji w języku mówionym. Przewidywanie prosody i synteza głosu występują jednocześnie, co skutkuje bardziej płynnym i naturalnym dźwiękowym wyjściem. Możesz użyć tych neuronowych głosów, aby interakcje z czatbotami i asystentami głosowymi były bardziej naturalne i angażujące. Istnieje ponad 100 wstępnie utworzonych głosów do wyboru. Dowiedz się więcej o głosach zamiany tekstu na mowę platformy Azure.

Typowe przypadki użycia

Akcja odtwarzania może być używana na wiele sposobów, niektóre przykłady sposobu, w jaki deweloperzy mogą chcieć używać akcji odtwarzania w swoich aplikacjach, są wymienione tutaj.

Anonsy

Aplikacja może chcieć odtworzyć jakiś anons, gdy uczestnik dołączy lub opuści połączenie, aby powiadomić innych użytkowników.

Klienci samoobsługowi

W scenariuszach z funkcjami IVR i asystentami wirtualnymi możesz użyć aplikacji lub botów do odtwarzania monitów audio do rozmówców, ten monit może być w formie menu, aby kierować obiekt wywołujący za pośrednictwem ich interakcji.

Przytrzymaj muzykę

Akcja odtwarzania może być również używana do odtwarzania muzyki dla rozmówców. Tę akcję można skonfigurować w pętli, tak aby muzyka grała, dopóki agent nie będzie dostępny, aby pomóc rozmówcowi.

Odtwarzanie komunikatów dotyczących zgodności

W ramach wymagań dotyczących zgodności w różnych branżach oczekuje się, że dostawcy będą odgrywać komunikaty prawne lub dotyczące zgodności z obiektami wywołującym, na przykład "To wywołanie jest rejestrowane w celach jakościowych".

Przykładowa architektura odtwarzania dźwięku w wywołaniu przy użyciu zamiany tekstu na mowę

Diagram przedstawiający przykładową architekturę do odtwarzania ze sztuczną inteligencją.

Przykładowa architektura odtwarzania dźwięku w wywołaniu

Zrzut ekranu przedstawiający przepływ akcji odtwarzania.

Znane ograniczenia

  • Monity tekstowe zamiany tekstu na mowę obsługują maksymalnie 400 znaków, jeśli monit jest dłuższy niż sugerujemy użycie języka SSML dla akcji odtwarzania opartych na zamianie tekstu na mowę.
  • W przypadku scenariuszy, w których przekroczono limit przydziału usługi Mowa, możesz poprosić o zwiększenie tego limitu, wykonując kroki opisane tutaj.

Następne kroki