Podsumowanie

Ukończone

Uwaga / Notatka

Aby uzyskać więcej szczegółów, zobacz kartę Tekst i obrazy .

W tym module przedstawiono rozpoznawanie mowy (zamiana mowy na tekst) jako podstawy dla aplikacji i agentów z obsługą głosu. Uczniowie badają, jak dźwięk mówiony jest przechwytywany z mikrofonu lub pliku audio i konwertowany na napisany tekst przy użyciu usługi Azure Speech. W module wyjaśniono, gdzie zamiana mowy na tekst pasuje do aplikacji — w aplikacji klienckiej lub w usłudze zaplecza — oraz wyróżnia typowe scenariusze, takie jak transkrypcja na żywo, transkrypcje, przetwarzanie poczty głosowej i dostarczanie tekstu agentom sztucznej inteligencji.

Następnie moduł obejmuje syntezę mowy (zamiana tekstu na mowę), która umożliwia aplikacjom generowanie dźwięku mówionego naturalnie brzmiącego na podstawie tekstu. Uczniowie zobaczą, jak usługa Azure Speech używa neuronowych głosów do kontrolowania wymowy, tonu, szybkości i wysokości oraz sposobu natychmiastowego odtwarzania syntetyzowanego dźwięku lub zapisywania go do późniejszego użycia. W tej sekcji opisano, jak zamiana tekstu na mowę umożliwia aplikacjom i agentom reagowanie na głos, poprawę ułatwień dostępu, interakcję bez rąk i ogólne środowisko użytkownika.

Na koniec moduł integruje te możliwości, umożliwiając zamianę mowy na mowę z wykorzystaniem funkcji Voice Live. Uczniowie odkrywają, jak funkcja Voice Live łączy mowę z tekstem, rozumowaniem sztucznej inteligencji i zamianą tekstu na mowę w jedną, w pełni zarządzaną usługę na potrzeby konwersacji w czasie rzeczywistym. Zamiast łączyć wiele składników, deweloperzy mogą używać usługi Voice Live do tworzenia dynamicznych, naturalnych agentów głosowych, którzy mogą słuchać, myśleć i mówić — co ułatwia tworzenie środowisk konwersacyjnych gotowych do produkcji za pomocą usług Azure Speech i Microsoft Foundry.

Skorzystaj z poniższych linków, aby dowiedzieć się więcej.