Wprowadzenie

Ukończone

W coraz większym stopniu oczekujemy, że do akceptowania poleceń Vocal i dostarczania wypowiadanych odpowiedzi są używane rozwiązania sztucznej analizy. Weź pod uwagę rosnącą liczbę systemów domowych i Autostart, które możesz kontrolować, mówiąc do ich poleceń, takich jak "Wyłącz lampki" i wysyłając odpowiedzi na takie pytania, jak "czy odpada dzisiaj?".

Aby włączyć ten rodzaj interakcji, system AI musi obsługiwać dwie możliwości:

  • Rozpoznawanie mowy — możliwość wykrywania i interpretowania mówionych danych wejściowych.
  • Synteza mowy — możliwość generowania wypowiadanych danych wyjściowych.

Rozpoznawanie mowy

Funkcja rozpoznawania mowy jest zaangażowana w Robienie słowa wypowiadanego i konwertowanie go na dane, które mogą być przetwarzane — często przez jego przepisywania je do prezentacji tekstowej. Słowa mówione mogą być w postaci zapisanego głosu w pliku audio lub na żywo audio z mikrofonu. Wzorce mowy są analizowane w dźwięku w celu określenia rozpoznawalnych wzorców, które są mapowane na słowa. Aby osiągnąć ten wyczyn, oprogramowanie zwykle używa wielu typów modeli, w tym:

  • Model akustycznego, który konwertuje sygnał audio na fonemów (reprezentacje określonych dźwięków).
  • Model języka, który mapuje fonemów na wyrazy, zwykle wykorzystując algorytm Statystyczny, który przewiduje najbardziej prawdopodobną sekwencję wyrazów w oparciu o fonemów.

Rozpoznane słowa są zwykle konwertowane na tekst, którego można użyć do różnych celów, takich jak.

  • Udostępnianie podpisów kodowanych lub filmów wideo na żywo
  • Tworzenie transkrypcji rozmowy telefonicznej lub spotkania
  • Automatyczne Dyktowanie notatek
  • Określanie zamierzonych danych wejściowych użytkownika do dalszej obróbki

Synteza mowy

Synteza mowy jest w wielu odniesieniu do funkcji rozpoznawania mowy. Jest on rozpatrywany z danymi vocalizing, zwykle przez konwertowanie tekstu na mowę. Rozwiązanie syntezy mowy zwykle wymaga następujących informacji:

  • Tekst, który ma być wypowiadany.
  • Głos używany do vocalize mowy.

Aby wytłumaczyć mowę, system zwykle tokenizes tekst, aby podzielić go na poszczególne wyrazy i przypisywać dźwięki fonetyczne do każdego wyrazu. Następnie powoduje przerwanie transkrypcji fonetycznej do jednostek granicę prozodyczną (takich jak frazy, klauzule lub zdania) do tworzenia fonemów, który zostanie przekonwertowany na format audio. Te fonemów są następnie wystawione jako dźwięk przez zastosowanie głosu, który określi parametry takie jak gęstość i Timbre; i generując formularz Wave audio, który może być wyjściem lub zapisaniem w pliku.

Możesz użyć danych wyjściowych syntezy mowy w wielu celach, takich jak:

  • Generowanie wypowiadanych odpowiedzi na dane wejściowe użytkownika.
  • Tworzenie menu głosowego dla systemów telefonicznych.
  • Odczytywanie wiadomości e-mail lub komunikatów SMS na głos w scenariuszach bezpłatnych.
  • Emitowanie anonsów w miejscach publicznych, takich jak stacje kolejek lub porty lotnicze.