Omówienie rozpoznawania i syntezy mowy

Ukończone

Rozpoznawanie mowy przyjmuje słowo mówione i konwertuje je na dane, które można przetworzyć — często przez transkrypcję w tekst. Wypowiedziane słowa mogą być w formie nagranego głosu w pliku audio lub dźwięku na żywo z mikrofonu. Wzorce mowy są analizowane w dźwięku w celu określenia rozpoznawalnych wzorców mapowanych na wyrazy. W tym celu oprogramowanie zwykle używa wielu modeli, w tym:

  • Model akustyczny , który konwertuje sygnał dźwiękowy na fonemy (reprezentacje konkretnych dźwięków).
  • Model językowy, który mapuje fonemy na słowa, zwykle przy użyciu algorytmu statystycznego, który przewiduje najbardziej prawdopodobną sekwencję słów na podstawie fonemów.

Rozpoznane wyrazy są zwykle konwertowane na tekst, którego można używać w różnych celach, takich jak:

  • Zapewnianie zamkniętych podpis dla nagranych lub wideo na żywo
  • Tworzenie transkrypcji rozmowy telefonicznej lub spotkania
  • Automatyczne dyktowanie notatek
  • Określanie zamierzonych danych wejściowych użytkownika do dalszego przetwarzania

Synteza mowy jest zaniepokojona wokalizacją danych, zwykle przez konwertowanie tekstu na mowę. Rozwiązanie syntezy mowy zwykle wymaga następujących informacji:

  • Tekst, który ma być wypowiadany
  • Głos, który ma być używany do wokalizacji mowy

Aby syntetyzować mowę, system zazwyczaj tokenizuje tekst, aby podzielić go na poszczególne wyrazy, i przypisuje dźwięki fonetyczne do każdego słowa. Następnie dzieli transkrypcję fonetyczną na jednostki prozodyczne (takie jak frazy, klauzule lub zdania), aby utworzyć fonetyczne jednostki, które zostaną przekonwertowane na format audio. Te fonemy są następnie syntetyzowane jako dźwięk i mogą być przypisane do określonego głosu, szybkości mówienia, skoku i głośności.

Do wielu celów można użyć danych wyjściowych syntezy mowy, w tym:

  • Generowanie odpowiedzi mówionych na dane wejściowe użytkownika
  • Tworzenie menu głosowych dla systemów telefonicznych
  • Odczytywanie wiadomości e-mail lub wiadomości SMS na głos w scenariuszach bezobsługowych
  • Ogłoszenia emisji w miejscach publicznych, takich jak stacje kolejowe lub lotniska