Co to jest zamiana mowy na tekst?

W tym omówieniu poznasz korzyści i możliwości funkcji zamiany mowy na tekst w usłudze Mowa, która jest częścią usług Azure AI. Zamiana mowy na tekst może służyć do transkrypcji w czasie rzeczywistym lub transkrypcji wsadowej strumieni audio do tekstu.

Uwaga

Aby porównać ceny transkrypcji w czasie rzeczywistym z transkrypcji wsadowej, zobacz Cennik usługi Mowa.

Aby uzyskać pełną listę dostępnych języków mowy w językach tekstowych, zobacz Obsługa języka i głosu.

Zamiana mowy w czasie rzeczywistym na tekst

W przypadku zamiany mowy w czasie rzeczywistym na tekst dźwięk jest transkrypowany w miarę rozpoznawania mowy z mikrofonu lub pliku. Zamiana mowy w czasie rzeczywistym na tekst dla aplikacji, które muszą transkrybować dźwięk w czasie rzeczywistym, na przykład:

Zamiana mowy w czasie rzeczywistym na tekst jest dostępna za pośrednictwem zestawu SPEECH SDK i interfejsu wiersza polecenia usługi Mowa.

Transkrypcja wsadowa

Transkrypcja wsadowa służy do transkrypcji dużej ilości dźwięku w magazynie. Możesz wskazać pliki audio z identyfikatorem URI sygnatury dostępu współdzielonego (SAS) i asynchronicznie odbierać wyniki transkrypcji. Użyj transkrypcji wsadowej dla aplikacji, które muszą zbiorczo transkrybować dźwięk, na przykład:

  • Transkrypcje, podpis lub napisy dla wstępnie utworzonego dźwięku
  • Analiza po wywołaniu centrum kontaktów
  • Diarization (Diarization)

Transkrypcja wsadowa jest dostępna za pośrednictwem:

Mowa niestandardowa

Dzięki usłudze Custom Speech można ocenić i poprawić dokładność rozpoznawania mowy dla aplikacji i produktów. Niestandardowy model mowy może służyć do zamiany mowy w czasie rzeczywistym na tekst, tłumaczenie mowy i transkrypcję wsadową.

Napiwek

Hostowany punkt końcowy wdrożenia nie jest wymagany do używania mowy niestandardowej z interfejsem API transkrypcji usługi Batch. Zasoby można oszczędzać, jeśli niestandardowy model mowy jest używany tylko do transkrypcji wsadowej. Aby uzyskać więcej informacji, zobacz Cennik usługi Mowa.

Funkcja rozpoznawania mowy korzysta z modelu uniwersalnego języka jako modelu podstawowego, który jest trenowany przy użyciu danych należących do firmy Microsoft i odzwierciedla powszechnie używany język mówiony. Model podstawowy jest wstępnie wytrenowany dialektami i fonetykami reprezentującymi różne typowe domeny. Podczas tworzenia żądania rozpoznawania mowy najnowszy model podstawowy dla każdego obsługiwanego języka jest używany domyślnie. Model podstawowy działa dobrze w większości scenariuszy rozpoznawania mowy.

Model niestandardowy może służyć do rozszerzania modelu podstawowego w celu poprawy rozpoznawania słownictwa specyficznego dla domeny specyficznego dla aplikacji, dostarczając dane tekstowe do trenowania modelu. Może również służyć do ulepszania rozpoznawania na podstawie określonych warunków dźwiękowych aplikacji, dostarczając dane audio z transkrypcjami referencyjnymi. Aby uzyskać więcej informacji, zobacz custom speech and Speech to text REST API (Interfejs API REST tłumaczenia mowy niestandardowej i zamiany mowy na tekst).

Opcje dostosowywania różnią się w zależności od języka lub ustawień regionalnych. Aby zweryfikować obsługę, zobacz Obsługa języka i głosu dla usługi Mowa.

Odpowiedzialne AI

System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które go używają, osoby, których to dotyczy, oraz środowisko, w którym jest wdrażane. Zapoznaj się z uwagami dotyczącymi przejrzystości, aby dowiedzieć się więcej na temat odpowiedzialnego używania sztucznej inteligencji i wdrażania w systemach.

Następne kroki