Co to jest zamiana mowy na tekst?

Artykuł
01/22/2024

W tym omówieniu poznasz korzyści i możliwości funkcji zamiany mowy na tekst w usłudze Mowa, która jest częścią usług Azure AI. Zamiana mowy na tekst może służyć do transkrypcji w czasie rzeczywistym lub transkrypcji wsadowej strumieni audio do tekstu.

Uwaga

Aby porównać ceny transkrypcji w czasie rzeczywistym z transkrypcji wsadowej, zobacz Cennik usługi Mowa.

Aby uzyskać pełną listę dostępnych języków mowy w językach tekstowych, zobacz Obsługa języka i głosu.

Zamiana mowy w czasie rzeczywistym na tekst

W przypadku zamiany mowy w czasie rzeczywistym na tekst dźwięk jest transkrypowany w miarę rozpoznawania mowy z mikrofonu lub pliku. Zamiana mowy w czasie rzeczywistym na tekst dla aplikacji, które muszą transkrybować dźwięk w czasie rzeczywistym, na przykład:

Transkrypcje, podpis lub napisy na potrzeby spotkań na żywo
Diarization (Diarization)
Ocena wymowy
Pomoc dla agentów centrum kontaktowego
Dyktowanie
Agenci głosowi

Zamiana mowy w czasie rzeczywistym na tekst jest dostępna za pośrednictwem zestawu SPEECH SDK i interfejsu wiersza polecenia usługi Mowa.

Transkrypcja wsadowa

Transkrypcja wsadowa służy do transkrypcji dużej ilości dźwięku w magazynie. Możesz wskazać pliki audio z identyfikatorem URI sygnatury dostępu współdzielonego (SAS) i asynchronicznie odbierać wyniki transkrypcji. Użyj transkrypcji wsadowej dla aplikacji, które muszą zbiorczo transkrybować dźwięk, na przykład:

Transkrypcje, podpis lub napisy dla wstępnie utworzonego dźwięku
Analiza po wywołaniu centrum kontaktów
Diarization (Diarization)

Transkrypcja wsadowa jest dostępna za pośrednictwem:

Interfejs API REST zamiany mowy na tekst: aby rozpocząć pracę, zobacz Jak używać transkrypcji wsadowej i przykładów transkrypcji wsadowych (REST).
Interfejs wiersza polecenia usługi Mowa obsługuje zarówno transkrypcję w czasie rzeczywistym, jak i wsadową. Aby uzyskać pomoc dotyczącą transkrypcji wsadowych interfejsu wiersza polecenia usługi Mowa, uruchom następujące polecenie:
```
spx help batch transcription
```

Mowa niestandardowa

Dzięki usłudze Custom Speech można ocenić i poprawić dokładność rozpoznawania mowy dla aplikacji i produktów. Niestandardowy model mowy może służyć do zamiany mowy w czasie rzeczywistym na tekst, tłumaczenie mowy i transkrypcję wsadową.

Napiwek

Hostowany punkt końcowy wdrożenia nie jest wymagany do używania mowy niestandardowej z interfejsem API transkrypcji usługi Batch. Zasoby można oszczędzać, jeśli niestandardowy model mowy jest używany tylko do transkrypcji wsadowej. Aby uzyskać więcej informacji, zobacz Cennik usługi Mowa.

Funkcja rozpoznawania mowy korzysta z modelu uniwersalnego języka jako modelu podstawowego, który jest trenowany przy użyciu danych należących do firmy Microsoft i odzwierciedla powszechnie używany język mówiony. Model podstawowy jest wstępnie wytrenowany dialektami i fonetykami reprezentującymi różne typowe domeny. Podczas tworzenia żądania rozpoznawania mowy najnowszy model podstawowy dla każdego obsługiwanego języka jest używany domyślnie. Model podstawowy działa dobrze w większości scenariuszy rozpoznawania mowy.

Model niestandardowy może służyć do rozszerzania modelu podstawowego w celu poprawy rozpoznawania słownictwa specyficznego dla domeny specyficznego dla aplikacji, dostarczając dane tekstowe do trenowania modelu. Może również służyć do ulepszania rozpoznawania na podstawie określonych warunków dźwiękowych aplikacji, dostarczając dane audio z transkrypcjami referencyjnymi. Aby uzyskać więcej informacji, zobacz custom speech and Speech to text REST API (Interfejs API REST tłumaczenia mowy niestandardowej i zamiany mowy na tekst).

Opcje dostosowywania różnią się w zależności od języka lub ustawień regionalnych. Aby zweryfikować obsługę, zobacz Obsługa języka i głosu dla usługi Mowa.

Odpowiedzialne AI

System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które go używają, osoby, których to dotyczy, oraz środowisko, w którym jest wdrażane. Zapoznaj się z uwagami dotyczącymi przejrzystości, aby dowiedzieć się więcej na temat odpowiedzialnego używania sztucznej inteligencji i wdrażania w systemach.

Co to jest zamiana mowy na tekst?

Zamiana mowy w czasie rzeczywistym na tekst

Transkrypcja wsadowa

Mowa niestandardowa

Odpowiedzialne AI

Następne kroki

Dodatkowe zasoby