Co to jest mowa niestandardowa?

Artykuł
01/22/2024

Dzięki usłudze Custom Speech można ocenić i poprawić dokładność rozpoznawania mowy dla aplikacji i produktów. Niestandardowy model mowy może służyć do zamiany mowy w czasie rzeczywistym na tekst, tłumaczenie mowy i transkrypcję wsadową.

Funkcja rozpoznawania mowy korzysta z modelu uniwersalnego języka jako modelu podstawowego, który jest trenowany przy użyciu danych należących do firmy Microsoft i odzwierciedla powszechnie używany język mówiony. Model podstawowy jest wstępnie trenowany za pomocą dialektów i fonetyki reprezentujących różne typowe domeny. Podczas tworzenia żądania rozpoznawania mowy najnowszy model podstawowy dla każdego obsługiwanego języka jest używany domyślnie. Model podstawowy działa dobrze w większości scenariuszy rozpoznawania mowy.

Model niestandardowy może służyć do rozszerzania modelu podstawowego w celu poprawy rozpoznawania słownictwa specyficznego dla domeny specyficznego dla aplikacji, dostarczając dane tekstowe do trenowania modelu. Może również służyć do ulepszania rozpoznawania na podstawie określonych warunków dźwiękowych aplikacji, dostarczając dane audio z transkrypcjami referencyjnymi.

Model można również wytrenować przy użyciu tekstu strukturalnego, gdy dane są zgodne ze wzorcem, aby określić niestandardową wymowę, oraz dostosować formatowanie tekstu wyświetlanego przy użyciu niestandardowej normalizacji tekstu odwrotnego, niestandardowego ponownego zapisywania i niestandardowego filtrowania wulgaryzmów.

Jak to działa?

Za pomocą mowy niestandardowej możesz przekazać własne dane, przetestować i wytrenować model niestandardowy, porównać dokładność między modelami i wdrożyć model w niestandardowym punkcie końcowym.

Diagram that highlights the components that make up the custom speech area of the Speech Studio.

Poniżej przedstawiono więcej informacji na temat sekwencji kroków pokazanych na poprzednim diagramie:

Utwórz projekt i wybierz model. Użyj zasobu usługi Mowa utworzonego w witrynie Azure Portal. W przypadku trenowania modelu niestandardowego przy użyciu danych audio wybierz region zasobów usługi Mowa z dedykowanym sprzętem do trenowania danych audio. Aby uzyskać więcej informacji, zobacz przypisy dolne w tabeli regionów .
Przekazywanie danych testowych. Przekaż dane testowe, aby ocenić ofertę zamiany mowy na tekst dla aplikacji, narzędzi i produktów.
Jakość rozpoznawania testów. Użyj programu Speech Studio, aby odtworzyć przekazany dźwięk i sprawdzić jakość rozpoznawania mowy danych testowych.
Model testowy ilościowo. Ocenianie i poprawianie dokładności modelu zamiany mowy na tekst. Usługa mowa udostępnia ilościową szybkość błędów słów (WER), której można użyć do określenia, czy wymagane jest więcej trenowania.
Trenowanie modelu. Podaj zapisane transkrypcje i powiązany tekst wraz z odpowiednimi danymi audio. Testowanie modelu przed trenowaniem i po nim jest opcjonalne, ale zalecane.

Uwaga

Płacisz za użycie niestandardowego modelu mowy i hostowanie punktów końcowych. Opłaty będą również naliczane za trenowanie niestandardowego modelu mowy, jeśli model podstawowy został utworzony 1 października 2023 r. i nowsze. Nie są naliczane opłaty za trenowanie, jeśli model podstawowy został utworzony przed październikiem 2023 r. Aby uzyskać więcej informacji, zobacz Cennik usługi Azure AI Speech i sekcję Opłaty za adaptację w przewodniku migracji zamiany mowy na tekst 3.2.
Wdrażanie modelu. Gdy wyniki testu będą zadowalające, wdróż model w niestandardowym punkcie końcowym. Z wyjątkiem transkrypcji wsadowej należy wdrożyć niestandardowy punkt końcowy, aby użyć niestandardowego modelu mowy.

Napiwek

Hostowany punkt końcowy wdrożenia nie jest wymagany do używania mowy niestandardowej z interfejsem API transkrypcji usługi Batch. Zasoby można oszczędzać, jeśli niestandardowy model mowy jest używany tylko do transkrypcji wsadowej. Aby uzyskać więcej informacji, zobacz Cennik usługi Mowa.

Odpowiedzialne AI

System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które go używają, osoby, których to dotyczy, oraz środowisko, w którym jest wdrażane. Zapoznaj się z uwagami dotyczącymi przejrzystości, aby dowiedzieć się więcej na temat odpowiedzialnego używania sztucznej inteligencji i wdrażania w systemach.

Co to jest mowa niestandardowa?

Jak to działa?

Odpowiedzialne AI

Następne kroki

Dodatkowe zasoby