Czym jest usługa rozpoznawania mowy?

Artykuł
07/18/2024

Usługa rozpoznawania mowy udostępnia funkcję zamiany mowy na tekst i tekst na mowę za pomocą zasobu usługi Mowa. Możesz transkrybować mowę do tekstu z wysoką dokładnością, tworzyć naturalnie brzmiący tekst na głosy mowy, tłumaczyć dźwięk mówiony i używać rozpoznawania osoby mówiącej podczas konwersacji.

Obraz przedstawiający kafelki z wyróżnionymi niektórymi funkcjami usługi Mowa.

Twórz niestandardowe głosy, dodawaj określone słowa do podstawowego słownika lub twórz własne modele. Uruchamiaj usługę Mowa w dowolnym miejscu, w chmurze lub na urządzeniach brzegowych w kontenerach. Łatwość rozpoznawania mowy umożliwia aplikacjom, narzędziom i urządzeniom korzystanie z interfejsu wiersza polecenia usługi Mowa, zestawu SPEECH SDK, programu Speech Studio lub interfejsów API REST.

Mowa jest dostępna dla wielu języków, regionów i punktów cenowych.

Scenariusze z zastosowaniem mowy

Typowe scenariusze dotyczące mowy obejmują:

Podpisy: dowiedz się, jak synchronizować podpisy z danymi wejściowymi audio, stosować filtry wulgaryzmów, uzyskiwać częściowe wyniki, stosować dostosowania i identyfikować języki mówione w scenariuszach wielojęzycznych.
Tworzenie zawartości audio: możesz używać neuronowych głosów do interakcji z czatbotami i asystentami głosowymi bardziej naturalnymi i angażującymi, konwertując teksty cyfrowe, takie jak książki elektroniczne na audiobooki i ulepszać systemy nawigacji samochodowej.
Call Center: Transkrybuj wywołania w czasie rzeczywistym lub przetwarzaj partię połączeń, redaguj dane osobowe i wyodrębnij szczegółowe informacje, takie jak tonacja, aby pomóc w przypadku użycia centrum telefonicznego.
Uczenie językowe: udostępniaj opinie na temat oceny wymowy uczniom języka, obsługują transkrypcję w czasie rzeczywistym na potrzeby rozmów zdalnego uczenia się i czytają na głos materiały dydaktyczne z głosami neuronowymi.
Asystentzy głosowi: twórz naturalne, ludzkie interfejsy, takie jak interfejsy konwersacyjne dla swoich aplikacji i środowisk. Funkcja asystenta głosowego zapewnia szybką, niezawodną interakcję między urządzeniem a implementacją asystenta.

Firma Microsoft używa usługi Mowa w wielu scenariuszach, takich jak podpisy w aplikacji Teams, dyktowanie w usłudze Office 365 i Odczytywanie na głos w przeglądarce Microsoft Edge.

Obraz przedstawiający logo produktów firmy Microsoft, w których jest używana usługa mowa.

Możliwości mowy

Te sekcje zawierają podsumowanie funkcji mowy z linkami, aby uzyskać więcej informacji.

Zamiana mowy na tekst

Zamiana mowy na tekst umożliwia transkrypcję dźwięku na tekst w czasie rzeczywistym lub asynchronicznie przy użyciu transkrypcji wsadowej.

Napiwek

Możesz wypróbować zamianę mowy w czasie rzeczywistym na tekst w programie Speech Studio bez rejestracji ani pisania kodu.

Konwertuj dźwięk na tekst z różnych źródeł, w tym mikrofonów, plików audio i magazynu obiektów blob. Użyj diaryzacji osoby mówiącej, aby określić, kto powiedział, co i kiedy. Uzyskaj czytelne transkrypcje z automatycznym formatowaniem i interpunkcją.

Model podstawowy może nie być wystarczający, jeśli dźwięk zawiera hałas otoczenia lub zawiera wiele żargonów branżowych i specyficznych dla domeny. W takich przypadkach można tworzyć i trenować niestandardowe modele mowy przy użyciu danych akustycznych, językowych i wymowy. Niestandardowe modele mowy są prywatne i mogą oferować przewagę konkurencyjną.

Zamiana mowy w czasie rzeczywistym na tekst

W przypadku zamiany mowy w czasie rzeczywistym na tekst dźwięk jest transkrypowany w miarę rozpoznawania mowy z mikrofonu lub pliku. Zamiana mowy w czasie rzeczywistym na tekst dla aplikacji, które muszą transkrybować dźwięk w czasie rzeczywistym, na przykład:

Transkrypcje, transkrypcje lub napisy na potrzeby spotkań na żywo
Diarization (Diarization)
Ocena wymowy
Pomoc dla agentów centrum kontaktowego
Dyktowanie
Agenci głosowi

Interfejs API szybkiej transkrypcji (wersja zapoznawcza)

Interfejs API szybkiej transkrypcji służy do transkrypcji plików audio z synchronicznym i znacznie szybszym zwracaniem wyników niż dźwięk w czasie rzeczywistym. Użyj szybkiej transkrypcji w scenariuszach, w których potrzebujesz transkrypcji nagrania audio tak szybko, jak to możliwe z przewidywalnym opóźnieniem, na przykład:

Szybka transkrypcja audio lub wideo, napisy i edycja.
Tłumaczenie wideo

Uwaga

Interfejs API szybkiego transkrypcji jest dostępny tylko za pośrednictwem interfejsu API REST zamiany mowy na tekst w wersji 2024-05-15-preview.

Aby rozpocząć pracę z szybką transkrypcją, zobacz używanie szybkiego interfejsu API transkrypcji (wersja zapoznawcza).

Transkrypcja wsadowa

Transkrypcja wsadowa służy do transkrypcji dużej ilości dźwięku w magazynie. Możesz wskazać pliki audio z identyfikatorem URI sygnatury dostępu współdzielonego (SAS) i asynchronicznie odbierać wyniki transkrypcji. Użyj transkrypcji wsadowej dla aplikacji, które muszą zbiorczo transkrybować dźwięk, na przykład:

Transkrypcje, transkrypcje lub napisy dla wstępnie rozpoznanego dźwięku
Analiza po wywołaniu centrum kontaktów
Diarization (Diarization)

Zamiana tekstu na mowę

Dzięki zamianie tekstu na mowę możesz przekonwertować tekst wejściowy na człowieka, na przykład syntetyzowany mowę. Używaj głosów neuronowych, które są głosami ludzkimi, takimi jak głosy obsługiwane przez głębokie sieci neuronowe. Użyj języka znaczników syntezy mowy (SSML), aby dostosować wysokość, wymowę, szybkość mówienia, głośność i nie tylko.

Wstępnie utworzony głos neuronowy: wysoce naturalne głosy gotowe do użycia. Sprawdź wstępnie utworzone przykłady neuronowych głosów w galerii głosów i określ odpowiedni głos dla Twoich potrzeb biznesowych.
Niestandardowy neuronowy głos: oprócz wstępnie utworzonych głosów neuronowych, które wychodzą z pudełka, możesz również utworzyć niestandardowy głos neuronowy , który jest rozpoznawalny i unikatowy dla marki lub produktu. Niestandardowe neuronowe głosy są prywatne i mogą oferować przewagę konkurencyjną. Zapoznaj się z niestandardowymi przykładami neuronowych głosów tutaj.

Tłumaczenie mowy

Tłumaczenie mowy umożliwia tłumaczenie mowy w czasie rzeczywistym, wielojęzyczne tłumaczenie mowy na aplikacje, narzędzia i urządzenia. Ta funkcja umożliwia zamianę mowy na mowę i mowę na tłumaczenie tekstu.

Identyfikacja języka

Identyfikacja języka służy do identyfikowania języków mówionych w dźwiękach w porównaniu z listą obsługiwanych języków. Użyj samej identyfikacji języka z rozpoznawaniem mowy do rozpoznawania tekstu lub tłumaczenia mowy.

Rozpoznawanie osoby mówiącej

Rozpoznawanie osoby mówiącej udostępnia algorytmy weryfikujące i identyfikujące osoby mówiące o ich unikatowych cechach głosowych. Rozpoznawanie osoby mówiącej służy do odpowiadania na pytanie "Kto mówi?".

Ocena wymowy

Ocena wymowy ocenia wymowę mowy i przekazuje głośnikom opinie na temat dokładności i biegłości dźwięku mówionego. Dzięki ocenie wymowy osoby uczące się języka mogą ćwiczyć, uzyskiwać natychmiastowe opinie i poprawiać swoją wymowę, tak aby potrafiły mówić i przekazywać informacje z pewnością siebie.

Rozpoznawanie intencji

Rozpoznawanie intencji: używaj mowy do tekstu z interpretacją języka konwersacyjnego, aby uzyskać intencje użytkownika na podstawie transkrypcji mowy i wykonywać działania na poleceniach głosowych.

Dostarczanie i obecność

Funkcje usługi Azure AI Speech można wdrożyć w chmurze lub lokalnie.

Dzięki kontenerom możesz przybliżyć usługę do danych ze względów zgodności, zabezpieczeń lub innych powodów operacyjnych.

Wdrożenie usługi Mowa w suwerennych chmurach jest dostępne dla niektórych jednostek rządowych i ich partnerów. Na przykład chmura Azure Government jest dostępna dla jednostek rządowych USA i ich partnerów. Platforma Microsoft Azure obsługiwana przez chmurę 21Vianet jest dostępna dla organizacji z obecnością biznesową w Chinach. Aby uzyskać więcej informacji, zobacz suwerenne chmury.

Diagram przedstawiający miejsce wdrażania i uzyskiwania dostępu do usługi Mowa.

Używanie mowy w aplikacji

Usługa Speech Studio to zestaw narzędzi opartych na interfejsie użytkownika do tworzenia i integrowania funkcji z usługi Mowa azure AI w aplikacjach. Projekty można tworzyć w programie Speech Studio przy użyciu podejścia bez kodu, a następnie odwoływać się do tych zasobów w aplikacjach przy użyciu zestawu Speech SDK, interfejsu wiersza polecenia usługi Mowa lub interfejsów API REST.

Interfejs wiersza polecenia usługi Mowa to narzędzie wiersza polecenia do korzystania z usługi Mowa bez konieczności pisania kodu. Większość funkcji zestawu SDK usługi Mowa jest dostępnych w interfejsie wiersza polecenia usługi Mowa, a niektóre zaawansowane funkcje i dostosowania zostały uproszczone w interfejsie wiersza polecenia usługi Mowa.

Zestaw SPEECH SDK uwidacznia wiele funkcji usługi Mowa, których można użyć do tworzenia aplikacji z obsługą mowy. Zestaw SPEECH SDK jest dostępny w wielu językach programowania i na wszystkich platformach.

W niektórych przypadkach nie można używać zestawu SDK usługi Mowa lub nie należy ich używać. W takich przypadkach możesz użyć interfejsów API REST, aby uzyskać dostęp do usługi Mowa. Na przykład użyj interfejsów API REST do transkrypcji wsadowej i interfejsów API REST rozpoznawania osoby mówiącej.

Rozpocznij

Oferujemy przewodniki Szybki start w wielu popularnych językach programowania. Każdy przewodnik Szybki start jest przeznaczony do uczenia podstawowych wzorców projektowania i uruchamiania kodu w czasie krótszym niż 10 minut. Zapoznaj się z następującą listą przewodników Szybki start dla każdej funkcji:

Przykłady kodu

Przykładowy kod usługi Mowa jest dostępny w witrynie GitHub. Te przykłady obejmują typowe scenariusze, takie jak odczytywanie dźwięku z pliku lub strumienia, ciągłe i jednosstrzałowe rozpoznawanie oraz praca z modelami niestandardowymi. Użyj tych linków, aby wyświetlić przykłady zestawu SDK i interfejsu REST:

Odpowiedzialne AI

System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które go używają, osoby, których to dotyczy, oraz środowisko, w którym jest wdrażane. Zapoznaj się z uwagami dotyczącymi przejrzystości, aby dowiedzieć się więcej na temat odpowiedzialnego używania sztucznej inteligencji i wdrażania w systemach.

Udostępnij za pośrednictwem

Czym jest usługa rozpoznawania mowy?

Scenariusze z zastosowaniem mowy

Możliwości mowy

Zamiana mowy na tekst

Zamiana mowy w czasie rzeczywistym na tekst

Interfejs API szybkiej transkrypcji (wersja zapoznawcza)

Transkrypcja wsadowa

Zamiana tekstu na mowę

Tłumaczenie mowy

Identyfikacja języka

Rozpoznawanie osoby mówiącej

Ocena wymowy

Rozpoznawanie intencji

Dostarczanie i obecność

Używanie mowy w aplikacji

Rozpocznij

Przykłady kodu

Odpowiedzialne AI

Zamiana mowy na tekst

Ocena wymowy

Niestandardowy neuronowy głos

Rozpoznawanie osoby mówiącej

Następne kroki

Opinia

Opinia

Dodatkowe zasoby