Co to jest usługa Speech Studio?

Artykuł
01/22/2024

Usługa Speech Studio to zestaw narzędzi opartych na interfejsie użytkownika do tworzenia i integrowania funkcji z usługi Azure AI Speech Service w aplikacjach. Projekty można tworzyć w programie Speech Studio przy użyciu podejścia bez kodu, a następnie odwoływać się do tych zasobów w aplikacjach przy użyciu zestawu Speech SDK, interfejsu wiersza polecenia usługi Mowa lub interfejsów API REST.

Napiwek

Możesz spróbować zamiany mowy na tekst i tekst na mowę w programie Speech Studio bez rejestracji ani pisania kodu.

Scenariusze usługi Speech Studio

Zapoznaj się, wypróbuj i wyświetl przykładowy kod dla niektórych typowych przypadków użycia.

Podpisy: wybierz przykładowy klip wideo, aby zobaczyć wyniki przetwarzane w czasie rzeczywistym lub offline podpis. Dowiedz się, jak synchronizować podpis z wejściowym dźwiękiem, stosować filtry wulgaryzmów, uzyskiwać częściowe wyniki, stosować dostosowania i identyfikować języki mówione w scenariuszach wielojęzycznych. Aby uzyskać więcej informacji, zobacz przewodnik Szybki start dotyczący podpis.
Call Center: Zobacz pokaz dotyczący używania usług Language and Speech do analizowania konwersacji w centrum obsługi telefonicznej. Transkrypcja wywołań w czasie rzeczywistym lub przetwarzanie partii wywołań, redact personally identyfikujące informacje i wyodrębnianie szczegółowych informacji, takich jak tonacja, aby pomóc w przypadku użycia centrum telefonicznego. Aby uzyskać więcej informacji, zobacz przewodnik Szybki start centrum obsługi telefonicznej.

Aby zapoznać się z pokazem tych scenariuszy w programie Speech Studio, zapoznaj się z tym wprowadzającym filmem wideo.

Funkcje programu Speech Studio

W programie Speech Studio następujące funkcje usługi mowa są dostępne jako typy projektów:

Zamiana mowy w czasie rzeczywistym na tekst: szybko przetestuj mowę na tekst, przeciągając tutaj pliki audio bez konieczności używania jakiegokolwiek kodu. Usługa Speech Studio udostępnia narzędzie demonstracyjne do wyświetlania sposobu działania mowy na tekst w przykładach dźwiękowych. Aby zapoznać się z pełną funkcjonalnością, zobacz Co to jest zamiana mowy na tekst.
Zamiana mowy wsadowej na tekst: Szybkie testowanie możliwości transkrypcji wsadowej w celu transkrypcji dużej ilości dźwięku w magazynie i odbierania wyników asynchronicznie, aby dowiedzieć się więcej na temat zamiany mowy na tekst w usłudze Batch, zobacz Omówienie zamiany mowy na tekst w usłudze Batch.
Mowa niestandardowa: tworzenie modeli rozpoznawania mowy dostosowanych do określonych zestawów słownictwa i stylów mówienia. W przeciwieństwie do podstawowego modelu rozpoznawania mowy niestandardowe modele mowy stają się częścią unikatowej przewagi konkurencyjnej, ponieważ nie są one publicznie dostępne. Aby rozpocząć przekazywanie przykładowego dźwięku w celu utworzenia niestandardowego modelu mowy, zobacz Przekazywanie zestawów danych trenowania i testowania.
Ocena wymowy: Oceń wymowę mowy i przekaż prelegentom opinię na temat dokładności i biegłości dźwięku mówionego. Usługa Speech Studio udostępnia piaskownicę do szybkiego testowania tej funkcji bez kodu. Aby użyć funkcji z zestawem SPEECH SDK w aplikacjach, zobacz artykuł Ocena wymowy .
Tłumaczenie mowy: szybko przetestuj i przetłumacz mowę na inne wybrane języki z małym opóźnieniem. Aby zapoznać się z pełną funkcjonalnością, zobacz Co to jest tłumaczenie mowy.
Galeria głosów: tworzenie aplikacji i usług, które mówią naturalnie. Wybierz spośród szerokiego portfolio języków, głosów i wariantów. Przynieś swoje scenariusze do życia z bardzo ekspresyjnymi i przypominającymi człowieka głosami neuronowymi.
Niestandardowy głos: tworzenie niestandardowych, jednoczesnych głosów na potrzeby zamiany tekstu na mowę. Dostarczasz pliki audio i tworzysz pasujące transkrypcje w usłudze Speech Studio, a następnie używasz niestandardowych głosów w aplikacjach. Aby utworzyć i używać niestandardowych głosów za pośrednictwem punktów końcowych, zobacz Tworzenie i używanie modelu głosu.
Tworzenie zawartości audio: podejście bez kodu do syntezy tekstu na mowę. Możesz użyć wyjściowego dźwięku zgodnie z rzeczywistym użyciem lub jako punktu wyjścia do dalszego dostosowywania. Możesz tworzyć wysoce naturalną zawartość audio dla różnych scenariuszy, takich jak audiobook, emisje wiadomości, narracje wideo i czatboty. Aby uzyskać więcej informacji, zobacz dokumentację Dotyczącą tworzenia zawartości audio.
Niestandardowe słowo kluczowe: niestandardowe słowo kluczowe to słowo lub krótka fraza, której można użyć do aktywowania produktu za pomocą głosu. W programie Speech Studio utworzysz niestandardowe słowo kluczowe, a następnie wygenerujesz plik binarny do użycia z zestawem SPEECH SDK w aplikacjach.
Polecenia niestandardowe: łatwe tworzenie rozbudowanych aplikacji poleceń głosowych zoptymalizowanych pod kątem środowisk interakcji głosowych. Polecenia niestandardowe zapewniają środowisko tworzenia bez kodu w usłudze Speech Studio, automatyczny model hostingu i stosunkowo niższą złożoność. Funkcja ułatwia skoncentrowanie się na tworzeniu najlepszego rozwiązania dla scenariuszy poleceń głosowych. Aby uzyskać więcej informacji, zobacz przewodnik Tworzenie niestandardowych poleceń aplikacji . Zobacz też Integrowanie z aplikacją kliencką przy użyciu zestawu SPEECH SDK.

Następne kroki

Eksplorowanie usługi Speech Studio

Co to jest usługa Speech Studio?

Scenariusze usługi Speech Studio

Funkcje programu Speech Studio

Następne kroki

Dodatkowe zasoby