Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Usługa Speech Studio to zestaw narzędzi opartych na interfejsie użytkownika do tworzenia i integrowania funkcji z usługi Azure AI Speech Service w aplikacjach. Projekty można tworzyć w programie Speech Studio przy użyciu podejścia bez kodu, a następnie odwoływać się do tych zasobów w aplikacjach przy użyciu zestawu Speech SDK, interfejsu wiersza polecenia usługi Mowa lub interfejsów API REST.
Napiwek
Możesz również spróbować zamiany mowy na tekst i tekst na mowę w portalu Azure AI Foundry bez rejestracji ani pisania jakiegokolwiek kodu.
Scenariusze usługi Speech Studio
Zapoznaj się, wypróbuj i wyświetl przykładowy kod dla niektórych typowych przypadków użycia.
Podpisy: wybierz przykładowy klip wideo, aby wyświetlić wyniki transkrysowania w czasie rzeczywistym lub offline. Dowiedz się, jak synchronizować podpisy z dźwiękiem wejściowym, stosować filtry wulgaryzmów, uzyskiwać częściowe wyniki, stosować dostosowania i identyfikować języki mówione w scenariuszach wielojęzycznych. Aby uzyskać więcej informacji, zobacz przewodnik Szybki start dotyczący podpisów.
Call Center: Zobacz pokaz dotyczący używania usług Language and Speech do analizowania konwersacji w centrum obsługi telefonicznej. Transkrypcja wywołań w czasie rzeczywistym lub przetwarzanie partii wywołań, redact personally identyfikujące informacje i wyodrębnianie szczegółowych informacji, takich jak tonacja, aby pomóc w przypadku użycia centrum telefonicznego. Aby uzyskać więcej informacji, zobacz przewodnik Szybki start centrum obsługi telefonicznej.
Aby zapoznać się z pokazem tych scenariuszy w programie Speech Studio, zapoznaj się z tym wprowadzającym filmem wideo.
Funkcje programu Speech Studio
W programie Speech Studio następujące funkcje usługi mowa są dostępne jako typy projektów:
Zamiana mowy w czasie rzeczywistym na tekst: szybko przetestuj mowę na tekst, przeciągając tutaj pliki audio bez konieczności używania jakiegokolwiek kodu. Usługa Speech Studio udostępnia narzędzie demonstracyjne do wyświetlania sposobu działania mowy na tekst w przykładach dźwiękowych. Aby zapoznać się z pełną funkcjonalnością, zobacz Co to jest zamiana mowy na tekst.
Zamiana mowy wsadowej na tekst: Szybkie testowanie możliwości transkrypcji wsadowej w celu transkrypcji dużej ilości dźwięku w magazynie i odbierania wyników asynchronicznie, aby dowiedzieć się więcej na temat zamiany mowy na tekst w usłudze Batch, zobacz Omówienie zamiany mowy na tekst w usłudze Batch.
Mowa niestandardowa: tworzenie modeli rozpoznawania mowy dostosowanych do określonych zestawów słownictwa i stylów mówienia. W przeciwieństwie do podstawowego modelu rozpoznawania mowy niestandardowe modele mowy stają się częścią unikatowej przewagi konkurencyjnej, ponieważ nie są one publicznie dostępne. Aby rozpocząć przekazywanie przykładowego dźwięku w celu utworzenia niestandardowego modelu mowy, zobacz Przekazywanie zestawów danych trenowania i testowania.
Ocena wymowy: Oceń wymowę mowy i przekaż prelegentom opinię na temat dokładności i biegłości dźwięku mówionego. Usługa Speech Studio udostępnia piaskownicę do szybkiego testowania tej funkcji bez kodu. Aby użyć funkcji z zestawem SPEECH SDK w aplikacjach, zobacz artykuł Ocena wymowy .
Tłumaczenie mowy: szybko przetestuj i przetłumacz mowę na inne wybrane języki z małym opóźnieniem. Aby zapoznać się z pełną funkcjonalnością, zobacz Co to jest tłumaczenie mowy.
Galeria głosów: tworzenie aplikacji i usług, które mówią naturalnie. Wybierz spośród szerokiego portfolio języków, głosów i wariantów. Przynieś swoje scenariusze do życia z bardzo ekspresyjnymi i przypominającymi człowieka głosami neuronowymi.
Niestandardowy głos: tworzenie niestandardowych, jednoczesnych głosów na potrzeby zamiany tekstu na mowę. Dostarczasz pliki audio i tworzysz pasujące transkrypcje w usłudze Speech Studio, a następnie używasz niestandardowych głosów w aplikacjach. Aby utworzyć i używać niestandardowych głosów za pośrednictwem punktów końcowych, zobacz Tworzenie i używanie modelu głosu.
Tworzenie zawartości audio: podejście bez kodu do syntezy tekstu na mowę. Możesz użyć wyjściowego dźwięku zgodnie z rzeczywistym użyciem lub jako punktu wyjścia do dalszego dostosowywania. Możesz tworzyć wysoce naturalną zawartość audio dla różnych scenariuszy, takich jak audiobook, emisje wiadomości, narracje wideo i czatboty. Aby uzyskać więcej informacji, zobacz dokumentację Dotyczącą tworzenia zawartości audio.
Niestandardowe słowo kluczowe: niestandardowe słowo kluczowe to słowo lub krótka fraza, której można użyć do aktywowania produktu za pomocą głosu. W programie Speech Studio utworzysz niestandardowe słowo kluczowe, a następnie wygenerujesz plik binarny do użycia z zestawem SPEECH SDK w aplikacjach.