Zamiana tekstu na mowę za pomocą narzędzia do tworzenia zawartości audio

2025-02-07

Narzędzie do tworzenia zawartości audio w programie Speech Studio umożliwia zamianę tekstu na mowę bez konieczności pisania kodu. Narzędzie do tworzenia zawartości audio może dostarczyć dźwięk mowy końcowej, który chcesz. Możesz użyć wyjściowego dźwięku zgodnie z rzeczywistym użyciem lub jako punktu wyjścia do dalszego dostosowywania.

Twórz wysoce naturalną zawartość audio dla różnych scenariuszy, takich jak audiobook, emisje wiadomości, narracje wideo i czatboty. Dzięki tworzeniu zawartości audio można wydajnie dostosować tekst do głosów mowy i zaprojektować dostosowane środowiska audio.

Narzędzie jest oparte na języku SSML (Speech Synthesis Markup Language). Umożliwia dostosowanie tekstu do atrybutów danych wyjściowych mowy w czasie rzeczywistym lub syntezy partii, takich jak znaki głosowe, style głosu, szybkość mówienia, wymowa i prosody.

Podejście bez kodu: możesz użyć narzędzia do tworzenia zawartości audio na potrzeby syntezy mowy bez konieczności pisania kodu. Dźwięk wyjściowy może być ostatecznym elementem dostarczanym. Na przykład możesz użyć dźwięku wyjściowego do podkastu lub narracji wideo.
Przyjazny dla deweloperów: możesz słuchać dźwięku wyjściowego i dostosowywać język SSML, aby poprawić syntezę mowy. Następnie możesz użyć zestawu SPEECH SDK lub interfejsu wiersza polecenia usługi Mowa, aby zintegrować język SSML z aplikacjami.

Masz łatwy dostęp do szerokiego portfolio języków i głosów. Te głosy zawierają najnowocześniejsze standardowe głosy oraz twój niestandardowy głos, jeśli go utworzyłeś.

Rozpocznij

Narzędzie do tworzenia zawartości audio w usłudze Speech Studio jest bezpłatne, ale płacisz za użycie usługi Mowa. Aby pracować z narzędziem, musisz zalogować się przy użyciu konta platformy Azure i utworzyć zasób usługi Mowa.

W następnych sekcjach opisano sposób tworzenia konta platformy Azure i uzyskiwania zasobu usługi Mowa.

Krok 1. Tworzenie konta platformy Azure

Do pracy z tworzeniem zawartości audio potrzebne jest konto Microsoft i konto platformy Azure.

Witryna Azure Portal to scentralizowane miejsce do zarządzania kontem platformy Azure. Zasób usługi Mowa można utworzyć, zarządzać dostępem do produktu i monitorować wszystko, od prostych aplikacji internetowych do złożonych wdrożeń w chmurze.

Krok 2. Tworzenie zasobu usługi Mowa

Po zarejestrowaniu się na koncie platformy Azure należy utworzyć zasób usługi Mowa na koncie platformy Azure, aby uzyskać dostęp do usług Mowa. Utwórz zasób usługi Mowa w witrynie Azure Portal. Aby uzyskać więcej informacji, zobacz Create an AI Foundry resource (Tworzenie zasobu usługi AI Foundry).

Wdrożenie nowego zasobu usługi Mowa zajmuje kilka minut. Po zakończeniu wdrażania możesz rozpocząć korzystanie z narzędzia do tworzenia zawartości audio.

Uwaga

Jeśli planujesz używać głosów neuronowych, upewnij się, że tworzysz zasób w regionie obsługującym głosy neuronowe.

Po pobraniu konta platformy Azure i zasobu usługi Mowa zaloguj się do programu Speech Studio, a następnie wybierz pozycję Tworzenie zawartości audio.
Wybierz subskrypcję platformy Azure i zasób usługi Mowa, z którym chcesz pracować, a następnie wybierz pozycję Użyj zasobu.

Następnym razem, gdy zalogujesz się do tworzenia zawartości audio, połączysz się bezpośrednio z plikami roboczymi audio w bieżącym zasobie usługi Mowa. Szczegóły i stan subskrypcji platformy Azure można sprawdzić w witrynie Azure Portal.

Jeśli nie masz dostępnego zasobu usługi Mowa i jesteś właścicielem lub administratorem subskrypcji platformy Azure, możesz utworzyć zasób usługi Mowa w usłudze Speech Studio, wybierając pozycję Utwórz nowy zasób.

Jeśli masz rolę użytkownika dla określonej subskrypcji platformy Azure, być może nie masz uprawnień do tworzenia nowego zasobu usługi Mowa. Aby uzyskać dostęp, skontaktuj się z administratorem.

Aby w dowolnym momencie przełączyć zasób usługi Mowa, wybierz pozycję Ustawienia w górnej części strony.

Aby przełączyć katalogi, wybierz pozycję Ustawienia lub przejdź do swojego profilu.

Korzystanie z narzędzia

Na poniższym diagramie przedstawiono proces dostosowywania tekstu do danych wyjściowych mowy.

Diagram przedstawiający sekwencję kroków dostosowywania tekstu do danych wyjściowych mowy.

Każdy krok na powyższym diagramie jest opisany tutaj:

Wybierz zasób usługi Mowa, z którym chcesz pracować.
Utwórz plik dostrajania audio przy użyciu skryptów zwykłego tekstu lub SSML. Wprowadź lub przekaż zawartość do tworzenia zawartości audio.
Wybierz głos i język zawartości skryptu. Tworzenie zawartości audio obejmuje cały standardowy tekst na głosy mowy. Możesz użyć głosów standardowych lub niestandardowych.

Uwaga

Kontrolowany dostęp jest dostępny dla niestandardowej syntezy głosu, która umożliwia tworzenie głosów o wysokiej rozdzielczości, podobnych do mowy brzmiącej naturalnie. Aby uzyskać więcej informacji, zobacz Proces Gating.
Wybierz zawartość, którą chcesz wyświetlić, a następnie wybierz pozycję Odtwórz (za pomocą ikony trójkąta), aby wyświetlić podgląd domyślnych danych wyjściowych syntezy.

Jeśli wprowadzisz zmiany w tekście, wybierz ikonę Zatrzymaj , a następnie ponownie wybierz pozycję Odtwórz , aby ponownie wygenerować dźwięk ze zmienionymi skryptami.

Popraw dane wyjściowe, dostosowując wymowę, przerwę, skok, szybkość, intonację, styl głosu i nie tylko. Aby uzyskać pełną listę opcji, zobacz Speech Synthesis Markup Language (Język znaczników syntezy mowy).

Aby uzyskać więcej informacji na temat dostosowywania danych wyjściowych mowy, zobacz sposób konwertowania tekstu na wideo mowy w serwisie YouTube. Jednak film wideo może nie być dostępny we wszystkich regionach i może nie być aktualny do czasu jego obejrzenia.
Zapisz i wyeksportuj dostrojony dźwięk.

Po zapisaniu ścieżki dostrajania w systemie można kontynuować pracę i iterować dane wyjściowe. Jeśli dane wyjściowe są zadowalające, możesz utworzyć zadanie tworzenia dźwięku za pomocą funkcji eksportu. Możesz obserwować stan zadania eksportu i pobierać dane wyjściowe do użycia z aplikacjami i produktami.

Tworzenie pliku dostrajania audio

Zawartość można pobrać do narzędzia do tworzenia zawartości audio na jeden z dwóch sposobów:

Opcja 1. Tworzenie nowego pliku dostrajania dźwięku

Wybierz pozycję Nowy>plik tekstowy, aby utworzyć nowy plik dostrajania dźwięku.
Wprowadź lub wklej zawartość w oknie edycji. Dozwolona liczba znaków dla każdego pliku wynosi 20 000 lub mniej. Jeśli skrypt zawiera więcej niż 20 000 znaków, możesz użyć opcji 2, aby automatycznie podzielić zawartość na wiele plików.
Wybierz pozycję Zapisz.

Opcja 2. Przekazywanie pliku dostrajania audio

Wybierz pozycję Przekaż>plik tekstowy, aby zaimportować co najmniej jeden plik tekstowy. Obsługiwane są zarówno zwykły tekst, jak i SSML.

Jeśli plik skryptu ma więcej niż 20 000 znaków, podziel zawartość akapitami, znakami lub wyrażeniami regularnymi.

Podczas przekazywania plików tekstowych upewnij się, że spełniają one następujące wymagania:

Właściwości	opis
Format pliku	Zwykły tekst (.txt) lub tekst SSML (.txt) Pliki zip nie są obsługiwane.
Format kodowania	UTF-8
Nazwa pliku	Każdy plik musi mieć unikatową nazwę. Zduplikowane pliki nie są obsługiwane.
Długość tekstu	Limit znaków wynosi 20 000. Jeśli pliki przekraczają limit, podziel je zgodnie z instrukcjami w narzędziu.
Ograniczenia SSML	Każdy plik SSML może zawierać tylko jeden fragment kodu SSML.

Oto przykład zwykłego tekstu:

Welcome to use Audio Content Creation to customize audio output for your products.

Oto przykład SSML:

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
   <voice name="en-US-AvaMultilingualNeural">
   Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
   </voice>
</speak>

Eksportowanie dostrajanego dźwięku

Po przejrzeniu danych wyjściowych dźwięku i satysfakcjonującym dostosowaniu można wyeksportować dźwięk.

Wybierz pozycję Eksportuj , aby utworzyć zadanie tworzenia dźwięku.

Zalecamy eksportowanie do biblioteki audio w celu łatwego przechowywania, znajdowania i wyszukiwania danych wyjściowych audio w chmurze. Możesz lepiej zintegrować się z aplikacjami za pomocą usługi Azure Blob Storage. Możesz również pobrać dźwięk bezpośrednio na dysk lokalny.

Wybierz format danych wyjściowych dla dostosowanego dźwięku. Obsługiwane formaty audio i częstotliwość próbkowania są wymienione w poniższej tabeli:

Formatuj	Częstotliwość próbkowania 8 kHz	Częstotliwość próbkowania 16 kHz	Częstotliwość próbkowania 24 kHz	Częstotliwość próbkowania 48 kHz
wav	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	format riff, 48 kHz, 16-bit, mono, PCM
mp3	Nie dotyczy	audio-16kHz-128kbps-jednokanałowy-mp3	audio-24khz-160kbitrate-mono-mp3	audio 48 khz/192 kbitrate mono/mp3

Aby wyświetlić stan zadania, wybierz kartę Lista zadań.

Jeśli zadanie zakończy się niepowodzeniem, zobacz stronę szczegółowych informacji dla pełnego raportu.
Po zakończeniu zadania dźwięk jest dostępny do pobrania w okienku Biblioteka audio.
Wybierz plik, który chcesz pobrać i pobierz.

Teraz możesz używać niestandardowego dostrajanych dźwięków w aplikacjach lub produktach.

Konfigurowanie funkcji BYOS i anonimowego publicznego dostępu do odczytu dla obiektów blob

Jeśli utracisz uprawnienia dostępu do usługi Bring Your Own Storage (BYOS), nie możesz wyświetlać, tworzyć, edytować ani usuwać plików. Aby wznowić dostęp, musisz usunąć bieżący magazyn i ponownie skonfigurować usługę BYOS w witrynie Azure Portal. Aby dowiedzieć się więcej o sposobie konfigurowania usługi BYOS, zobacz Instalowanie usługi Azure Storage jako udziału lokalnego w usłudze App Service.

Po skonfigurowaniu uprawnień byOS należy skonfigurować anonimowy publiczny dostęp do odczytu dla powiązanych kontenerów i obiektów blob. W przeciwnym razie dane obiektów blob nie są dostępne dla dostępu publicznego, a plik leksykonu w obiekcie blob jest niedostępny. Domyślnie ustawienie dostępu publicznego kontenera jest wyłączone. Aby udzielić użytkownikom anonimowym dostępu do odczytu do kontenera i jego obiektów blob, najpierw ustaw opcję Zezwalaj na publiczny dostęp do obiektu blob na wartość Włączone , aby zezwolić na dostęp publiczny dla konta magazynu, a następnie ustaw poziom dostępu publicznego kontenera (o nazwie acc-public-files) (anonimowy dostęp do odczytu tylko dla obiektów blob). Aby dowiedzieć się więcej na temat konfigurowania anonimowego publicznego dostępu do odczytu, zobacz Konfigurowanie anonimowego publicznego dostępu do odczytu dla kontenerów i obiektów blob.

Dodawanie lub usuwanie użytkowników tworzenia zawartości audio

Jeśli więcej niż jeden użytkownik chce użyć funkcji tworzenia zawartości audio, możesz udzielić im dostępu do subskrypcji platformy Azure i zasobu usługi Mowa. Jeśli dodasz użytkowników do subskrypcji platformy Azure, będą oni mogli uzyskać dostęp do wszystkich zasobów w ramach subskrypcji platformy Azure. Jeśli jednak dodasz użytkowników tylko do zasobu usługi Mowa, mają dostęp tylko do zasobu usługi Mowa, a nie do innych zasobów w ramach tej subskrypcji platformy Azure. Użytkownicy z dostępem do zasobu usługi Mowa mogą używać narzędzia do tworzenia zawartości audio.

Użytkownicy, którym udzielasz dostępu, muszą skonfigurować konto Microsoft. Jeśli masz konto Microsoft, może utworzyć je za kilka minut. Mogą używać istniejącego adresu e-mail i łączyć go z kontem Microsoft lub tworzyć i używać adresu e-mail programu Outlook jako konta Microsoft.

Dodawanie użytkowników do zasobu usługi Mowa

Aby dodać użytkowników do zasobu usługi Mowa, aby mogli używać funkcji tworzenia zawartości audio, wykonaj następujące czynności:

W witrynie Azure Portal wybierz pozycję Wszystkie usługi w okienku po lewej stronie, a następnie wyszukaj pozycję Usługi azure AI lub Mowa.
Wybierz zasób usługi Mowa.

Uwaga

Możesz również skonfigurować kontrolę dostępu opartą na rolach platformy Azure dla całych grup zasobów, subskrypcji lub grup zarządzania. Zrób to, wybierając żądany poziom zakresu, a następnie przechodząc do żądanego elementu (na przykład wybierając pozycję Grupy zasobów, a następnie wybierając grupę zasobów).
Wybierz pozycję Kontrola dostępu (IAM) w okienku po lewej.
Wybierz pozycję Dodaj>Dodaj przypisanie roli.
Na karcie Rola na następnym ekranie wybierz rolę (taką jak Właściciel), którą chcesz dodać.
Na karcie Członkowie wprowadź adres e-mail użytkownika i wybierz nazwę użytkownika w katalogu. Adres e-mail musi być połączony z kontem Microsoft, które jest zaufane przez identyfikator Entra firmy Microsoft. Użytkownicy mogą łatwo zarejestrować się na koncie Microsoft przy użyciu osobistego adresu e-mail.
Na karcie Przeglądanie i przypisywanie wybierz pozycję Przejrzyj i przypisz, aby przypisać rolę.

Oto, co się dzieje dalej:

Zaproszenie e-mail jest automatycznie wysyłane do użytkowników.

Uwaga

Jeśli użytkownicy nie otrzymają wiadomości e-mail z zaproszeniem, możesz wyszukać swoje konto w obszarze Przypisania ról i przejść do swojego profilu. >i wybierz pozycję (zarządzaj), aby ponownie wysłać zaproszenie e-mail. Możesz również skopiować i wysłać do nich link zaproszenia.
Mogą ją zaakceptować, wybierając pozycję Zaakceptuj zaproszenie>Zaakceptuj, aby dołączyć do platformy Azure w wiadomości e-mail.
Następnie nastąpi przekierowanie do witryny Azure Portal. Nie muszą podejmować dalszych działań w witrynie Azure Portal.
Po kilku chwilach użytkownicy zostaną przypisani do roli w zakresie zasobów usługi Mowa, co daje im dostęp do tego zasobu usługi Mowa.

Użytkownicy odwiedzają teraz lub odświeżają stronę produktu Tworzenie zawartości audio i logują się przy użyciu konta Microsoft. Wybierają blok Tworzenia zawartości audio wśród wszystkich produktów mowy. Wybierają zasób usługi Mowa w oknie podręcznym lub w ustawieniach w prawym górnym rogu.

Jeśli nie mogą znaleźć dostępnego zasobu usługi Mowa, mogą sprawdzić, czy znajdują się one w odpowiednim katalogu. W tym celu wybierają profil konta w prawym górnym rogu, a następnie wybierają pozycję Przełącz obok pozycji Bieżący katalog. Jeśli istnieje więcej niż jeden katalog, oznacza to, że mają dostęp do wielu katalogów. Mogą przełączyć się na różne katalogi i przejść do pozycji Ustawienia , aby sprawdzić, czy jest dostępny odpowiedni zasób usługi Mowa.

Użytkownicy, którzy znajdują się w tym samym zasobie usługi Mowa, widzą pracę między sobą w narzędziu do tworzenia zawartości audio. Jeśli chcesz, aby każdy użytkownik miał unikatowe i prywatne miejsce pracy w obszarze Tworzenie zawartości audio, utwórz nowy zasób usługi Mowa dla każdego użytkownika i nadaj każdemu użytkownikowi unikatowy dostęp do zasobu usługi Mowa.

Usuwanie użytkowników z zasobu usługi Mowa

Aby usunąć uprawnienie użytkownika z zasobu usługi Mowa, wykonaj następujące czynności:

Wyszukaj usługi Azure AI w witrynie Azure Portal, wybierz zasób usługi Mowa, z którego chcesz usunąć użytkowników.
Wybierz pozycję Kontrola dostępu (IAM), a następnie wybierz kartę Przypisania ról, aby wyświetlić wszystkie przypisania ról dla tego zasobu usługi Mowa.
Wybierz użytkowników, których chcesz usunąć, wybierz pozycję Usuń, a następnie wybierz przycisk OK.

Umożliwianie użytkownikom udzielania dostępu innym osobom

Jeśli chcesz zezwolić użytkownikowi na udzielanie dostępu innym użytkownikom, musisz przypisać im rolę właściciela dla zasobu usługi Mowa i ustawić użytkownika jako czytelnik katalogu platformy Azure.

Dodaj użytkownika jako właściciela zasobu usługi Mowa. Aby uzyskać więcej informacji, zobacz Dodawanie użytkowników do zasobu usługi Mowa.
W witrynie Azure Portal wybierz zwinięte menu w lewym górnym rogu, wybierz pozycję Microsoft Entra ID, a następnie wybierz pozycję Użytkownicy.
Wyszukaj konto Microsoft użytkownika, przejdź do strony szczegółów, a następnie wybierz pozycję Przypisane role.
Wybierz pozycję Dodaj przypisania>Czytelnicy katalogu. Jeśli przycisk Dodaj przypisania jest niedostępny, oznacza to, że nie masz dostępu. Aby przypisać role użytkownikom, musisz mieć rolę właściciela lub administratora dostępu użytkowników.