Syntéza řeči pomocí nástroje Pro vytváření zvukového obsahu

Článek
01/18/2024

Nástroj Pro vytváření zvukového obsahu v sadě Speech Studio pro syntézu textu můžete použít bez psaní kódu. Můžete použít výstupní zvuk tak, jak je, nebo jako výchozí bod pro další přizpůsobení.

Vytvářejte vysoce přirozený zvukový obsah pro různé scénáře, jako jsou audioknihy, news broadcasts, video mluvený komentář a chatovací roboti. Díky vytváření zvukového obsahu můžete efektivně vyladit text na řečové hlasy a navrhnout přizpůsobené zvukové prostředí.

Tento nástroj je založený na jazyku SSML (Speech Synthesis Markup Language). Umožňuje upravit text na atributy výstupu řeči v reálném čase nebo dávkové syntéze, jako jsou hlasové znaky, styly hlasu, rychlost mluvení, výslovnost a prosody.

Přístup bez kódu: Můžete použít nástroj pro vytváření zvukového obsahu pro syntézu textu na řeč bez psaní kódu. Výstupní zvuk může být konečný výstup, který chcete dodat. Můžete například použít výstupní zvuk pro podcast nebo video mluvený komentář.
Přívětivé pro vývojáře: Můžete poslouchat výstupní zvuk a upravit SSML, aby se zlepšila syntéza řeči. Pak můžete pomocí sady Speech SDK nebo rozhraní příkazového řádku služby Speech integrovat SSML do vašich aplikací. Můžete například použít SSML k vytvoření chatovacího robota.

Máte snadný přístup k širokému portfoliu jazyků a hlasů. Tyto hlasy zahrnují nejmodernější předem vytvořené neurální hlasy a vlastní neurální hlas, pokud jste ho vytvořili.

Další informace najdete v výukovém videu o vytváření zvukového obsahu na YouTube.

Začínáme

Nástroj Pro vytváření zvukového obsahu v nástroji Speech Studio je zdarma přístupný, ale platíte za využití služby Speech. Pokud chcete pracovat s nástrojem, musíte se přihlásit pomocí účtu Azure a vytvořit prostředek služby Speech. Pro každý účet Azure máte bezplatné měsíční kvóty řeči, které obsahují 0,5 milionu znaků pro předem připravené neurální hlasy (označované jako neurální na stránce s cenami). Obvykle je měsíční přidělená částka dostatečná pro malý tým obsahu přibližně 3 až 5 lidí.

V dalších částech se dozvíte, jak vytvořit účet Azure a získat prostředek služby Speech.

Krok 1: Vytvoření účtu Azure

Pokud chcete pracovat s vytvářením zvukového obsahu, potřebujete účet Microsoft a účet Azure.

Azure Portal je centralizované místo, kde můžete spravovat svůj účet Azure. Můžete vytvořit prostředek služby Speech, spravovat přístup k produktu a monitorovat vše od jednoduchých webových aplikací až po složitá cloudová nasazení.

Krok 2: Vytvoření prostředku služby Speech

Po registraci účtu Azure je potřeba vytvořit ve svém účtu Azure prostředek služby Speech pro přístup ke službám Speech. Na webu Azure Portal vytvořte prostředek služby Speech. Další informace najdete v tématu Vytvoření prostředku s více službami.

Nasazení nového prostředku služby Speech chvíli trvá. Po dokončení nasazení můžete začít používat nástroj Pro vytváření zvukového obsahu.

Poznámka:

Pokud plánujete používat neurální hlasy, ujistěte se, že vytváříte prostředek v oblasti, která podporuje neurální hlasy.

Po získání účtu Azure a prostředku služby Speech se přihlaste k sadě Speech Studio a pak vyberte Vytvoření zvukového obsahu.
Vyberte předplatné Azure a prostředek služby Speech, se kterým chcete pracovat, a pak vyberte Použít prostředek.

Při příštím přihlášení k vytvoření zvukového obsahu budete přímo propojeni se zvukovými pracovními soubory v rámci aktuálního prostředku služby Speech. Podrobnosti a stav předplatného Azure můžete zkontrolovat na webu Azure Portal.

Pokud nemáte dostupný prostředek služby Speech a jste vlastníkem nebo správcem předplatného Azure, můžete v sadě Speech Studio vytvořit prostředek služby Speech výběrem možnosti Vytvořit nový prostředek.

Pokud máte roli uživatele pro určité předplatné Azure, možná nemáte oprávnění k vytvoření nového prostředku služby Speech. Chcete-li získat přístup, kontaktujte správce.

Pokud chcete prostředek služby Speech kdykoli přepnout, vyberte Nastavení v horní části stránky.

Pokud chcete přepnout adresáře, vyberte Nastavení nebo přejděte do svého profilu.

Použití nástroje

Následující diagram znázorňuje proces vyladění výstupu převodu textu na řeč.

Diagram of the sequence of steps for fine-tuning text to speech outputs.

Jednotlivé kroky v předchozím diagramu jsou popsané tady:

Zvolte prostředek služby Speech, se kterým chcete pracovat.
Vytvořte soubor ladění zvuku pomocí prostého textu nebo skriptů SSML. Zadejte nebo nahrajte obsah do vytváření zvukového obsahu.
Zvolte hlas a jazyk pro obsah skriptu. Vytváření zvukového obsahu zahrnuje veškerý předem připravený text pro hlasové hlasy. Můžete použít předem sestavené neurální hlasy nebo vlastní neurální hlas.

Poznámka:

Přístup s bránou je k dispozici pro vlastní neurální hlas, který umožňuje vytvářet hlasy s vysokým rozlišením, které se podobají přirozenému zvuku řeči. Další informace najdete v tématu Proces Gating.
Vyberte obsah, který chcete zobrazit, a pak výběrem možnosti Přehrát (ikona trojúhelníku) zobrazte náhled výchozího výstupu syntézy.

Pokud v textu provedete nějaké změny, vyberte ikonu Zastavit a pak znovu vygenerujtezvuk se změněnými skripty.

Vylepšete výstup úpravou výslovnosti, přerušení, sklonu, rychlosti, intonace, stylu hlasu a dalších možností. Úplný seznam možností naleznete v tématu Speech Synthesis Markup Language.

Další informace o vyladění výstupu řeči najdete v tématu Jak převést text na řeč pomocí videa hlasu AI Microsoft Azure.
Uložte a exportujte vyladěný zvuk.

Když trasu ladění uložíte v systému, můžete pokračovat v práci a iterovat na výstupu. Až budete s výstupem spokojení, můžete vytvořit úlohu vytvoření zvuku pomocí funkce exportu. Můžete sledovat stav úlohy exportu a stáhnout výstup pro použití s vašimi aplikacemi a produkty.

Vytvoření souboru pro ladění zvuku

Obsah můžete do nástroje pro vytváření zvukového obsahu získat dvěma způsoby:

Možnost 1
1. Vyberte Nový>textový soubor a vytvořte nový soubor pro ladění zvuku.
2. Zadejte nebo vložte obsah do okna pro úpravy. Povolený počet znaků pro každý soubor je 20 000 nebo méně. Pokud váš skript obsahuje více než 20 000 znaků, můžete použít možnost 2 k automatickému rozdělení obsahu do více souborů.
3. Zvolte Uložit.

Možnost 2

Vyberte Nahrát>textový soubor a naimportujte jeden nebo více textových souborů. Podporuje se prostý text i SSML.

Pokud je soubor skriptu delší než 20 000 znaků, rozdělte obsah podle odstavců, znaky nebo regulárních výrazů.

Při nahrávání textových souborů se ujistěte, že splňují tyto požadavky:

Vlastnost	Popis
File format	Prostý text (.txt)* Text SSML (.txt)** Soubory ZIP se nepodporují.
Formát kódování	UTF-8
Název souboru	Každý soubor musí mít jedinečný název. Duplicitní soubory nejsou podporované.
Délka textu	Limit znaků je 20 000. Pokud vaše soubory překročí limit, rozdělte je podle pokynů v nástroji.
Omezení SSML	Každý soubor SSML může obsahovat pouze jeden kus SSML.

* Příklad prostého textu:

Welcome to use Audio Content Creation to customize audio output for your products.

** Příklad textu SSML:

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
    Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
    </voice>
</speak>

Export vyladěného zvuku

Jakmile zkontrolujete zvukový výstup a budete spokojeni s laděním a úpravou, můžete zvuk exportovat.

Výběrem možnosti Exportovat vytvořte úlohu vytváření zvuku.

Doporučujeme exportovat do zvukové knihovny pro snadné ukládání, hledání a vyhledávání zvukového výstupu v cloudu. Integraci s aplikacemi můžete lépe integrovat prostřednictvím služby Azure Blob Storage. Zvuk si také můžete stáhnout přímo na místní disk.

Zvolte výstupní formát pro váš vyladěný zvuk. Podporované formáty zvuku a vzorkovací frekvence jsou uvedeny v následující tabulce:

Formát	Vzorkovací frekvence 8 kHz	Vzorkovací frekvence 16 kHz	Vzorkovací frekvence 24 kHz	Vzorkovací frekvence 48 kHz
Wav	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
Mp3	–	audio-16khz-128kbitrate-mono-mp3	audio-24khz-160kbitrate-mono-mp3	audio-48khz-192kbitrate-mono-mp3

Pokud chcete zobrazit stav úkolu, vyberte kartu Seznam úkolů.

Pokud úloha selže, podívejte se na stránku s podrobnými informacemi o úplné sestavě.
Po dokončení úlohy je zvuk dostupný ke stažení v podokně Knihovna zvuku.
Vyberte soubor, který chcete stáhnout a stáhnout.

Teď jste připraveni používat vlastní vyladěný zvuk v aplikacích nebo produktech.

Konfigurace BYOS a anonymního veřejného přístupu pro čtení pro objekty blob

Pokud ztratíte oprávnění k přístupu k vašemu vlastnímu úložišti (BYOS), nemůžete zobrazit, vytvářet, upravovat nebo odstraňovat soubory. Pokud chcete pokračovat v přístupu, musíte odebrat aktuální úložiště a znovu nakonfigurovat BYOS na webu Azure Portal. Další informace o tom, jak nakonfigurovat BYOS, najdete v tématu Připojení Azure Storage jako místní sdílené složky ve službě App Service.

Po konfiguraci oprávnění BYOS je potřeba nakonfigurovat anonymní veřejný přístup pro čtení pro související kontejnery a objekty blob. V opačném případě nejsou data objektů blob dostupná pro veřejný přístup a váš soubor lexicon v objektu blob je nedostupný. Ve výchozím nastavení je nastavení veřejného přístupu kontejneru zakázané. Pokud chcete anonymním uživatelům udělit přístup pro čtení ke kontejneru a jeho objektům blob, nejprve nastavte možnost Povolit veřejný přístupk objektu blob tak, aby umožňovala veřejný přístup k účtu úložiště, a pak nastavte úroveň veřejného přístupu kontejneru (pojmenované acc-public-files) (anonymní přístup pro čtení pouze pro objekty blob). Další informace o konfiguraci anonymního veřejného přístupu pro čtení najdete v tématu Konfigurace anonymního veřejného přístupu pro čtení pro kontejnery a objekty blob.

Přidání nebo odebrání uživatelů vytváření zvukového obsahu

Pokud více než jeden uživatel chce použít vytváření zvukového obsahu, můžete mu udělit přístup k předplatnému Azure a prostředku služby Speech. Pokud přidáte uživatele do předplatného Azure, budou mít přístup ke všem prostředkům v rámci předplatného Azure. Pokud ale přidáte uživatele jenom do prostředku služby Speech, budou mít přístup jenom k prostředku služby Speech, a ne k jiným prostředkům v rámci tohoto předplatného Azure. Uživatelé s přístupem k prostředku Služby Speech můžou použít nástroj pro vytváření zvukového obsahu.

Uživatelé, kteří udělíte přístup, aby mohli nastavit účet Microsoft. Pokud účet Microsoft nemá, může si ho během několika minut vytvořit. Můžou použít svůj stávající e-mail a propojit ho s účtem Microsoft, nebo si můžou vytvořit a použít e-mailovou adresu Outlooku jako účet Microsoft.

Přidání uživatelů do prostředku služby Speech

Pokud chcete přidat uživatele do prostředku služby Speech, aby mohli používat vytváření zvukového obsahu, postupujte takto:

Na webu Azure Portal vyberte Všechny služby.
Pak vyberte služby Azure AI a přejděte ke konkrétnímu prostředku služby Speech.

Poznámka:

Azure RBAC můžete také nastavit pro celé skupiny prostředků, předplatná nebo skupiny pro správu. Uděláte to tak, že vyberete požadovanou úroveň oboru a pak přejdete na požadovanou položku (například výběrem skupin prostředků a následným kliknutím na požadovanou skupinu prostředků).
V levém navigačním podokně vyberte Řízení přístupu (IAM ).
Vyberte Přidat přiřazení> role.
Na kartě Role na další obrazovce vyberte roli, kterou chcete přidat (v tomto případě Vlastník).
Na kartě Členové zadejte e-mailovou adresu uživatele a vyberte jméno uživatele v adresáři. E-mailová adresa musí být propojená s účtem Microsoft, kterému důvěřuje ID Microsoft Entra. Uživatelé se můžou snadno zaregistrovat k účtu Microsoft pomocí své osobní e-mailové adresy.
Na kartě Zkontrolovat a přiřadit vyberte možnost Zkontrolovat a přiřadit a přiřaďte roli.

Co se stane dál:

Uživatelům se automaticky odešle e-mailová pozvánka. Můžou ho přijmout tak, že v e-mailu vyberou Přijmout přijetí pozvánky>, aby se připojili k Azure. Pak se přesměrují na web Azure Portal. Na webu Azure Portal nemusí provádět další akce. Po chvíli se uživatelům přiřadí role v oboru prostředku služby Speech, který jim dává přístup k tomuto prostředku služby Speech. Pokud uživatelé neobdrží e-mail s pozvánkou, můžete vyhledat svůj účet v části Přiřazení rolí a přejít do svého profilu. Vyhledejte pozvánku k identitě>přijatou a vyberte (spravovat) a odešlete e-mailovou pozvánku znovu. Můžete jim také zkopírovat a poslat odkaz na pozvánku.

Uživatelé teď navštíví nebo aktualizují stránku produktu Pro vytvoření zvukového obsahu a přihlásí se pomocí svého účtu Microsoft. Vyberou blok Vytváření zvukového obsahu ve všech řečových produktech. Vyberou prostředek služby Speech v automaticky otevíraných oknech nebo v nastavení v pravém horním rohu.

Pokud nemůžou najít dostupný prostředek služby Speech, můžou zkontrolovat, jestli jsou ve správném adresáři. Uděláte to tak, že vyberou profil účtu v pravém horním rohu a pak vyberou Přepínač vedle aktuálního adresáře. Pokud je k dispozici více adresářů, znamená to, že mají přístup k více adresářům. Můžou přepnout do různých adresářů a přejít na Nastavení a zjistit, jestli je k dispozici správný prostředek služby Speech.

Uživatelé, kteří jsou ve stejném prostředku služby Speech, vidí práci ostatních v nástroji Pro vytváření zvukového obsahu. Pokud chcete, aby každý jednotlivý uživatel měl jedinečné a soukromé pracoviště ve vytváření zvukového obsahu, vytvořte pro každého uživatele nový prostředek služby Speech a dejte každému uživateli jedinečný přístup k prostředku služby Speech.

Odebrání uživatelů z prostředku služby Speech

Na webu Azure Portal vyhledejte služby Azure AI a vyberte prostředek služby Speech, ze kterého chcete uživatele odebrat.
Vyberte Řízení přístupu (IAM) a pak vyberte kartu Přiřazení rolí, abyste zobrazili všechna přiřazení rolí pro tento prostředek služby Speech.
Vyberte uživatele, které chcete odebrat, vyberte Odebrat a pak vyberte OK.

Povolení přístupu uživatelům k ostatním uživatelům

Pokud chcete uživateli povolit udělení přístupu jiným uživatelům, musíte mu přiřadit roli vlastníka prostředku služby Speech a nastavit uživatele jako čtenář adresáře Azure.

Přidejte uživatele jako vlastníka prostředku služby Speech. Další informace najdete v tématu Přidání uživatelů do prostředku služby Speech.
Na webu Azure Portal vyberte sbalenou nabídku vlevo nahoře, vyberte ID Microsoft Entra a pak vyberte Uživatelé.
Vyhledejte účet Microsoft uživatele, přejděte na stránku podrobností a vyberte Přiřazené role.
Vyberte Přidat přiřazení Čtenáři> adresáře. Pokud tlačítko Přidat zadání není k dispozici, znamená to, že nemáte přístup. Přiřazení uživatelům může přidat pouze globální správce tohoto adresáře.

Syntéza řeči pomocí nástroje Pro vytváření zvukového obsahu

Začínáme

Krok 1: Vytvoření účtu Azure

Krok 2: Vytvoření prostředku služby Speech

Použití nástroje

Vytvoření souboru pro ladění zvuku

Export vyladěného zvuku

Konfigurace BYOS a anonymního veřejného přístupu pro čtení pro objekty blob

Přidání nebo odebrání uživatelů vytváření zvukového obsahu

Přidání uživatelů do prostředku služby Speech

Odebrání uživatelů z prostředku služby Speech

Povolení přístupu uživatelům k ostatním uživatelům

Další kroky

Další materiály

Syntéza řeči pomocí nástroje Pro vytváření zvukového obsahu

Začínáme

Krok 1: Vytvoření účtu Azure

Krok 2: Vytvoření prostředku služby Speech

Krok 3: Přihlášení k vytvoření zvukového obsahu pomocí účtu Azure a prostředku služby Speech

Použití nástroje

Vytvoření souboru pro ladění zvuku

Export vyladěného zvuku

Konfigurace BYOS a anonymního veřejného přístupu pro čtení pro objekty blob

Přidání nebo odebrání uživatelů vytváření zvukového obsahu

Přidání uživatelů do prostředku služby Speech

Odebrání uživatelů z prostředku služby Speech

Povolení přístupu uživatelům k ostatním uživatelům

Další kroky

Další materiály