Syntéza řeči pomocí nástroje pro vytváření zvukového obsahu

Nástroj pro vytváření zvukového obsahu v nástroji Speech Studio můžete použít k syntéze textu na řeč, aniž byste museli psát jakýkoli kód. Výstupní zvuk můžete použít tak, jak je, nebo jako výchozí bod pro další přizpůsobení.

Vytvářejte vysoce přirozený zvukový obsah pro různé scénáře, jako jsou audioknihy, vysílání zpráv, mluvený komentář a chatovací roboti. Díky vytváření zvukového obsahu můžete efektivně vyladit hlasy pro převod textu na řeč a navrhnout přizpůsobené zvukové prostředí.

Nástroj je založený na jazyce SSML (Speech Synthesis Markup Language). Umožňuje upravit atributy výstupu textu na řeč v reálném čase nebo dávkové syntéze, jako jsou hlasové znaky, styly hlasu, rychlost řeči, výslovnost a prosodie.

  • Přístup bez kódu: Nástroj pro vytváření zvukového obsahu můžete použít k syntéze textu na řeč bez psaní kódu. Výstupní zvuk může být finálním požadovaným výstupem. Můžete například použít výstupní zvuk pro podcast nebo video mluvený komentář.
  • Vhodné pro vývojáře: Můžete poslouchat výstupní zvuk a upravit SSML tak, abyste vylepšili syntézu řeči. Pak můžete pomocí sady Speech SDK nebo rozhraní příkazového řádku služby Speech integrovat SSML do vašich aplikací. SSML můžete například použít k vytvoření chatovacího robota.

Máte snadný přístup k širokému portfoliu jazyků a hlasů. Tyto hlasy zahrnují nejmodernější předem vytvořené neurální hlasy a vlastní neurální hlas, pokud jste ho vytvořili.

Další informace najdete v výukovém videu o vytváření zvukového obsahu na YouTube.

Začínáme

Nástroj pro vytváření zvukového obsahu v nástroji Speech Studio je bezplatný, ale za používání služby Speech budete platit. Pokud chcete s nástrojem pracovat, musíte se přihlásit pomocí účtu Azure a vytvořit prostředek služby Speech. Pro každý účet Azure máte bezplatné měsíční kvóty řeči, které obsahují 0,5 milionu znaků pro předem vytvořené neurální hlasy (na stránce s cenami se označují jako neurální). Měsíční přidělená částka obvykle stačí pro malý obsahový tým, který má přibližně 3 až 5 lidí.

V dalších částech se dozvíte, jak vytvořit účet Azure a získat prostředek služby Speech.

Krok 1: Vytvoření účtu Azure

Pokud chcete pracovat s vytvářením zvukového obsahu, potřebujete účet Microsoft a účet Azure.

Azure Portal je centralizované místo, kde můžete spravovat svůj účet Azure. Můžete vytvořit prostředek služby Speech, spravovat přístup k produktu a monitorovat vše od jednoduchých webových aplikací až po složitá cloudová nasazení.

Krok 2: Vytvoření prostředku služby Speech

Po registraci účtu Azure musíte ve svém účtu Azure vytvořit prostředek služby Speech, abyste měli přístup ke službám Speech. Vytvořte prostředek služby Speech na Azure Portal. Další informace najdete v tématu Vytvoření nového prostředku Azure Cognitive Services.

Nasazení nového prostředku služby Speech chvíli trvá. Po dokončení nasazení můžete začít používat nástroj pro vytváření zvukového obsahu.

Poznámka

Pokud plánujete používat neurální hlasy, nezapomeňte vytvořit prostředek v oblasti, která podporuje neurální hlasy.

Krok 3: Přihlášení k vytvoření zvukového obsahu pomocí účtu Azure a prostředku služby Speech

  1. Jakmile získáte účet Azure a prostředek služby Speech, přihlaste se k nástroji Speech Studio a pak vyberte Vytvoření zvukového obsahu.

  2. Vyberte předplatné Azure a prostředek služby Speech, se kterými chcete pracovat, a pak vyberte Použít prostředek.

    Až se příště přihlásíte k vytvoření zvukového obsahu, propojíte se přímo se zvukovými pracovními soubory v aktuálním prostředku služby Speech. Podrobnosti a stav předplatného Azure můžete zkontrolovat v Azure Portal.

    Pokud nemáte dostupný prostředek služby Speech a jste vlastníkem nebo správcem předplatného Azure, můžete prostředek služby Speech vytvořit v speech studiu výběrem možnosti Vytvořit nový prostředek.

    Pokud máte roli uživatele pro určité předplatné Azure, možná nemáte oprávnění k vytvoření nového prostředku služby Speech. Pokud chcete získat přístup, obraťte se na správce.

    Pokud chcete prostředek služby Speech kdykoli přepnout, vyberte Nastavení v horní části stránky.

    Pokud chcete přepnout adresáře, vyberte Nastavení nebo přejděte do svého profilu.

Použití nástroje

Následující diagram znázorňuje proces vyladění výstupů převodu textu na řeč.

Diagram posloupnosti kroků pro vyladění výstupů převodu textu na řeč

Jednotlivé kroky v předchozím diagramu jsou popsané tady:

  1. Zvolte prostředek služby Speech, se kterým chcete pracovat.

  2. Vytvořte soubor ladění zvuku pomocí prostého textu nebo skriptů SSML. Zadejte nebo nahrajte svůj obsah do vytváření zvukového obsahu.

  3. Zvolte hlas a jazyk obsahu skriptu. Vytváření zvukového obsahu zahrnuje všechny předem připravené hlasy převodu textu na řeč. Můžete použít předem vytvořené neurální hlasy nebo vlastní neurální hlas.

    Poznámka

    Hradený přístup je k dispozici pro funkci Vlastní neurální hlas, která umožňuje vytvářet hlasy ve vysokém rozlišení, které se podobají přirozeně znějící řeči. Další informace najdete v tématu Proces Gating.

  4. Vyberte obsah, u kterého chcete zobrazit náhled, a pak vyberte Přehrát (ikona trojúhelníku) a zobrazte náhled výchozího výstupu syntézy.

    Pokud v textu provedete nějaké změny, vyberte ikonu Zastavit a pak znovu vyberte Přehrát , aby se zvuk znovu vygeneruje se změněnými skripty.

    Vylepšete výstup úpravou výslovnosti, přerušení, výšky hlasu, rychlosti, intonace, stylu hlasu a dalších možností. Úplný seznam možností najdete v tématu Jazyk pro značky syntézy řeči.

    Další informace o vyladění výstupu řeči najdete ve videu Jak převést text na řeč pomocí hlasů Microsoft Azure AI .

  5. Uložte a vyexportujte vyladěný zvuk.

    Když uložíte trasu ladění v systému, můžete pokračovat v práci a iterovat výstup. Až budete s výstupem spokojení, můžete vytvořit úlohu vytvoření zvuku pomocí funkce exportu. Můžete sledovat stav úlohy exportu a stáhnout výstup pro použití s vašimi aplikacemi a produkty.

Vytvoření souboru pro ladění zvuku

Obsah můžete do nástroje pro vytváření zvukového obsahu dostat jedním ze dvou způsobů:

  • Možnost 1

    1. Vyberte Nový>textový soubor a vytvořte nový soubor pro ladění zvuku.

    2. Zadejte nebo vložte obsah do okna pro úpravy. Povolený počet znaků pro každý soubor je 20 000 nebo méně. Pokud skript obsahuje více než 20 000 znaků, můžete použít možnost 2 k automatickému rozdělení obsahu do více souborů.

    3. Vyberte Uložit.

  • Možnost 2

    1. Vyberte Nahrát>textový soubor a naimportujte jeden nebo více textových souborů. Podporuje se prostý text i SSML.

      Pokud má soubor skriptu více než 20 000 znaků, rozdělte obsah podle odstavců, znaků nebo regulárních výrazů.

    2. Při nahrávání textových souborů se ujistěte, že splňují tyto požadavky:

      Vlastnost Popis
      Formát souboru Prostý text (.txt)*
      Text SSML (.txt)**
      Soubory ZIP nejsou podporované.
      Formát kódování UTF-8
      Název souboru Každý soubor musí mít jedinečný název. Duplicitní soubory nejsou podporovány.
      Délka textu Limit počtu znaků je 20 000. Pokud vaše soubory překročí limit, rozdělte je podle pokynů v nástroji.
      Omezení SSML Každý soubor SSML může obsahovat jenom jednu část SSML.

      * Příklad prostého textu:

      Welcome to use Audio Content Creation to customize audio output for your products.
      

      ** Příklad textu SSML:

      <speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
          <voice name="Microsoft Server Speech Text to Speech Voice (en-US, JennyNeural)">
          Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
          </voice>
      </speak>
      

Export vyladěného zvuku

Po kontrole zvukového výstupu a spokojenosti s laděním a úpravami můžete zvuk exportovat.

  1. Vyberte Exportovat a vytvořte úlohu vytvoření zvuku.

    Doporučujeme exportovat do zvukové knihovny , abyste mohli zvukový výstup snadno ukládat, vyhledávat a prohledávat v cloudu. Můžete lépe integrovat se svými aplikacemi prostřednictvím služby Azure Blob Storage. Zvuk si také můžete stáhnout přímo na místní disk.

  2. Zvolte výstupní formát vyladěného zvuku. Podporované zvukové formáty a vzorkovací frekvence jsou uvedené v následující tabulce:

    Formát Vzorkovací frekvence 8 kHz Vzorkovací frekvence 16 kHz Vzorkovací frekvence 24 kHz Vzorkovací frekvence 48 kHz
    Wav riff-8kHz-16bit-mono-pcm riff-16kHz-16bit-mono-pcm riff-24kHz-16bit-mono-pcm riff-48kHz-16bit-mono-pcm
    Mp3 audio-16kHz-128kbitrate-mono-mp3 audio-24kHz-160kbitrate-mono-mp3 audio-48kHz-192kbitrate-mono-mp3
  3. Pokud chcete zobrazit stav úkolu, vyberte kartu Seznam úkolů .

    Pokud úloha selže, podívejte se na stránku s podrobnými informacemi o úplné sestavě.

  4. Po dokončení úlohy bude zvuk dostupný ke stažení v podokně Zvuková knihovna .

  5. Vyberte soubor, který chcete stáhnout, a Stáhnout.

    Teď jste připraveni používat vlastní vyladěný zvuk ve svých aplikacích nebo produktech.

Přidání nebo odebrání uživatelů vytváření zvukového obsahu

Pokud vytváření zvukového obsahu chce používat více uživatelů, můžete jim udělit přístup k předplatnému Azure a prostředku Služby Speech. Pokud přidáte uživatele do předplatného Azure, budou mít přístup ke všem prostředkům v rámci předplatného Azure. Pokud ale přidáte uživatele jenom do prostředku služby Speech, budou mít přístup jenom k prostředku služby Speech, a ne k dalším prostředkům v rámci tohoto předplatného Azure. Uživatelé s přístupem k prostředku Speech můžou použít nástroj pro vytváření zvukového obsahu.

Uživatelé, kteří udělíte přístup, musí nastavit účet Microsoft. Pokud účet Microsoft nemá, může si ho během několika minut vytvořit. Můžou použít svůj stávající e-mail a propojit ho s účtem Microsoft nebo si můžou vytvořit a používat e-mailovou adresu Outlooku jako účet Microsoft.

Přidání uživatelů do prostředku služby Speech

Pokud chcete přidat uživatele do prostředku služby Speech, aby mohli používat vytváření zvukového obsahu, postupujte takto:

  1. V Azure Portal vyberte Všechny služby.
  2. Pak vyberte Cognitive Services a přejděte ke svému konkrétnímu prostředku Speech.

    Poznámka

    Azure RBAC můžete také nastavit pro celé skupiny prostředků, předplatná nebo skupiny pro správu. Uděláte to tak, že vyberete požadovanou úroveň oboru a pak přejdete na požadovanou položku (například vyberete Skupiny prostředků a pak kliknete na požadovanou skupinu prostředků).

  3. V levém navigačním podokně vyberte Řízení přístupu (IAM).
  4. Vyberte Přidat ->Přidat přiřazení role.
  5. Na kartě Role na další obrazovce vyberte roli, kterou chcete přidat (v tomto případě Vlastník).
  6. Na kartě Členové zadejte e-mailovou adresu uživatele a vyberte jméno uživatele v adresáři. E-mailová adresa musí být propojená s účtem Microsoft, který je důvěryhodný službou Azure Active Directory. Uživatelé si můžou snadno zaregistrovat účet Microsoft pomocí své osobní e-mailové adresy.
  7. Na kartě Zkontrolovat a přiřadit vyberte možnost Zkontrolovat a přiřadit a přiřaďte roli.

Co se stane dál:

Uživatelům se automaticky odešle e-mailová pozvánka. Můžou ho přijmout tak, že ve svém e-mailu vyberou Přijmout pozvánku>Přijmout, aby se připojili k Azure . Pak se přesměrují na Azure Portal. V Azure Portal nemusí provádět další akce. Po chvíli se uživatelům přiřadí role v oboru prostředků služby Speech, což jim umožní přístup k tomuto prostředku služby Speech. Pokud uživatelé nedostanou e-mail s pozvánkou, můžete jejich účet vyhledat v části Přiřazení rolí a přejít do jejich profilu. Vyhledejte Pozvánku identity>přijato a výběrem (spravovat) e-mailovou pozvánku odešlete znovu. Můžete jim také zkopírovat a odeslat odkaz na pozvánku.

Uživatelé teď navštíví stránku produktu Vytváření zvukového obsahu nebo ji aktualizují a přihlásí se pomocí svého účtu Microsoft. Mezi všemi hlasovými produkty vyberou blok vytváření zvukového obsahu . Prostředek Speech zvolí v automaticky otevíraných oknech nebo v nastavení v pravém horním rohu.

Pokud nemůžou najít dostupný prostředek služby Speech, můžou zkontrolovat, jestli jsou ve správném adresáři. Provede to tak, že vybere profil účtu v pravém horním rohu a pak vybere Přepnout vedle aktuálního adresáře. Pokud je k dispozici více adresářů, znamená to, že mají přístup k více adresářům. Můžou přepnout do různých adresářů a přejít do Nastavení a zjistit, jestli je k dispozici správný prostředek služby Speech.

Uživatelé, kteří jsou ve stejném prostředku speech, uvidí práci ostatních v nástroji Pro vytváření zvukového obsahu. Pokud chcete, aby každý jednotlivý uživatel měl při vytváření zvukového obsahu jedinečné a soukromé pracoviště, vytvořte pro každého uživatele nový prostředek služby Speech a udělte každému uživateli jedinečný přístup k prostředku služby Speech.

Odebrání uživatelů z prostředku služby Speech

  1. V Azure Portal vyhledejte Cognitive Services a vyberte prostředek Speech, ze kterého chcete odebrat uživatele.

  2. Vyberte Řízení přístupu (IAM) a pak vyberte kartu Přiřazení rolí , abyste zobrazili všechna přiřazení rolí pro tento prostředek služby Speech.

  3. Vyberte uživatele, které chcete odebrat, vyberte Odebrat a pak vyberte OK.

    Snímek obrazovky s tlačítkem Odebrat v podokně Odebrat přiřazení rolí

Povolení uživatelům udělit přístup ostatním uživatelům

Pokud chcete uživateli povolit udělení přístupu jiným uživatelům, musíte jim přiřadit roli vlastníka prostředku Speech a nastavit uživatele jako čtenáře adresáře Azure.

  1. Přidejte uživatele jako vlastníka prostředku Speech. Další informace najdete v tématu Přidání uživatelů do prostředku služby Speech.

    Snímek obrazovky zobrazující roli Vlastník v podokně Přidat přiřazení role

  2. V Azure Portal vyberte v levém horním rohu sbalenou nabídku, vyberte Azure Active Directory a pak vyberte Uživatelé.

  3. Vyhledejte účet Microsoft uživatele, přejděte na jeho stránku podrobností a vyberte Přiřazené role.

  4. Vyberte Přidat přiřazení>Čtenáři adresáře. Pokud tlačítko Přidat přiřazení není dostupné, znamená to, že nemáte přístup. K uživatelům může přidávat přiřazení pouze globální správce tohoto adresáře.

Další kroky