Co je převod textu na řeč?
V tomto přehledu se dozvíte o výhodách a možnostech funkce převodu textu na řeč služby Speech, která je součástí služeb Azure Cognitive Services.
Převod textu na řeč umožňuje vašim aplikacím, nástrojům nebo zařízením převádět text na syntetizovanou řeč, která se bude podobat člověku. Funkce převodu textu na řeč se označuje také jako syntéza řeči. Používejte předem vytvořené lidské neurální hlasy nebo si vytvořte vlastní neurální hlas, který je jedinečný pro váš produkt nebo značku. Úplný seznam podporovaných hlasů, jazyků a národních prostředí najdete v tématu Podpora jazyka a hlasu pro službu Speech.
Základní funkce
Převod textu na řeč zahrnuje následující funkce:
Funkce | Souhrn | Ukázka |
---|---|---|
Předem vytvořený neurální hlas (na stránce s cenami se nazývá neurální) | Velmi přirozené předpřirozené hlasy. Vytvořte účet Azure a předplatné služby Speech a pak použijte sadu Speech SDK nebo přejděte na portál Speech Studio a vyberte předem vytvořené neurální hlasy, abyste mohli začít. Podívejte se na podrobnosti o cenách. | Podívejte se do Galerie hlasu a zjistěte, který hlas je pro vaše obchodní potřeby ten správný. |
Vlastní neurální hlas (na stránce s cenami se nazývá Vlastní neurální) | Snadno použitelná samoobslužná služba pro vytvoření přirozeného hlasu značky s omezeným přístupem pro zodpovědné používání. Vytvořte účet Azure a předplatné služby Speech (s úrovní S0) a použijte vlastní neurální funkci. Jakmile vám udělíte přístup, přejděte na portál Speech Studio a vyberte Vlastní hlas , abyste mohli začít. Podívejte se na podrobnosti o cenách. | Zkontrolujte ukázky hlasu. |
Další informace o neurálních funkcích převodu textu na řeč
Funkce převodu textu na řeč služby Speech v Azure byla plně upgradována na neurální modul převodu textu na řeč. Tento modul používá hluboké neurální sítě k tomu, aby hlasy počítačů byly téměř nerozeznatelné od záznamů lidí. Díky jasnému artikulaci slov neurální převod textu na řeč výrazně snižuje únavu při poslechu, když uživatelé interagují se systémy AI.
Vzorce stresu a intonace v mluveném jazyce se nazývají prosody. Tradiční systémy převodu textu na řeč rozdělují prosody na samostatné kroky lingvistické analýzy a akustické předpovědi, které se řídí nezávislými modely. To může vést k tlumené, bzučící syntéze hlasu.
Tady jsou další informace o neurálních funkcích převodu textu na řeč ve službě Speech a o tom, jak překonat limity tradičních systémů převodu textu na řeč:
Syntéza řeči v reálném čase: Pomocí sady Speech SDK nebo rozhraní REST API můžete převádět text na řeč pomocí předem vytvořených neurálních hlasů nebo vlastních neurálních hlasů.
Asynchronní syntéza dlouhého zvuku: Pomocí rozhraní API dávkové syntézy (Preview) můžete asynchronně syntetizovat soubory převodu textu na řeč delší než 10 minut (například zvukové knihy nebo přednášky). Na rozdíl od syntézy prováděné pomocí sady Speech SDK nebo rozhraní REST API pro převod řeči na text se odpovědi nevracejí v reálném čase. Očekává se, že se požadavky odesílají asynchronně, odpovědi se dotazují na a syntetizovaný zvuk se stáhne, jakmile ho služba zpřístupní.
Předem vytvořené neurální hlasy: Funkce neurálního převodu textu na řeč od Microsoftu využívá hluboké neurální sítě k překonání limitů tradiční syntézy řeči s ohledem na stres a intonaci v mluveném jazyce. Predikce prosody a syntéza hlasu probíhají současně, což vede k plynulejším a přirozeně znějícím výstupům. Každý předem připravený model neurálního hlasu je k dispozici na 24 kHz a s vysokou věrností 48 kHz. Neurální hlasy můžete použít k:
- Díky tomu budou interakce s chatovacími roboty a hlasovými asistenty přirozenější a poutavější.
- Převod digitálních textů, jako jsou elektronické knihy, na audioknihy.
- Vylepšete navigační systémy v autě.
Úplný seznam neurálních hlasů platformy najdete v tématu Podpora jazyka a hlasu pro službu Speech.
Jemné ladění výstupu textu na řeč pomocí SSML: Jazyk SSML (Speech Synthesis Markup Language) je jazyk pro značky založený na jazyce XML, který se používá k přizpůsobení výstupů převodu textu na řeč. Pomocí SSML můžete upravit výšku tónu, přidat pauzy, zlepšit výslovnost, změnit rychlost mluvení, upravit hlasitost a přiřadit více hlasů jednomu dokumentu.
Pomocí jazyka SSML můžete definovat vlastní slovníky nebo přepnout na jiné styly mluvení. Pomocí vícejazyčných hlasů můžete také upravit mluvený jazyk prostřednictvím SSML. Pokud chcete vyladit hlasový výstup pro váš scénář, přečtěte si téma Vylepšení syntézy pomocí jazyka speech Synthesis Markup Language a Syntéza řeči pomocí nástroje Pro vytváření zvukového obsahu.
Visemes: Visemes jsou klíčovými pozicemi v pozorované řeči, včetně pozice rtů, čelistí a jazyka při vytváření konkrétního fonému. Viseme mají silnou korelaci s hlasy a fonémy.
Pomocí událostí viseme v sadě Speech SDK můžete generovat data animace obličeje. Tato data se dají použít k animaci tváří v komunikaci, vzdělávání, zábavě a zákaznickém servisu. Viseme se v současné době podporuje jenom pro
en-US
neurální hlasy (angličtina USA).
Poznámka
V roce 2024 plánujeme vyřadit tradiční/standardní hlasy a neurální vlastní hlasy. Potom už je nebudeme podporovat.
Pokud vaše aplikace, nástroje nebo produkty používají některý ze standardních a vlastních hlasů, musíte migrovat na neurální verzi. Další informace najdete v tématu Migrace na neurální hlasy.
Začínáme
Pokud chcete začít s převodem textu na řeč, podívejte se na rychlý start. Převod textu na řeč je k dispozici prostřednictvím sady Speech SDK, rozhraní REST API a rozhraní příkazového řádku služby Speech.
Tip
Pokud chcete převést text na řeč bez kódu, vyzkoušejte nástroj pro vytváření zvukového obsahu v nástroji Speech Studio.
Ukázka kódu
Ukázkový kód pro převod textu na řeč je k dispozici na GitHubu. Tyto ukázky pokrývají převod textu na řeč v nejoblíbenějších programovacích jazycích:
Vlastní neurální hlas
Kromě předem vytvořených neurálních hlasů můžete vytvářet a dolaďovat vlastní neurální hlasy, které jsou jedinečné pro váš produkt nebo značku. Vše, co je potřeba k tomu, abyste mohli začít, je několik zvukových souborů a související přepisy. Další informace najdete v tématu Začínáme s vlastním neurálním hlasem.
Poznámka k ceně
Fakturovatelné znaky
Při použití funkce převodu textu na řeč se vám účtují všechny znaky převedené na řeč, včetně interpunkce. I když samotný dokument SSML není fakturovatelný, volitelné prvky, které se používají k úpravě způsobu převodu textu na řeč, jako jsou fonémy a tóny, se započítávají jako fakturovatelné znaky. Tady je seznam fakturovatelných položek:
- Text předaný funkci převodu textu na řeč v textu SSML požadavku
- Všechny značky v textovém poli textu požadavku ve formátu SSML, s výjimkou
<speak>
značek a<voice>
- Písmena, interpunkce, mezery, tabulátory, značky a všechny prázdné znaky
- Každý bod kódu definovaný v kódování Unicode
Podrobné informace najdete v tématu Ceny služby Speech.
Důležité
Každý čínský znak se počítá jako dva znaky pro fakturaci, včetně kanji používaného v japonštině, hanja používaného v korejštině nebo hanzi používaného v jiných jazycích.
Trénování modelu a čas hostování pro vlastní neurální hlas
Trénování a hostování vlastního neurálního hlasu se počítá podle hodin a účtuje se za sekundu. Cenu za fakturační jednotku najdete v tématu Ceny služby Speech.
Čas trénování vlastního neurálního hlasu (CNV) se měří pomocí výpočetní hodiny (jednotka pro měření doby běhu počítače). Při trénování hlasového modelu obvykle běží paralelně dvě výpočetní úlohy. Počítané výpočetní hodiny tedy budou delší než skutečná doba trénování. V průměru trvá méně než jednu výpočetní hodinu trénování hlasu CNV Lite; zatímco u CNV Pro obvykle trvá trénování hlasu v jednom stylu 20 až 40 výpočetních hodin a přibližně 90 výpočetních hodin na trénování hlasu s více styly. Doba trénování CNV se účtuje s limitem 96 výpočetních hodin. Takže v případě, že se hlasový model vytrénuje v 98 výpočetních hodinách, bude se vám účtovat jenom 96 výpočetních hodin.
Hostování vlastního neurálního hlasu (CNV) koncového bodu se měří podle skutečného času (hodiny). Čas hostování (hodiny) každého koncového bodu se počítá každý den v 00:00 UTC za předchozích 24 hodin. Pokud je například koncový bod aktivní 24 hodin prvního dne, bude se účtovat 24 hodin druhý den v 00:00 UTC. Pokud je koncový bod nově vytvořený nebo pozastavený během dne, bude se mu účtovat jeho kumulovaná doba běhu do 00:00 UTC druhého dne. Pokud koncový bod není aktuálně hostovaný, nebude se vám účtovat. Kromě denního výpočtu v 00:00 UTC se fakturace aktivuje také okamžitě při odstranění nebo pozastavení koncového bodu. Například pro koncový bod vytvořený 1. prosince v 08:00 UTC se hodina hostování vypočítá na 16 hodin v 00:00 UTC dne 2. prosince a 3. prosince 24 hodin v 00:00 UTC. Pokud uživatel pozastaví hostování koncového bodu 3. prosince v 16:30 UTC, pro fakturaci se vypočítá doba trvání (16,5 hodiny) od 00:00 do 16:30 UTC dne 3. prosince.