Co je převod textu na řeč?

Článek
01/23/2024

V tomto přehledu se dozvíte o výhodách a možnostech funkce převodu textu na řeč služby Speech, která je součástí služeb Azure AI.

Text na řeč umožňuje vašim aplikacím, nástrojům nebo zařízením převést text na člověka, jako je syntetizovaná řeč. Funkce převodu textu na řeč se také označuje jako syntéza řeči. Používejte člověka jako předem připravené neurální hlasy nebo vytvořte vlastní neurální hlas, který je jedinečný pro váš produkt nebo značku. Úplný seznam podporovaných hlasů, jazyků a národních prostředí najdete v tématu Podpora jazyka a hlasu pro službu Speech.

Základní funkce

Převod textu na řeč zahrnuje následující funkce:

Funkce	Shrnutí	Ukázka
Předem připravený neurální hlas (na stránce s cenami se nazývá Neurální)	Velmi přirozené předpřirozené hlasy. Vytvořte účet Azure a předplatné služby Speech a pak použijte sadu Speech SDK nebo přejděte na portál Speech Studio a vyberte předem sestavené neurální hlasy, abyste mohli začít. Projděte si podrobnosti o cenách.	Zkontrolujte galerii hlasových hovorů a určete správný hlas pro vaše obchodní potřeby.
Vlastní neurální hlas (na stránce s cenami se nazývá Vlastní neurální)	Snadno použitelné samoobslužné služby pro vytvoření přirozeného hlasu značky s omezeným přístupem k zodpovědnému použití. Vytvořte účet Azure a předplatné služby Speech (s úrovní S0) a použijte vlastní neurální funkci. Po udělení přístupu přejděte na portál Speech Studio a začněte výběrem možnosti Vlastní hlas . Projděte si podrobnosti o cenách.	Projděte si ukázky hlasu.

Další informace o funkcích řeči v neurálním textu

Text na řeč používá hluboké neurální sítě k tomu, aby hlasy počítačů téměř nerozlišily od nahrávek lidí. Díky jasné artikulaci slov se neurální text na řeč výrazně snižuje únavu při interakci uživatelů se systémy AI.

Vzory stresu a intonace v mluveném jazyce se nazývají prosody. Tradiční textové systémy pro řeč rozdělují prosody do samostatných lingvistických analýz a kroků pro predikce akustických predikcí, které se řídí nezávislými modely. To může mít za následek bzučení, bzučení syntézy hlasu.

Tady jsou další informace o neurálních textech na řečové funkce ve službě Speech a o tom, jak překonat limity tradičních textových systémů na řečové systémy:

Syntéza řeči v reálném čase: Pomocí sady Speech SDK nebo rozhraní REST API můžete převést text na řeč pomocí předem připravených neurálních hlasů nebo vlastních neurálních hlasů.
Asynchronní syntéza dlouhého zvuku: Pomocí rozhraní API dávkové syntézy (Preview) můžete asynchronně syntetizovat text do hlasových souborů delších než 10 minut (například zvukové knihy nebo přednášky). Na rozdíl od syntézy prováděné pomocí sady Speech SDK nebo rozhraní REST API pro převod řeči na text se odpovědi nevrátí v reálném čase. Očekává se, že se požadavky odesílají asynchronně, odpovědi se dotazují a syntetizují zvuk, když je služba zpřístupní.
Předem vytvořené neurální hlasy: Funkce neurálního textu microsoftu pro řeč využívá hluboké neurální sítě k překonání limitů tradiční syntézy řeči týkající se stresu a intonace v mluveném jazyce. K prosody predikce a syntéze hlasu dochází současně, což vede k více tekutinám a přirozenému zvuku výstupů. Každý předem připravený neurální hlasový model je k dispozici na 24 kHz a s vysokou věrností 48 kHz. Neurální hlasy můžete použít k:
- Interakce s chatovacími roboty a hlasovými asistenty je přirozenější a poutavější.
- Převeďte digitální texty, jako jsou elektronické knihy, na audioknihy.
- Vylepšete navigační systémy v autě.
Úplný seznam neurálních hlasů platformy najdete v tématu Podpora jazyka a hlasu pro službu Speech.
Vyladění textu na výstup řeči pomocí SSML: Jazyk SSML (Speech Synthesis Markup Language) je jazyk založený na jazyce XML, který slouží k přizpůsobení textu na výstup řeči. Pomocí SSML můžete upravit výšku, přidat pauzy, zlepšit výslovnost, změnit rychlost mluvení, upravit hlasitost a přiřazovat více hlasů do jednoho dokumentu.

Pomocí SSML můžete definovat vlastní lexikony nebo přepnout na různé styly mluvení. Pomocí vícejazyčných hlasů můžete také upravit jazyky pro mluvení prostřednictvím SSML. Pokud chcete vyladit hlasový výstup pro váš scénář, přečtěte si téma Zlepšení syntézy pomocí jazyka značek pro syntézu řeči a syntézy řeči pomocí nástroje Pro vytváření zvukového obsahu.
Visemes: Visemes jsou klíčové pozice v pozorované řeči, včetně pozice rtů, jawy a jazyka při výrobě určitého fomusu. Visemes mají silnou korelaci s hlasy a fonety.

Pomocí událostí viseme v sadě Speech SDK můžete vygenerovat animační data obličeje. Tato data se dají použít k animaci tváří v komunikaci se rty, vzděláváním, zábavou a zákaznickým servisem. Viseme se v současné době podporuje jenom pro en-US neurální hlasy (angličtina v USA).

Poznámka:

V roce 2024 plánujeme vyřadit tradiční a standardní hlasy a neurální vlastní hlasy. Potom je už nebudeme podporovat.

Pokud vaše aplikace, nástroje nebo produkty používají některý ze standardních hlasů a vlastních hlasů, musíte migrovat na neurální verzi. Další informace naleznete v tématu Migrace na neurální hlasy.

Začínáme

Pokud chcete začít s převodem textu na řeč, podívejte se na rychlý start. Text na řeč je k dispozici prostřednictvím sady Speech SDK, rozhraní REST API a rozhraní příkazového řádku služby Speech.

Tip

Pokud chcete převést text na řeč pomocí přístupu bez kódu, vyzkoušejte nástroj pro vytváření zvukového obsahu v nástroji Speech Studio.

Ukázkový kód

Ukázkový kód pro převod textu na řeč je k dispozici na GitHubu. Tyto ukázky pokrývají převod textu na řeč v nejoblíbenějších programovacích jazycích:

Vlastní neurální hlas

Kromě předem připravených neurálních hlasů můžete vytvářet a doladit vlastní neurální hlasy, které jsou jedinečné pro váš produkt nebo značku. Stačí začít několika zvukovými soubory a přidruženými přepisy. Další informace najdete v tématu Začínáme s vlastním neurálním hlasem.

Poznámka k ceně

Fakturovatelné znaky

Když použijete funkci převodu textu na řeč, bude se vám účtovat každý znak převedený na řeč, včetně interpunkce. I když samotný dokument SSML není fakturovatelný, volitelné prvky, které slouží k úpravě způsobu převodu textu na řeč, jako jsou foonely a rozteč, se počítají jako fakturovatelné znaky. Tady je seznam fakturovatelných položek:

Text předaný funkci převodu textu na řeč v textu žádosti SSML
Všechny revize v textovém poli textu požadavku ve formátu SSML s výjimkou <speak> a <voice> značek
Písmena, interpunkce, mezery, tabulátory, revize a všechny prázdné znaky
Každý bod kódu definovaný v kódování Unicode

Podrobné informace najdete v tématu Ceny služby Speech.

Důležité

Každý čínský znak se počítá jako dva znaky pro fakturaci, včetně kanji používaného v japonštině, hanja používané v korejštině nebo hanzi používané v jiných jazycích.

Trénování modelů a čas hostování pro vlastní neurální hlas

Vlastní neurální hlasové trénování a hostování se počítají podle hodin i fakturovaných za sekundu. Informace o cenách fakturační jednotky najdete v tématu Ceny služby Speech.

Čas trénování vlastního neurálního hlasu (CNV) se měří podle "výpočetní hodiny" (jednotka pro měření doby běhu počítače). Při trénování hlasového modelu jsou obvykle spuštěny dva výpočetní úlohy paralelně. Počítané výpočetní hodiny jsou tedy delší než skutečná doba trénování. V průměru trvá trénovat hlas CNV Lite méně než jednu výpočetní hodinu; zatímco u CNV Pro obvykle trénování hlasu v jednom stylu trvá 20 až 40 výpočetních hodin a přibližně 90 výpočetních hodin pro trénování hlasu ve více stylu. Doba trénování CNV se účtuje s limitem 96 výpočetních hodin. V případě, že je hlasový model vytrénovaný za 98 výpočetních hodin, se vám bude účtovat jenom 96 výpočetních hodin.

Vlastní hostování koncových bodů neurálního hlasu (CNV) se měří skutečným časem (hodinou). Čas hostování (hodiny) pro každý koncový bod se počítá každý den v 00:00 UTC za předchozích 24 hodin. Pokud je například koncový bod aktivní po dobu 24 hodin dne 1, účtuje se 24 hodin v 00:00 UTC druhý den. Pokud je koncový bod nově vytvořený nebo pozastavený během dne, účtuje se jeho kumulovaný spuštěný čas do 00:00 UTC druhý den. Pokud koncový bod není aktuálně hostovaný, neúčtuje se. Kromě denního výpočtu v 00:00 UTC se fakturace aktivuje také okamžitě při odstranění nebo pozastavení koncového bodu. Například pro koncový bod vytvořený v 08:00 UTC 1. prosince se hodina hostování vypočítá na 16 hodin v 00:00 UTC 2. prosince a 24 hodin v 00:00 UTC dne 3. prosince. Pokud uživatel pozastaví hostování koncového bodu v 16:30 UTC 3. prosince, vypočítá se pro fakturaci doba trvání (16,5 hodiny) od 00:00 do 16:30 UTC.

Referenční dokumenty

Zodpovědná AI

Systém AI zahrnuje nejen technologii, ale také uživatele, kteří ho používají, osoby, kterých se to týká, a prostředí, ve kterém je nasazené. Přečtěte si poznámky k transparentnosti a seznamte se s zodpovědným používáním a nasazením umělé inteligence ve vašich systémech.

Sdílet prostřednictvím