Poznámka k transparentnosti: převod textu na řeč

Důležité

Překlady mimo angličtinu jsou k dispozici pouze pro usnadnění. Projděte si EN-US verzi tohoto dokumentu s konečnou verzí.

Co je poznámka průhlednosti?

Systém AI zahrnuje nejen technologii, ale také lidi, kteří ji budou používat, osoby, které ho budou ovlivněny, a prostředí, ve kterém je nasazené. Vytvoření systému, který je vhodný pro zamýšlený účel, vyžaduje pochopení, jak technologie funguje, jaké jsou jeho schopnosti a omezení a jak dosáhnout nejlepšího výkonu. Microsoft poznámky k transparentnosti jsou určeny k tomu, aby vám pomohly pochopit, jak naše technologie AI funguje, volby vlastníků systému mohou ovlivnit výkon a chování systému a význam myšlení celého systému, včetně technologií, lidí a prostředí. Poznámky transparentnosti můžete použít při vývoji nebo nasazení vlastního systému nebo jejich sdílení s lidmi, kteří budou váš systém používat nebo budou ovlivněni.

Transparentní poznámky Microsoftu jsou součástí širšího úsilí společnosti Microsoft zavést naše principy umělé inteligence do praxe. Další informace naleznete na stránce principy umělé inteligence od Microsoftu.

Základy převodu textu na řeč

Úvod

Text na řeč, součást Azure Speech in Foundry Tools, je všestranný nástroj, který dokáže převést psaný text na přirozený zvuk řeči. Funkce přebírá vstup ve formě textu a generuje vysoce kvalitní zvukový výstup řeči, který lze přehrávat na zařízeních. Pro hlasový výstup, převod textu na hlas nabízí řadu předem připravených neurálních hlasů nebo, pro zákazníky s omezeným přístupem, možnost vytvořit vlastní neurální hlas pro váš produkt nebo značku.

Technologie převodu textu na řeč má také vizuální schopnosti. Pomocí avatara pro převod textu na řeč mohou zákazníci zadávat text a vytvářet syntetické video, kde avatar hovoří. K dispozici jsou jak předem připravené text-to-speech avatary, tak vlastní text-to-speech avatary, které lze použít s předpřipraveným neurálním hlasem i s vlastním neurálním hlasem. Některé funkce jsou však dostupné pouze pro zákazníky s omezeným přístupem.

V systému pro převod textu na řeč můžou zákazníci převést napsané informace na zvukovou řeč a zlepšit přístupnost pro uživatele. Bez ohledu na to, zda posloucháte dokumenty nebo vylepšujete uživatelské prostředí pomocí syntetizované řeči, text na řeč přeměňuje text na přirozeně znějící mluvená slova.

Klíčové termíny

Termín Definice
Syntéza řeči v reálném čase Pomocí sady Speech SDK nebo rozhraní REST API můžete převést text na řeč pomocí předem vytvořeného neurálního hlasu, předem připraveného textu na avatar řeči, vlastního neurálního hlasu a vlastního textu na avatar řeči.
Hlasový model V systému převodu textu na řeč hlasový model odkazuje na model nebo algoritmus založený na strojovém učení, který generuje syntetickou řeč z psaného textu. Tento model je trénovaný tak, aby převedl textové zadání na mluvený jazykový výstup, napodoboval charakteristiky lidského hlasu, včetně výšky, tónu a výslovnosti.
Prozódie Prosodie označuje modulaci řečových prvků, jako je výška tónu, doba trvání, hlasitost a pauzy, aby vnášela do syntetických hlasů přirozenou a výraznou kvalitu. Tím se vyjadřují emocionální nuance a kontextový význam, což snižuje robotickou kvalitu generované řeči a činí ji poutavější a srozumitelnější pro posluchače.
Jazyk pro vyznačování syntézy řeči (SSML) Jazyk SSML (Speech Synthesis Markup Language) je jazyk pro revize založený na jazyce XML, který se používá k přizpůsobení textu na výstupy řeči. Pomocí SSML můžete upravit výšku, přidat pauzy, zlepšit výslovnost, změnit rychlost mluvení, upravit hlasitost a přiřazovat více hlasů do jednoho dokumentu. Pomocí SSML můžete definovat vlastní lexikony nebo přepnout na různé styly mluvení.
Asynchronní syntéza dlouhého zvuku Pomocí rozhraní API pro dávkovou syntézu (Preview) můžete asynchronně syntetizovat text na řečové soubory delší než 10 minut (například zvukové knihy nebo přednášky). Na rozdíl od syntézy prováděné pomocí sady Speech SDK nebo rozhraní REST API pro převod řeči na text se odpovědi nevrátí v reálném čase. Očekává se, že se požadavky odesílají asynchronně, odpovědi se průběžně kontrolují, a syntetizovaný zvuk se stahuje, když je služba zpřístupní.
Visémy Visemy jsou klíčové pózy v rámci pozorované řeči, včetně pozice rtů, čelisti a jazyka při artikulaci konkrétního fonému. Visemy mají silnou korelaci s hlasy a fonémy.

Úvod

Předem sestavený neurální hlas nabízí širokou škálu hlasů a nabízí více než 400 možností ve více než 140 jazycích a národních prostředích. Tyto hlasy pro převod textu na řeč umožňují rychle integrovat funkce čtení nahlas do vašich aplikací pro lepší přístupnost.

Klíčové termíny

Termín Definice
Předem sestavený neurální hlas Microsoft nabízí sadu předem připravených neurálních hlasů, které používají hluboké neurální sítě k překonání limitů tradiční syntézy řeči s ohledem na stres a intonaci v mluveném jazyce. Predikce prosodie a syntéza hlasu probíhají současně, což vede k plynulejším a přirozeně znějícím výsledkům. Každý předem připravený neurální hlasový model je k dispozici s frekvencí vzorkování 24kHz a vysokou věrností 48kHz, a výstup lze zvýšit nebo snížit frekvenci na jiné formáty.

Schopnosti

Chování systému

Převod textu na řeč

Převod textu na řeč mění text na přirozeně znějící řeč.

Níže jsou uvedeny hlavní možnosti volání služby převodu textu na řeč.

Rozhraní API pro převod textu do řeči v reálném čase

Jedná se o běžné volání rozhraní API prostřednictvím sady Speech SDK nebo rozhraní REST API pro odesílání textového vstupu a přijímání zvukového výstupu v reálném čase. Systém Speech používá hlasový model převodu textu na řeč k převodu textu na syntetickou řeč podobnou lidské. Výstupní zvuk lze uložit jako soubor nebo se přehrát do výstupního zařízení, jako je reproduktor (přečtěte si další informace o syntetizaci řeči z textu). Uživatelé můžou také pomocí SSML doladit text na výstup řeči.

Modely převodu textu na řeč se trénují na velké množství různorodého zvuku v typických scénářích použití a široké škále mluvčích. Například služba převodu textu na řeč se často používá pro chatovací roboty s podporou hlasu nebo pro vytváření zvukového obsahu.

Rozhraní API pro dávkovou syntézu

Dávková syntéza je dalším typem volání rozhraní API. Obvykle se používá k odesílání velkých textových souborů a k asynchronnímu příjmu zvukových výstupů (to znamená později). Pokud chcete toto rozhraní API použít, můžete zadat umístění pro více textových souborů. Technologie převodu textu na řeč přečte textový vstup ze souboru a vygeneruje zvukové soubory, které jsou uloženy na vámi určené místo. Tato funkce se používá k podpoře větších úloh syntézy řeči, ve kterých není nutné koncovým uživatelům poskytovat zvukový výstup v reálném čase. Příkladem je vytvoření zvukových knih.

Převod textu na řeč – vlastní neurální hlas

Vlastní neurální hlas je funkce převodu textu na řeč , která umožňuje zákazníkům s omezeným přístupem vytvořit pro své aplikace individuální syntetický hlas poskytnutím vlastních zvukových dat vybraných hlasových talentů zákazníka.

Pomocí vlastního neurálního hlasu můžete nahrávat své hlasové talenty tím, že necháte hlasového talenta přečíst skripty od Microsoftu v sadě Speech Studio a rychle vytvoříte syntetický hlas, který zní jako váš hlasový talent, použitím lite projektu (Preview). Lite projekt je ideální pro rychlou zkušební verzi nebo testování konceptu.

S projektem na profesionální úrovni můžete nahrát ve studiu nahraná vysoce kvalitní hlasová data vámi vybraného hlasového talentu a vytvořit hlas, který zní realisticky. Pro podporuje vysoce kvalitní přirozený trénink hlasu, který ještě více připomíná hlas vašeho talentu a je možné ho přizpůsobit tak, aby mluvil s různými emocemi a v různých jazycích, aniž by bylo potřeba dalších dat specifických pro emoce nebo jazyk.

Po vytvoření vlastního neurálního hlasu můžete hlasový model nasadit s jedinečným koncovým bodem a pomocí modelu vygenerovat syntetickou řeč pomocí rozhraní API pro syntézu v reálném čase nebo rozhraní API dávkové syntézy popsané výše.

Další informace o vlastním neurálním hlasu najdete v tématu Přehled vlastního neurálního hlasu.

Osobní hlas

Funkce osobního hlasu umožňuje zákazníkům s omezeným přístupem vytvořit hlasový model z krátké ukázky lidského hlasu. Tato funkce může vytvořit hlasový model na základě výzvy během několika sekund. Tato funkce se obvykle používá k výkonu přizpůsobených hlasových prostředí pro firemní aplikace zákazníků. Osobní hlasové modely můžou vytvářet realistické hlasy, které můžou mluvit téměř ve 100 jazycích.

Vodoznaky jsou přidávány do vlastních neurálních hlasů vytvořených pomocí funkce osobního hlasu. Vodoznaky umožňují uživatelům identifikovat, jestli je řeč syntetizována pomocí Azure Speech a konkrétně toho, jaký hlas byl použit. Oprávnění zákazníci můžou používat možnosti detekce vodoznaků služby Azure Speech. Pokud chcete požádat o přidání detekce vodoznaku do vašich aplikací, kontaktujte mstts[at]microsoft.comprosím .

Další informace o osobním hlasu najdete v osobním hlasu.

Avatar převodu textu na řeč

Avatar pro převod textu na řeč přemění text na digitální video fotorealistického lidského avatara (buď předem připraveného, nebo vlastního avatara), který mluví přirozeným hlasem využívajícím funkce převodu textu na řeč, jako je předpřipravený neurální hlas nebo vlastní neurální hlas. Avatar video s převodem textu na řeč může být syntetizován asynchronně nebo v reálném čase. Vývojáři mohou vytvářet aplikace integrované s textem pro řečový avatar prostřednictvím API nebo pomocí nástroje pro tvorbu obsahu na platformě Speech Studio vytvářet video obsah bez kódování.

Díky pokročilým modelům neuronových sítí avatara pro převod textu na řeč tato funkce uživatelům umožňuje vytvářet videa synteticky působící jako živé, s vysokou precizní kvalitou, mluvící video avatara pro různé aplikace.

Avatar pro převod textu na řeč přijímá standard Koalice pro původnost a autenticitu obsahu (C2PA), aby uživatelům poskytl jasnější přehled o zdroji a historii videoobsahu vytvořeného avatar. Tato norma nabízí transparentní informace o generování video obsahu umělou inteligencí. Další podrobnosti o integraci C2PA s avatary pro převod textu na řeč najdete v části Obsahové údaje v Azure text na řeč Avatar.

Výstupy avatarů jsou navíc automaticky opatřeny vodoznakem. Vodoznaky umožňují schváleným uživatelům identifikovat, jestli je video syntetizováno pomocí avataru funkce Azure Speech. Pokud chcete požádat o detekci vodoznaku, kontaktujte avatarvoice[at]microsoft.com.

Překlad videa

Překlad videa dokáže efektivně lokalizovat obsah videa tak, aby vyhovoval různým cílovým skupinám po celém světě. Překlad videa automaticky extrahuje zvuk dialogu, přepisuje, překládá a namluví obsah předem vytvořeným nebo osobním hlasem do cílového jazyka, přičemž přesné titulky umožňují lepší přístupnost. Funkce více mluvčích vám pomůžou identifikovat počet jednotlivců, kteří mluví, a doporučí vhodné hlasy. Úpravy obsahu s lidským faktorem umožňují přesné přizpůsobení preferencím zákazníka. Vylepšená kvalita překladu zajišťuje přesné zarovnání zvuku a videa s integrací GPT. Překlad videa umožňuje autentické a přizpůsobené možnosti dubbingu pomocí osobního hlasu.

Případy použití

Převod textu na řeč nabízí celou řadu funkcí, které umožňují různé způsoby použití napříč odvětvími a doménami. Všechny funkce převodu textu na řeč, včetně překladu videa, podléhají podmínkám a ujednáním platným pro předplatné Azure zákazníka, včetně zásad přijatelného použití Azure a Kód chování pro Azure řeč na řeč.

Kromě toho jsou vlastní funkce převodu textu na řeč, jako je vlastní neurální hlas, osobní hlas a vlastní text na hlasový avatar, omezeny na schválené případy použití, jak je uvedeno v konkrétních scénářích níže.

Zamýšlené použití pro Custom Neural Voice Pro a Custom Neural Voice Lite

Tady jsou schválené případy použití pro Custom Neural Voice Pro a Custom Neural Voice Lite:

  • Vzdělávací nebo interaktivní učení: Vytvoření fiktivní značky nebo znakového hlasu pro čtení nebo mluvení vzdělávacích materiálů, online učení, interaktivní výukové plány, simulační učení nebo prohlídky muzea s průvodcem.
  • Média: Zábava: Vytvoření fiktivní značky nebo znakového hlasu pro čtení nebo mluvení zábavního obsahu pro videohry, filmy, televizi, nahrané hudby, podcasty, zvukové knihy nebo rozšířenou nebo virtuální realitu.
  • Média: Marketing: Vytvoření fiktivní značky nebo znakového hlasu pro čtení nebo mluvení marketingu a média produktů nebo služeb, představení produktů, propagace firmy nebo reklamy.
  • Obsah vytvořený autorem samotným: Vytvoření hlasu pro čtení obsahu vytvořeného hlasovým talentem.
  • Funkce přístupnosti: Pro použití v systémech pro popis zvuku a mluvený komentář, včetně jakékoli fiktivní značky nebo hlasu charakteru, nebo pro usnadnění komunikace osob s vadami řeči.
  • Systémy IVR (Interactive Voice Response): Pro vytváření hlasů, včetně jakékoli fiktivní značky nebo hlasu postavy, pro účely provozu call center, telefonních systémů nebo odpovědí pro telefonní interakce.
  • Veřejná služba a informační oznámení: Vytvoření fiktivní značky nebo znakového hlasu pro komunikaci informací o veřejných službách, včetně oznámení pro veřejné místa nebo informační vysílání, jako jsou přenosy, počasí, informace o událostech a plány. Tento případ použití není určen pro novinářský ani informační obsah.
  • Překlad a lokalizace: Pro použití v překladových aplikacích pro překlad konverzací v různých jazycích nebo překlad zvukových médií.
  • Virtual Assistant nebo Chatbot: Vytvoření fiktivní značky nebo znakového hlasu pro inteligentní asistenty v nebo pro virtuální webové asistenty, spotřebiče, auta, domácí spotřebiče, hračky, ovládání zařízení IoT, navigační systémy, čtení osobních zpráv, virtuální doprovody nebo scénáře zákaznických služeb.

Zamýšlená použití pro osobní hlas

Rozhraní API pro osobní hlas (viz Osobní hlas pro další informace) je k dispozici ve verzi Preview s omezeným přístupem. Osobní hlasové rozhraní API se svými aplikacemi můžou integrovat jenom zákazníci, kteří splňují kritéria způsobilosti omezeného přístupu. Tito opravňující zákazníci mají oprávnění používat osobní hlasy pouze pro následující případy použití:

  • Aplikace: Pro použití v aplikacích, kde je hlasový výstup omezený a definovaný zákazníkem a kde hlas nečte uživatelem generovaný nebo otevřený obsah. Použití hlasového modelu musí zůstat v aplikaci a výstup nesmí být publikovatelný ani sdíletelný z aplikace. Mezi příklady aplikací, které odpovídají tomuto popisu, patří hlasové asistenty v inteligentních zařízeních a přizpůsobení hlasu ve hře.
  • Média, filmy a televize: Dabování filmů, TV, videa a zvuku pouze pro zábavní účely, kde zákazníci mají výhradní kontrolu nad vytvářením, přístupem k hlasovým modelům a jejich výstupem.
  • Obchodní obsah: Vytvoření zvukového a videoobsadového obsahu pro obchodní scénáře ke sdělení informací o produktech, marketingových materiálů, propagačního obsahu pro firmy a interní obchodní komunikace.
  • Speciální použití, které je součástí překladu videa: Syntetizuje hlasy pro každého mluvčího ve videu. Zákazníci můžou také upravovat a generovat zvukový obsah synchronizovaný s rty v cílových jazycích. Zákazníci nemusí v tomto scénáři odesílat do Microsoft další audio souhlas pro videoobsáze, ale zákazníci musí mít výhradní kontrolu nad vytvářením, přístupem a používáním hlasových modelů a jejich výstupů.

Všechny ostatní použití vlastního neurálního hlasu, včetně vlastního neurálního hlasu Pro, vlastního neurálního hlasu Lite a osobního hlasu, jsou zakázány. Vlastní neurální hlas je navíc služba s omezeným přístupem a pro přístup k této službě se vyžaduje registrace. Další informace o zásadách omezeného přístupu Microsoft najdete v tématu Funkce omezeného přístupu pro nástroje Foundry. Některé funkce jsou k dispozici pouze pro Microsoft spravované zákazníky a partnery a pouze pro určité případy použití schválené Microsoft v době registrace.

Předem sestavený neurální hlas může být použit jak pro výše uvedené případy použití vlastního neurálního hlasu, tak i pro další případy použití vybrané zákazníky, a to v souladu se zásadami přijatelného využívání služby Azure a Kódem chování pro Azure přeměnu textu na řeč. U přednastavených neurálních hlasů, které jsou v souladu se všemi platnými podmínkami a ujednáními, není vyžadována registrace ani předběžné schválení u dalších případů použití.

Zamýšlené případy použití pro překlad videa

Překlad videa se dá použít pro filmy, televizi a další vizuální (včetně videa nebo animace) a audio aplikace, kde zákazníci udržují výhradní kontrolu nad vytvářením, přístupem k hlasovým modelům a jejich výstupem. Osobní hlas a synchronizace rtů podléhají rámci omezeného přístupu a oprávnění zákazníci mohou tyto funkce používat s překladem videa. Níže jsou uvedené schválené případy použití pro službu překladu videa:

  • Vzdělávání a učení: Překlad zvuku ve vzdělávacích vizuálech, online kurzech, školicích modulech, simulačních učení nebo vizuálních prohlídkách s průvodcem pro vícejazyčné učení. 
  • Média: Zábava: Překlad zvuku ve filmech, filmech, televizních pořadech, dokumentech, videohrách, mini-seriálech, krátkém přehrávání a obsahu AR/VR pro globální publikum, zajištění bezproblémového vyprávění příběhů napříč jazyky. 
  • Média: Marketing: Překlad zvuku v propagačních vizuálech, ukázkách produktů, reklamách a brandingových kampaních pro rezonaci s mezinárodními trhy a kulturami. 
  • Vlastnoručně vytvořený obsah: Překlad zvuku vlogů, krátkých vizuálů, obsahu influencerů, cestovních průvodců, propagačních videí destinací, vizuálů sociálních médií a ukázek kulturních zajímavostí, aby byly přístupné a poutavé. 
  • Firemní školení a komunikace: Překlad zvuku v interních komunikačních vizuálech, materiály pro zprovoznění zaměstnanců, školení dodržování předpisů a globální firemní oznámení pro mezinárodní týmy. 
  • E-commerce a ukázky produktů: Překlad zvuku ve vizuálech rozbalení produktů, výukových kurzech, zkušenostech zákazníků a vysvětlujících vizuálech zaměřený na mezinárodní nakupující. 
  • Veřejná oznámení a informační oznámení: Překlad zvuku ve vizuálech veřejného povědomí, plánech událostí, bezpečnostních oznámeních a informačních vysíláních pro vícejazyčnou přístupnost. 
  • Funkce přístupnosti: Rozšíření přístupnosti video obsahu prostřednictvím vícejazyčného zvuku a titulků.
  • Novinky a novinářský obsah: Překlad zvuku v informačních segmentech, rozhovorech, tiskových zprávách a nejnovějších zprávách pro různorodé jazykové publikum. Zákazníci, kteří chtějí přeložit zdroje zpráv, budou potřebovat další kontrolu.

Zamýšlené použití pro vlastní avatar pro převod textu na řeč a předem připravený avatar pro převod textu na řeč.

Níže jsou uvedené schválené případy použití vlastního textu na hlasový avatar:

  • Virtual Assistant nebo Chatbot: Vytváření virtuálních asistentů, virtuálních společníků, virtuálních prodejních asistentů nebo pro aplikace služeb zákazníkům.
  • Generování obsahu pro podnikové kontexty: Slouží ke sdělení informací o produktech, marketingových materiálů, propagačního obsahu pro firmy a interní obchodní komunikace. Mezi příklady patří avatary postav nebo digitální dvojčata obchodního vedoucího podniku, které propagují značku.
  • Vzdělávací nebo interaktivní učení: Vytvoření fiktivní značky nebo znakového avatara pro prezentování vzdělávacích materiálů, online učení, interaktivní učební plány, simulační učení nebo prohlídky muzea s průvodcem.
  • Média: Zábava: Prezentace aktualizací, sdílení znalostí, vytváření interaktivních médií nebo mluvících hlav videí pro zábavní scénáře, jako jsou videa, hry a rozšířená nebo virtuální realita.
  • Funkce přístupnosti: Slouží k usnadnění komunikace lidí s vadami řeči.
  • Vlastní obsah: Vytvoření avatara pro čtení obsahu vytvořeného talentem avatara.
  • Veřejná služba a informační oznámení: Vytvoření fiktivní značky nebo znakového obrázku pro komunikaci informací o veřejných službách, včetně oznámení pro veřejné místa nebo informační vysílání, jako jsou přenosy, počasí, informace o událostech a plány. Tento případ použití není určen pro novinářský ani informační obsah.
  • Překlad a lokalizace: Pro použití v překladových aplikacích pro překlad konverzací v různých jazycích nebo překlad zvukových médií ve formátu videa.

Všechny ostatní použití vlastního textu na avatar řeči jsou zakázány. Kromě toho je služba vlastního avatara pro převod textu na řeč s omezeným přístupem a pro přístup k této funkci je vyžadována registrace. Další informace o zásadách omezeného přístupu společnosti Microsoft najdete na stránce aka.ms/limitedaccesscogservices. Některé funkce jsou k dispozici pouze pro Microsoft spravované zákazníky a partnery a pouze pro určité případy použití schválené Microsoft v době registrace.

Přednastavený textový avatar pro převod řeči může být použit také pro výše uvedené případy použití vlastního avataru, stejně jako pro další případy použití vybrané zákazníky a konzistentní se zásadami přijatelného používání služby Azure a Kodex chování pro Azure Speech text na řeč. Pro další případy využití předem vytvořeného avatara pro převod textu na řeč, který splňuje všechny platné podmínky a ujednání, není vyžadována registrace ani předběžné schválení.

Důležité informace o volbě případů použití

Zákazníkům doporučujeme používat funkce převodu textu na řeč ve svých inovativních řešeních a aplikacích. Všechny funkce převodu textu na řeč musí odpovídat zásadě přijatelného používání Azure a Kodexu chování pro Azure Speech převod textu na řeč. Kromě toho se vlastní neurální hlas a vlastní text na řeč avatary můžou používat jenom pro případy použití schválené prostřednictvím registračního formuláře s omezeným přístupem. Tady je také několik aspektů při výběru případu použití pro libovolnou funkci převodu textu na řeč:

  • Zajistěte zarovnání s případy použití: Zajistěte, aby zamýšlené použití jakékoli funkce převodu textu na řeč odpovídalo jejím možnostem a zamýšlenému účelu.
  • Zodpovědné aspekty umělé inteligence: Stanovení priority odpovědných postupů umělé inteligence tím, že se vyhnete vytváření zavádějícího nebo škodlivého obsahu. Při používání funkcí pro převod textu na řeč dodržujte ochranu osobních údajů, ochranu dat a právní předpisy.
  • Přezkoumejte kodex chování: Microsoft zavedl kodex chování, který zakazuje určité způsoby použití všech funkcí převodu textu na řeč. Při výběru případu použití pro služby převodu textu na řeč se ujistěte, že je v souladu s etickým kodexem.
  • Vykonávat redakční kontrolu: Pečlivě zvažte použití syntetických hlasů s obsahem, který nemá správnou redakční kontrolu, protože syntetické hlasy můžou znít jako člověk a zesilovat účinek nesprávného nebo zavádějícího obsahu.
  • Zveřejnění: Uvést syntetickou povahu hlasů, obrázků a/nebo videí uživatelům tak, aby nebyli podvedeni nebo oklamáni – ani schopni napálit ostatní – do přesvědčení, že komunikují se skutečnou osobou.
  • Právní a regulační aspekty: Organizace musí vyhodnotit potenciální specifické právní a regulační povinnosti při používání jakýchkoli nástrojů a řešení foundry, které nemusí být vhodné pro použití v každém odvětví nebo scénáři. Nástroje nebo řešení Foundry navíc nejsou určené a nesmí být používány způsoby zakázanými v příslušných podmínkách služeb a příslušných kodexech chování.

Při dodržování těchto aspektů můžou uživatelé využívat předem připravený i vlastní neurální hlas zodpovědně.

Omezení

Omezení převodu textu na řeč by měla být zvažována v kontextu průsečíku lidských, sociálních a organizačních faktorů a technologie, které ovlivňují jeho použití a dopad. I když text na řeč nabízí pokročilé možnosti syntézy řeči, existují určitá omezení, o které je potřeba vědět při jejím zodpovědném nasazení, aby se minimalizovaly potenciální chyby.

Technická omezení, provozní faktory a rozsahy

Technická omezení, která je potřeba vzít v úvahu při použití textu na řeč, zahrnují přesnost výslovnosti a intonace. I když je text na řeč navržený tak, aby vygeneroval přirozeně znějící řeč, mohou nastat potíže s určitými slovy, jmény nebo neobvyklými frázemi. Uživatelé by měli vědět, že mohou nastat případy, kdy systém může nesprávně vyslovit nebo zdůraznit slova, zejména při práci s úzce specializovanou nebo specificky zaměřenou slovní zásobou.

Je důležité si uvědomit, že některé populace mohou být negativně ovlivněny těmito technickými omezeními. Například jednotlivci s vadami sluchu, kteří se silně spoléhají na syntetizovanou řeč, mohou čelit problémům při pochopení nejasného nebo zkresleného výstupu řeči. Podobně můžou uživatelé s kognitivním postižením nebo postižením souvisejícím s jazykem zjistit, že je obtížné pochopit řeč s nepřirozenou intonací nebo chybnými slovy.

  • Lingvistická omezení: Zatímco pečlivě kurátorujeme a připravujeme trénovací data, abychom minimalizovali předsudky, zejména v souvislosti s pohlavím, etničností nebo regionálními zvýrazněními, a zatímco text na řeč podporuje více jazyků a zvýraznění, může se lišit kvalita a dostupnost hlasů v různých jazycích. Zákazníci by měli vědět o potenciálních omezeních přesnosti výslovnosti, intonace a lingvistických nuancí specifických pro určité jazyky nebo dialekty.
  • Kontext a emoce: Text na řeč může mít omezení v přesném předávání kontextových informací a emocí. Zákazníci by měli mít na paměti neschopnost systému porozumět emocionálním nuancí nebo drobným upozorněním, které jsou přítomné ve vstupním textu. Je třeba vzít v úvahu další kontext nebo využít jiné metody k efektivnímu vyjádření emocí.
  • Availability: Microsoft poskytne zákazníkům 12 měsíců předem oznámení před odstraněním předem vytvořených neurálních hlasů z našeho katalogu, pokud bezpečnostní, právní nebo systémové aspekty výkonu nevyžadují urychlené odstranění. To neplatí pro předběžné verze.

Každá aplikace se liší a náš základní model nemusí odpovídat vašemu kontextu nebo se vztahuje na všechny scénáře vyžadované pro váš případ použití. Doporučujeme vývojářům důkladně vyhodnotit kvalitu textu na řeč syntetický hlas a video s daty z reálného světa, která odrážejí váš případ použití, včetně testování s uživateli z různých demografických skupin a s různými charakteristikami řeči. Osvědčené postupy pro vytváření vysoce kvalitních hlasových modelů najdete v části Kvalita vytrénovaného modelu hlasu .

Kromě zajištění výkonu je důležité zvážit, jak minimalizovat rizika stereotypu a mazání, které mohou mít za následek syntetické hlasy a avatary. Pokud například vytváříte vlastní neurální hlas pro inteligentního hlasového asistenta, pečlivě zvažte, jaký hlas je vhodný k vytvoření, a hledejte různé perspektivy od jednotlivců z různých pozadí. Při sestavování a vyhodnocování systému vždy hledejte různorodý vstup.

Aspekty nestrannosti

V Microsoft se snažíme umožnit každému člověku na planetě dělat více. Zásadní součástí tohoto cíle je vytvoření technologií a produktů, které jsou spravedlivé a inkluzivní. Nestrannost je multidimenzionální socio-technické téma a má vliv na mnoho různých aspektů našeho vývoje produktů. Další informace o přístupu Microsoft ke spravedlnosti .

Jednou z důležitých dimenzí, kterou je potřeba zvážit při používání systémů umělé inteligence, včetně převodu textu na řeč, je, jak dobře systém funguje pro různé skupiny lidí. Výzkum ukázal, že bez vědomého úsilí zaměřeného na zlepšení výkonu pro všechny skupiny mohou systémy AI vykazovat různé úrovně výkonu v různých demografických faktorech, jako je rasa, etnická příslušnost, pohlaví a věk.

V rámci vyhodnocení Azure AI převodu textu na řeč jsme provedli analýzu, abychom posoudili potenciální dopady na nestrannost. Prozkoumali jsme výkon systému v různých demografických skupinách, jejichž cílem je identifikovat rozdíly nebo rozdíly, které mohou existovat, a mohly by potenciálně ovlivnit nestrannost.

V některých případech mohou existovat zbývající rozdíly v výkonu. Je důležité si uvědomit, že tyto rozdíly mohou překročit cíl a aktivně pracujeme na řešení a minimalizaci potenciálních předsudků nebo rozdílů v výkonu, pečlivě zvažte výběr demografické skupiny subjektu a snažíme se hledat různorodé perspektivy z různých prostředí.

Pokud jde o reprezenzační škody, jako je stereotypizace, ponižování nebo mazání výstupů, bereme na vědomí rizika spojená s těmito problémy. I když se náš proces hodnocení zaměřuje na zmírnění těchto rizik, doporučujeme uživatelům pečlivě zvážit jejich konkrétní případy použití a podle potřeby implementovat další zmírnění rizik. Zapojení člověka v procesu může poskytnout další vrstvu dohledu, která může řešit případné předsudky nebo nezamýšlené důsledky. Použití seznamů blokovaných nebo povolených seznamů může také pomoct zajistit, aby syntetizovaná řeč odpovídala požadovaným standardům a vyhnula se škodlivému nebo nevhodnému obsahu.

Snažíme se průběžně zlepšovat hodnocení nestrannosti, abychom získali hlubší přehled o výkonu systému v různých demografických skupinách a potenciálních obavách o nestrannost. Proces hodnocení probíhá a aktivně pracujeme na zlepšení spravedlnosti a inkluze a zmírnění zjištěných rozdílů. Chápeme důležitost řešení hledisek spravedlnosti a snažíme se zajistit, aby převod textu na řeč poskytoval spolehlivé a rovné syntetizované výstupy řeči.

Upozorňujeme, že tyto informace představují to, co zatím víme o hodnoceních nestrannosti, a zůstáváme vyhrazeni ke zpřesnění našich metodologií hodnocení a řešení jakýchkoli problémů spravedlnosti, které mohou vzniknout.

Výkon systému

Výkon systému převodu textu na řeč se týká toho, jak přesně a přirozeně dokáže převést psaný text na syntetizovanou řeč. Měří se pomocí různých metrik k vyhodnocení kvality a efektivity generovaného zvukového výstupu. Mezi běžné metriky výkonu patří:

  • Střední skóre mínění (MOS):: Systém hodnocení, kde porotci poskytují skóre, které představuje celkovou kvalitu syntetizované řeči a avatar videa. Vyšší MOS značí lepší kvalitu.
  • MOS rozdíl: Rozdíl mezi skóre MOS lidských nahrávek a vygenerovanými zvukovými stopami a videi. Menší mezera MOS označuje bližší podobnost lidské řeči/lidské podobnosti.
  • Podobnost MOS (SMOS):: Měří podobnost vygenerovaných zvukových stop/videí s lidskými nahrávkami. Vyšší SMOS označuje lepší podobnost.
  • Intelligibility: Procento správně srozumitelných slov syntetizované řeči.

I u špičkových modelů můžou systémy umělé inteligence, jako je převod textu na řeč, způsobit chyby. Systém může například produkovat syntetizovanou řeč s drobnými nepřirozenými intonacemi nebo výslovnostmi, což vede k méně než ideálnímu uživatelskému prostředí nebo systém může chybně interpretovat text nebo bojovat s neobvyklými lingvistickými konstrukcemi, což vede k nepřirozenému nebo nečitelnému řeči.

Osvědčené postupy pro zlepšení výkonu systému

Pokud chcete zlepšit výkon systému a přizpůsobit chování systému v textu na řeč, existuje několik osvědčených postupů, které je možné dodržovat. Tyto postupy zahrnují úpravu různých součástí a parametrů pro optimalizaci kompromisů a splnění konkrétních požadavků na případ použití. Je však důležité zvážit potenciální dopad na různé populace, aby byla zajištěna nestrannost a inkluze.

Použití jazyka SSML (Speech Synthesis Markup Language) se považuje za osvědčený postup pro zvýšení kvality výstupu řeči na text. SSML umožňuje uživatelům vykonávat větší kontrolu nad syntetizovanými řečmi, což umožňuje přizpůsobení výslovnosti, intonace, zdůraznění a dalších prosodických funkcí. Když do textu začleníte značky SSML, můžou uživatelé přidávat pauzy, upravovat rychlost řeči, určovat fonetické výslovnosti a řídit výšku a hlasitost mimo jiné parametry. Tato úroveň jemného ladění pomáhá vytvářet přirozenější a výraznější řeč, takže text na výstup řeči zní spíše lidsky a poutavěji. Všechny značky SSML je možné předat přímo do rozhraní API. Poskytujeme také online nástroj, vytvoření zvukového obsahu, který zákazníkům umožňuje doladit pomocí intuitivního uživatelského rozhraní.

Pokud váš případ použití zahrnuje specializovaný slovník nebo obsah specifický pro doménu, zvažte použití vlastní funkce lexikon ke zlepšení schopnosti systému přesně vyslovovat a vyjádřit výrazy nebo fráze specifické pro doménu.

Vyhodnocení textu na řeč

Metody vyhodnocení

Mezi běžně používané metriky pro vyhodnocení celkového výkonu systému pro převod textu na řeč patří:

  • Skóre mínění (MOS) ve srovnání s lidským záznamem: obvykle se používá k porovnání kvality modelu převodu textu na řeč ve srovnání se záznamem člověka. Očekává se, že kvalita hlasového modelu vytvořeného vlastním neurálním hlasem v porovnání s záznamem člověka bude blízko, přičemž ve skóre MOS není větší než 0,5 mezery.
  • Pro vlastní neurální hlas můžete také použít podobnost MOS (SMOS) k měření, jak podobný je vlastní hlas původním lidským nahrávkám. U studií SMOS jsou porotci požádáni, aby si poslechli sadu spárovaných zvukových stop, jeden vygenerovaný pomocí vlastního hlasu, druhý z původních lidských nahrávek v trénovacích datech, a hodnotit, jestli dvě zvukové stopy v každé dvojici mluví stejnou osobou, pomocí pětibodové stupnice (1 je nejnižší, 5 nejvyšších). Průměrné skóre je hlášeno jako skóre SMOS. Doporučujeme, aby kvalitní neurální hlas na míru dosáhl SMOS vyšší než 4,0.
  • Kromě měření přirozeného stavu pomocí MOS a SMOS můžete také posoudit srozumitelnost hlasového modelu kontrolou přesnosti výslovnosti generované řeči. To se provádí tak, že porotci naslouchají sadě zkušebních vzorků, určují, zda mohou porozumět významu a indikovat všechna slova, která jim byla nesrozumitelná. Míra intelligibility se počítá pomocí procenta správně srozumitelných slov mezi celkovým počtem testovaných slov (tj. počet srozumitelných slov/celkový počet testovaných slov * 100%). Řečový modul, který má být běžně použitelný, musí dosáhnout skóre > 98 %, aby byla zajištěna srozumitelnost.

Výsledky vyhodnocení

Převod textu na řeč konzistentně přináší vysoce kvalitní a přirozeně znějící syntetizovanou řeč, která splňuje požadavky různých odvětví a oblastí. Mezi naše vyhodnocení patří rozsáhlé testování trénovacích a testovacích dat systému, které zajišťuje, že představuje zamýšlené použití a provozní faktory, ke kterým došlo v reálných scénářích, a také testování vzorků syntetizovaných výstupů řeči.

Výsledky vyhodnocení ovlivnily rozhodnutí o omezeních návrhu systému, jako je maximální velikost případu a minimální požadovaný objem trénovacích dat. Analýzou výkonu systému v různých sadách dat, nastaveních a parametrech byly nastaveny vhodná omezení pro optimalizaci chování, spolehlivosti a bezpečnosti systému.

I když hodnocení pokrývá širokou škálu případů použití, je důležité si uvědomit, že výsledky jsou generalizovatelné v určitém rozsahu napříč případy použití, které nebyly přímo součástí vyhodnocení. Robustnost a výkon systému poskytují jistotu ve své schopnosti zvládnout různé scénáře, včetně těch, které nemusí být explicitně testovány.

Tady je několik doporučených testů a rozsahů skóre na základě našich zkušeností:

Měření Definice Jak se počítá Doporučená velikost textu Doporučené skóre
MOS Střední skóre mínění kvality zvukových stop Průměr hodnocení každého soudce na každé audio > 30 vygenerovaných zvukových stop > 4.0 (obvykle vyžaduje, aby subjektivní kvalita lidského záznamu byla vyšší než 4,5)
Mezera MOS Rozdíl skóre MOS mezi lidskými nahrávkami a vygenerovanými zvukovými stopami Skóre MOS u lidských nahrávek minus skóre MOS na vygenerovaných zvukových stopách > 10 lidských nahrávek, > 30 vygenerovaných zvukových stop, > 20 porotců pro každý zvukový záznam < 0.5
SMOS Podobnost vygenerovaných zvukových stop s lidskými nahrávkami Průměr hodnot hodnocení úrovně podobnosti pro každou dvojici zvukových záznamů > 40 dvojic, > 20 porotců pro každou dvojici > 4.0, > 3.5 (sekundární jazyk)
Srozumitelnost Přesnost výslovnosti generované řeči na úrovni slova Procento správně srozumitelných slov mezi celkovým počtem testovaných slov > 60 vygenerovaných zvukových stop, > 10 porotců na každé zvukové stopě > 98%

Vyhodnocení a integrace textu do řeči pro vaše použití

Níže najdete některé osvědčené postupy, které vám pomůžou zodpovědně integrovat text do funkcí řeči do vašich případů použití.

Zveřejnit, když je hlas syntetický

Vyzrazování, že hlas je počítač generován nejen minimalizuje riziko škodlivých výsledků z podvodu, ale také zvyšuje důvěru v organizaci poskytující hlas. Přečtěte si další informace o tom, jak zveřejnit.

Microsoft vyžaduje po svých zákaznících, aby informovali uživatele o syntetické povaze hlasů převádějících text na řeč.

  • Ujistěte se, že cílovému publiku poskytnete adekvátní zveřejnění, zejména při používání hlasu známé osoby. Lidé posuzují informace částečně na základě osoby, která je poskytuje, a to ať už vědomě nebo nevědomě. Zveřejnění může být například verbálně sdíleno na začátku vysílání. Další informace najdete ve vzorech zpřístupnění.
  • Zvažte řádné informování rodičů nebo jiných stran o případech použití, které jsou určeny k použití, nebo mohou být použity v situacích zahrnujících děti a nezletilé. Pokud je váš případ použití určený pro mladší osoby nebo děti, budete muset zajistit, aby bylo zveřejnění jasné a transparentní, aby rodiče nebo právní opatrovníci pochopili úlohu syntetických médií a rozhodli se jménem dětí nebo dětí informovaně rozhodnout o tom, jestli mají zkušenosti využívat.

Oznámit, kdy je video avataru syntetické

Zveřejnění, že video mluvící avatarem je počítačově generováno, nejenže minimalizuje riziko škodlivých důsledků klamu, ale také zvyšuje důvěru v organizaci poskytující video. Přečtěte si další informace o tom, jak zveřejnit.

Microsoft vyžaduje, aby její zákazníci informovali své uživatele o syntetické povaze avatarů převodu textu na řeč.

  • Ujistěte se, že poskytujete dostatečné informace publiku, zejména při používání obrázku (a hlasu) dobře známé osoby. Lidé posuzují informace částečně na základě osoby, která je poskytuje, a to ať už vědomě nebo nevědomě. Zveřejnění může být například provedeno pomocí vodoznaku, například "Hlas a obrázek v tomto videu jsou generovány umělou inteligencí", v textu nebo slovním sdílením na začátku videa. Další informace najdete ve vzorech zpřístupnění.
  • Zvažte řádné informování rodičů nebo jiných stran o případech použití, které jsou určeny k použití, nebo mohou být použity v situacích zahrnujících děti a nezletilé. Pokud je váš případ použití určený pro mladší osoby nebo děti, budete muset zajistit, aby bylo zveřejnění jasné a transparentní, aby rodiče nebo právní opatrovníci pochopili úlohu syntetických médií a rozhodli se jménem dětí nebo dětí informovaně rozhodnout o tom, jestli mají zkušenosti využívat.

Výběr vhodných typů hlasu pro váš scénář

Pečlivě zvažte kontext použití a potenciální škody spojené s používáním textu pro hlasové hlasy nebo avatary. Například syntetické hlasy s vysokou věrností nemusí být vhodné ve vysoce rizikových scénářích, jako jsou osobní zprávy, finanční transakce nebo složité situace, které vyžadují lidskou adaptabilnost nebo empatii.

Uživatelé můžou mít také různá očekávání pro typy hlasu a výrazy nebo gesta avatarů v závislosti na kontextu. Například při poslechu citlivých zpráv přečtených syntetickým hlasem dávají někteří uživatelé přednost empatičtějšímu a lidsky laděnějšímu tónu, zatímco jiní dávají přednost neutrálnímu hlasu. Zvažte testování aplikace, abyste lépe porozuměli uživatelským preferencím.

Buďte transparentní o možnostech a omezeních.

Uživatelé mají tendenci mít vyšší očekávání při interakci s vysoce věrnými syntetickými hlasovými agenty. Pokud schopnosti systému nesplňují tato očekávání, může dojít k utrpení důvěry a může vést k nepříjemným nebo dokonce škodlivým zkušenostem.

Poskytnutí volitelné lidské podpory

V nejednoznačných scénářích transakcí (například v centru podpory volání) uživatelé vždy nedůvěřují počítačovému agentovi, aby odpovídajícím způsobem reagovali na své požadavky. V těchto situacích může být nutná lidská podpora bez ohledu na reálnou kvalitu hlasu nebo schopnosti systému.

Důležité informace o talentu hlasu

Když zákazníci pracují s hlasovým talentem a vytvářejí vlastní neurální hlas, platí následující pokyny.

  • Hlasový talent by měl mít kontrolu nad svým hlasovým modelem (jak a kde se bude používat) a být kompenzován za jeho použití. Microsoft vyžaduje, aby zákazníci vlastního neurálního hlasu získali explicitní písemné oprávnění od hlasových talentů k vytvoření syntetického hlasu a zajistili, že smlouva zákazníka s každým jednotlivcem uvažuje o době trvání, použití a jakýchkoli omezeních obsahu. Pokud vytváříte syntetický hlas známé osoby, měli byste poskytnout způsob, jak hlasový talent upravit nebo schválit obsah výstupu, který plánujete vygenerovat s hlasovým modelem.
  • Některé hlasové talenty nemusí vědět o potenciálních škodlivých použitích technologií a měly by být poučené vlastníky systému o schopnostech technologie. Microsoft vyžaduje, aby zákazníci sdíleli Microsoftovo oznámění pro hlasový a avatarový talent s hlasovým talentem přímo nebo prostřednictvím oprávněného zástupce hlasového talentu, aby popsali, jak se syntetické hlasy vyvíjejí a pracují ve spojení se službami převodu textu na řeč.

Důležité informace o talentech avatarů

Když zákazníci pracují s talentem avatarů a vytvářejí vlastní avatary, platí následující pokyny.

  • Avatar talent by měl mít kontrolu nad svým avatar modelem (jak a kde se bude používat) a být kompenzován za jeho použití. Microsoft vyžaduje, aby zákazníci vlastních avatarů získali explicitní písemné povolení od talentu svého avatara pro vytvoření syntetického avatara pro převod textu na řeč a zajistili, že jejich smlouva s každým jednotlivcem zahrnuje dobu trvání, použití a jakákoli omezení obsahu. Pokud vytváříte vlastní avatar dobře známé osoby, měli byste poskytnout způsob, aby talent, který avatar vytváří, mohl upravit nebo schválit obsah výstupu, který plánujete generovat pomocí hlasového modelu.
  • Některé talenty pro avatary nemusí si být vědomi potenciálních škodlivých použití technologie a měli by být poučeni vlastníky systémů o možnostech technologie. Microsoft vyžaduje, aby zákazníci sdíleli Microsoftovo Upozornění pro talent hlasu a avatara s talentem avatara přímo nebo prostřednictvím jeho autorizovaného zástupce, aby popsali, jak se vyvíjí a funguje syntetické video avatara ve spojení se službami převodu textu na řeč.

Důležité informace pro lidi s poruchami řeči

Při práci s jednotlivci s poruchami řeči při vytváření nebo nasazování syntetických hlasových technologií platí následující pokyny.

Poskytování pokynů pro smlouvy s talentem ve scénářích přístupnosti

Zákazníci by měli vyvinout pokyny pro vytváření smluv s jednotlivci, kteří používají syntetické hlasy pro pomoc při mluvení. Zákazníci by měli zvážit určení ve svých smlouvách s jednotlivci o době použití, převodu vlastnictví nebo licenčních kritériích, postupech pro odstranění hlasového modelu a o tom, jak zabránit neoprávněnému přístupu.

Zvažte nekonzistence ve vzorcích řeči

Pro jednotlivce s poruchami řeči, kteří nahrávají vlastní hlasová písma, mohou nekonzistence ve svém vzorci řeči (houslivost nebo nemožnost vyslovovat určitá slova) komplikovat proces nahrávání. V těchto případech by měla být syntetická hlasová technologie a nahrávací sezení navrženy s odpovídajícími opatřeními, která určí zákazník (například poskytování přestávek nebo dodatečné nahrávací sezení).

Povolit úpravy v průběhu času

Jednotlivci s poruchami řeči mohou chtít aktualizovat svůj syntetický hlas tak, aby odrážel změny kvůli stárnutí nebo jiným faktorům. Jednotlivci můžou mít také stylistické předvolby, které se v průběhu času mění, a můžou chtít změnit tón, zvýraznění nebo jiné charakteristiky hlasu.

Další informace o zodpovědné umělé inteligenci

Další informace o Azure Speech