Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Důležité
Překlady mimo angličtinu jsou k dispozici pouze pro usnadnění. Projděte si EN-US verzi tohoto dokumentu s konečnou verzí.
Cílem tohoto článku je pomoci talentům hlasu a avatara pochopit technologii za schopnostmi převodu textu na řeč, které jejich hlasy a obrazy pomáhají vytvářet. Obsahuje také důležité informace o ochraně osobních údajů pro talent o tom, jak Microsoft zpracovávat, používat a uchovávat zvukové soubory a videosoubory obsahující nahrané hlasy a obrázky talentů a pomáhá Microsoft zabránit stížnostem a/nebo reagovat na stížnosti, zneužití nástroje Foundry Tools.
Microsoft se zavazuje navrhnout AI zodpovědně. Doufáme, že tato poznámka bude podporovat větší sdílené porozumění mezi tvůrci technologií, hlasovým talentem, talentem pro avatary a veřejností o zamýšlených a přínosných využitích této technologie.
Klíčové pojmy pro převod textu na řeč
Hlasový model: Textový model pro řečový počítač, který může napodobovat jedinečné hlasové charakteristiky cílového mluvčího. Hlasový model se také označuje jako hlasová fonta nebo syntetický hlas. Hlasový model je sada parametrů v binárním formátu, která není čitelná a neobsahuje zvukové nahrávky. Nelze ho zpětně analyzovat tak, aby odvodil nebo vytvořil zvukové nahrávky mluveného člověka.
Hlasový talent: Jednotlivci nebo cíloví mluvčí, jejichž hlasy se nahrávají a používají k vytváření hlasových modelů, které mají znít jako hlas talentu.
Model avataru: Počítačový model avataru pro převod textu na řeč, který může napodobovat jedinečné rysy obličeje cílového herce. Avatar model je sada parametrů v binárním formátu, který není čitelný člověkem a neobsahuje video nebo zvukové nahrávky. Nelze ho zpětně analyzovat, aby odvozoval nebo konstruoval video nahrávky člověka při jednání.
Avatar talent: Vlastní model avatarů pro převod textu na řeč vyžaduje trénování na záznamu videa skutečného člověka. Tato osoba je talent na avatary. Zákazníci musí získat dostatečný souhlas podle všech relevantních zákonů a předpisů od talentu avatara, aby mohli použít svůj obraz k vytvoření vlastního avataru.
Jak funguje neurální syntéza řeči
Jak to funguje: Neurální text na řeč syntetizuje řeč pomocí hlubokých neurálních sítí, které se "naučily", jak se fonetika kombinují v přirozené lidské řeči, a ne pomocí klasických programovacích nebo statistických metod. Kromě nahrávek konkrétního hlasového talentu používá neuronový převod textu na řeč zdrojovou knihovnu, která obsahuje hlasové nahrávky z mnoha různých mluvčích.
Co o tom vědět: Díky způsobu, jakým syntetizuje hlasy, může neurální text na řeč vytvářet styly řeči, které nebyly součástí původních nahrávek, například změny tónu hlasu a ovlivnění. Neurální hlasy textu na řeč zní plynule a jsou dobré při napodobování přirozených pauz, idiosynkrasií a váhavosti, které lidé vyjadřují, když mluví. Ti, kteří slyší syntetické hlasy vytvořené pomocí neurálního převodu textu na řeč, mají tendenci je hodnotit jako bližší lidské řeči než standardní hlasy textu na řeč.
Příklady, jak to Microsoft používá:
- Předpřipravený neurální hlas je funkce textu na řeč, která nabízí hotové hlasové modely pro využití zákazníky. Předem připravené neurální hlasy se používají také v několika Microsoft produktech, včetně Prohlížeče Edge, Předčítání, Office a Teams.
-
Vlastní neurální hlas je funkce přehrávání textu na řeč, která umožňuje vytváření jedinečných vlastních syntetických hlasových modelů. Níže jsou uvedené možnosti vlastního neurálního hlasu:
- Přenos jazyka může být vyjádřen v jazyce odlišném od původních hlasových nahrávek.
- Přenos stylu se může vyjádřit ve stylu řeči, který se liší od původních hlasových nahrávek. Například hlas newscasteru.
- Transformace hlasu se může vyjádřit způsobem, který se liší od původních hlasových nahrávek. Například úpravou tónu nebo výšky tónu, aby se vytvořily různé hlasy postav.
- Other voices used in Microsoft's products and services, například Cortana.
Co očekávat při nahrávání: Přispívání alespoň 300 řádků pro model pro testování konceptu a přibližně 2 000 linek pro vytvoření nového hlasového modelu pro produkční použití.
Jak funguje avatar převodu textu na řeč
Jak to funguje: Avatar schopný převodu textu na řeč je vytvořen na základě předem vytvořených neurálních hlasů a vlastních neurálních hlasů a syntetizuje video obsah avataru se synchronizovaným textem pro předem vytvořené neurální hlasy nebo vlastní neurální hlasy. Proces syntézy používá hluboké neurální sítě natrénované na modelech vyvinutých na základě videonahrávků talentů avatarů. Modely jsou trénovány s akustickými funkcemi extrahovanými ze zvukových prvků nahrávky a fyzických vlastností, pohyby úst, výrazy obličeje a související vizuální prvky extrahované z prvků videa záznamu.
Co je třeba vědět: Syntetizovaný avatar převádějící text na řeč má tvář, tělo a pohyby, které se velmi podobají talentu avatara, ale hlas tohoto avatara může být generován z jakéhokoli předem vytvořeného neurálního hlasu, který Microsoft zpřístupňuje, nebo z vlastního neurálního hlasu. To zahrnuje také situace, kdy je talent hlasu stejný jako talent avatara, pokud osoba dala souhlas s takovým použitím.
Příklady, jak to Microsoft používá:
- Předem připravený avatar pro převod textu na řeč je funkce Azure Speech ve Foundry Tools pro převod textu na řeč, která nabízí hotové modely avatarů pro použití zákazníky.
- Vlastní avatar pro převod textu na řeč je funkce Azure Převod textu na řeč, která umožňuje vytváření jedinečných individuálních syntetických modelů avatarů pro převod textu na řeč.
Co očekávat při nahrávání: K vytvoření kompletního vlastního modelu avatarů pro testování konceptu a přibližně 20 minut záznamu videa pro produkční použití budete muset přispívat alespoň 10 minut nahráváním videa.
Talent hlasu a syntetické hlasy: vyvíjející se vztah
Uznání integrálního vztahu mezi hlasovými talenty a syntetickými hlasy, Microsoft vedl rozhovor s talentovanými hlasovými umělci, aby lépe porozuměl jejich perspektivám ohledně nového technologického vývoje. Výzkum, který jsme provedli v roce 2019, ukázal, že hlasoví umělci viděli potenciální přínos možností, které přináší synthéza řeči pomocí neuronových sítí, jako je úspora času ve studiu při dokončování nahrávek a navýšení kapacity pro realizaci více hlasových hereckých zakázek. Současně došlo k různým stupňům povědomí o tom, jak by vývoj textových technologií pro řeč mohl potenciálně ovlivnit jejich povolání.
Celkově hlasový talent vyjádřil touhu po transparentnosti a přehlednosti v:
- Omezení toho, k čemu lze a nelze použít jejich hlasovou podobu.
- Doba trvání povoleného používání jejich podoby hlasu.
- Potenciální dopad na budoucí příležitosti nahrávání
- Osoba, která by byla spojována se znakovostí jejich hlasu.
Syntetický hlas v širším použití
Tradičně byly hlasy převodu textu na řeč přijímány omezeně kvůli jejich robotickému zvuku. Většina z nich se používala k podpoře přístupnosti, například jako čtečka obrazovky pro nevidomé nebo slabozraké. Také lidé s poruchou řeči používali syntetické hlasy. Například zesnulý Stephen Hawking používal hlas generovaný převodem textu na řeč.
Díky stále realističtějším syntetickým hlasům a nárůstu známějších každodenních interakcí mezi stroji a lidmi se používání této technologie značně rozšířilo. Systémy převodu textu na řeč pohánějí hlasové asistenty napříč různými zařízeními a aplikacemi. Čtou zprávy, výsledky hledání, oznámení veřejných služeb, vzdělávací obsah a mnoho dalšího.
Syntetické avatary v širším použití
Podobně jako hlasy převádějící text na řeč nyní avatary nabízejí realistický vzhled, pohyby a výrazy obličeje spárované s hlasy znějící jako živé. Tyto mluvené avatary se můžou používat v různých situacích, například k prezentaci obsahu v online školení, prezentování řeči jménem společnosti, interakci se zákazníky v nastavení zákaznických služeb a mnoho dalšího.
Microsoftův přístup k zodpovědnému používání technologie převodu textu na řeč
Každý den lidé nacházejí nové způsoby, jak využít technologie převodu textu na řeč, a ne všechny jsou pro dobro jednotlivců ani společnosti. Pokud jsou realisticky znějící hlasy převodu textu na řeč nebo avatary mluvící věrohodným způsobem nesprávně použity, mohly by způsobit škodu. Například kampaň dezinformace může být mnohem silnější, pokud použije hlas a obraz dobře známé veřejné osobnosti.
Uvědomujeme si, že neexistuje žádný dokonalý způsob, jak zabránit úpravám médií nebo jednoznačně prokázat, odkud pochází. Proto se náš přístup k odpovědnému použití zaměřil na transparentnost ohledně funkcí převodu textu na řeč v Azure tím, že omezuje povolené způsoby použití vlastních verzí těchto funkcí a demonstruje naše hodnoty prostřednictvím činů.
Požadavky a tipy pro smysluplný souhlas s hlasem a talentem avatara
Pokud ke zpracování biometrických údajů používáte Microsoft produkty nebo služby, zodpovídáte za: (i) poskytování oznámení subjektům údajů, včetně období uchovávání informací a zničení; ii) získání souhlasu subjektů údajů; a (iii) odstranění biometrických údajů podle příslušných požadavků na ochranu údajů. "Biometrické údaje" budou mít význam stanovený v článku 4 GDPR a v případě potřeby ekvivalentní podmínky v jiných požadavcích na ochranu údajů.
Pokud chceme používat vlastní neurální hlas, vyžadujeme, aby zákazníci provedli následující akce:
- Získejte explicitní písemné oprávnění od hlasových talentů k používání hlasu dané osoby za účelem vytvoření vlastního neurálního hlasu.
- Poskytněte tento dokument hlasovým talentům, aby pochopili, jak funguje text na řeč a jak se dá použít, jakmile dokončí proces nahrávání zvuku.
- Získejte potřebná oprávnění od hlasových talentů k jejich zpracování, používání a uchovávání zvukových souborů ve společnosti Microsoft pro provádění ověření mluvčího na základě trénovacích dat a pro používání a uchovávání hlasových modelů, jak je popsáno níže.
Doporučujeme také, aby zákazníci provedli následující akce:
- Podělte se o zamýšlené kontexty použití s hlasovým talentem, aby věděli, kdo bude slyšet svůj hlas, v jakých scénářích a jestli s ním budou moct lidé pracovat.
- Zajistěte, aby hlasový talent věděl, že hlasový model vytvořený z jejich nahrávek může říct věci, které nenahráli konkrétně ve studiu.
- Zvažte, zda existuje něco, co by jim bylo nepříjemné, aby hlasový model řekl.
Zpracování, používání a uchovávání dat společností Microsoft
Použití zvukových nahrávek hlasu Microsoftem pro ověření identity mluvčího
Zákazníci musí získat oprávnění od hlasového talenta, aby mohli používat jejich hlas k tvorbě vlastních modelů syntetického hlasu. Tato technická ochrana je určena k tomu, aby zabránila zneužití naší služby, například tím, že někomu brání v trénování hlasových modelů se zvukovými nahrávkami a použití modelů k falšování hlasu bez znalosti mluvčího nebo souhlasu.
V Speech Studio musíte nahrát zvukový soubor se zaznamenaným potvrzujícím prohlášením od hlasového talentu. Microsoft si vyhrazuje právo používat technologii Microsoftu pro rozpoznávání mluvčího na tomto zaznamenaném potvrzovacím prohlášení a ověřit je proti trénovacím zvukovým datům, aby potvrdili, že hlasy pocházejí ze stejného mluvčího, nebo jinak dle potřeby k prošetření zneužití služby Azure Speech.
Hlasové podpisy mluvčího vytvořené ze zaznamenaných souborů prohlášení o potvrzení a trénovacích zvukových dat se používají Microsoft výhradně pro výše uvedené účely. Microsoft zachovají zaznamenaný soubor prohlášení po dobu potřebnou k zachování zabezpečení a integrity nástrojů Microsoft Foundry Tools. Přečtěte si další informace o tom, jak zpracováváme, používáme a uchováváme data v dokumentaci k datům, ochraně osobních údajů a zabezpečení.
Použití vlastních modelů Microsoftu
I když zákazníci udržují výhradní práva k používání vlastního neurálního hlasového modelu, Microsoft mohou nezávisle uchovávat kopii vlastních neurálních hlasových modelů, pokud je to potřeba. Microsoft může používat vlastní neurální hlasový model pro jediný účel ochrany zabezpečení a integrity nástrojů Foundry.
Microsoft zabezpečí a uloží kopii zaznamenaného prohlášení o hlasových talentech a vlastních neurálních hlasových modelů se stejným zabezpečením vysoké úrovně, jaké používá pro ostatní služby Azure Services. Další informace najdete v Centru zabezpečení Microsoft.
Budeme i nadále identifikovat a jasně popisovat záměrné, přínosné a zamýšlené použití syntézy řeči, které je založeno na stávajících sociálních normách a očekáváních lidí ohledně médií, když věří, že jsou skutečná nebo falešná. V souladu s principy důvěryhodnosti Microsoft Microsoft aktivně nemonitoruje ani moderuje zvukový obsah vygenerovaný použitím vlastního neurálního hlasu. Zákazníci jsou výhradně zodpovědní za zajištění toho, aby používání odpovídalo všem platným zákonům a předpisům a v souladu s podmínkami smlouvy zákazníka s hlasovými talenty.
Použití hlasových dat talentů Microsoftu s vlastním neurálním hlasem lite.
Vlastní neurální hlas lite je typ projektu ve verzi Public Preview, který umožňuje zaznamenat 20 až 50 hlasových ukázek v sadě Speech Studio a vytvořit jednoduchý vlastní hlasový model pro demonstrační a zkušební účely. Záznamový skript i testovací skript jsou předem definované Microsoft. Syntetický hlasový model, který vytvoříte pomocí vlastního neurálního hlasu lite, může být nasazen a obecněji používán pouze v případě, že použijete a obdržíte úplný přístup k vlastnímu neurálnímu hlasu (podle příslušných podmínek).
Syntetická hlasová a související nahrávka zvuku, kterou odešlete přes Speech Studio, se automaticky odstraní do 90 dnů, pokud nezískáte úplný přístup k vlastnímu neurálnímu hlasu a rozhodnete se nasadit syntetický hlas, v takovém případě budete řídit dobu uchovávání. Pokud by si hlasový talent přál mít syntetický hlas a související zvukové nahrávky odstraněny před uplynutím 90 dnů, může je odstranit přímo na portálu, nebo kontaktovat společnost, aby to udělali.
Navíc před nasazením jakéhokoli syntetického hlasového modelu vytvořeného pomocí projektu Neural Voice Lite musí hlasový talent poskytnout další nahrávku, ve které potvrdí, že syntetický hlas bude použit pro další účely nad rámec demonstrací a hodnocení.
Pokyny pro zodpovědné nasazení
Vzhledem k tomu, že technologie převodu textu na řeč je adaptabilní, existují nejasnosti ohledně toho, jak by se měla nebo neměla používat. Abychom mohli tyto možnosti procházet, formulovali jsme následující pokyny pro používání syntetických modelů hlasu a avatarů:
- Chraňte vlastníky hlasů a vyobrazení/podob před zneužitím nebo krádeží identity.
- Zabraňte šíření falešného a zavádějícího obsahu.
- Povzbuďte použití ve scénářích, kdy spotřebitelé očekávají interakci se syntetickým obsahem.
- Povzbuďte použití ve scénářích, kdy spotřebitelé sledují generování syntetického obsahu.
Příklady nevhodného použití
Azure AI převod textu na řeč nesmí být používán.
- Oklamat lidi a/nebo úmyslně dezinformovat;
- Pro účely falešné reklamy, včetně prostřednictvím živých reklam; Prohlašovat, že jste z jakékoli osoby, společnosti, vládního orgánu nebo subjektu bez výslovného oprávnění tuto skutečnost uvádět;
- Zosobnění libovolné osoby bez explicitního oprávnění, včetně získání informací nebo oprávnění;
- Vytváření, vytváření nebo maskování projevů nenávisti, diskriminace, pomluv, terorismu nebo násilí;
- Zneužití dětí nebo manipulace s nimi;
- Chcete-li provádět nevyžádané telefonní hovory, hromadnou komunikaci, příspěvky nebo zprávy;
- Zamaskování politických pozic nebo politických symbolů;
- Šíření nepotřebného obsahu nebo nesprávných zdrojů.
Příklady vhodného použití
Vhodné případy použití mohou zahrnovat, ale nejsou omezeny na:
- Virtuální agenti na základě fiktivních osob. Například vyhledávání na vyžádání, řízení IoT nebo zákaznická podpora poskytovaná značkou společnosti.
- Zábavní média pro použití v fiktivním obsahu. Například filmy, videohry, televize, nahraná hudba nebo zvukové knihy.
- Akreditované vzdělávací instituce nebo vzdělávací média. Například interaktivní plány hodin nebo prohlídky muzea s průvodcem.
- Asistenční technologie a překlad v reálném čase Například ALS postiženým jedincům zachovávajícím si své hlasy.
- Oznámení o veřejných službách využívající fiktivní osoby. Například oznámení o letišti nebo vlakovém terminálu.
- Reklamní/živé streamování: reklamní obsah, živé streamování spojené s marketingem nebo prodejem produktu.