Co je personalizovaný hlas?

2025-06-02

Vlastní hlas je funkce převodu textu na řeč, která umožňuje vytvářet individuální, přizpůsobené a syntetické hlasy pro vaše aplikace. Pomocí přizpůsobeného hlasu můžete vytvořit velmi přirozeně znějící hlas pro vaši značku nebo postavy tím, že poskytnete vzorky lidské řeči jako data pro doladění.

Důležité

Vlastní hlasový přístup je omezený na základě způsobilosti a kritérií použití. Požádejte o přístup ve formuláři pro příjem.

Bez nutnosti dalšího nastavení lze použít převod textu na řeč se standardními hlasy pro každý podporovaný jazyk. Standardní hlasy fungují dobře ve většině scénářů pro převod textu na řeč, pokud není nutný jedinečný hlas.

Vlastní hlas je založený na neurální technologii převodu textu na řeč a univerzálním modelu pro vícejazyčné a vícemluvčí. Můžete vytvářet syntetické hlasy, které jsou bohaté na styly řeči nebo přizpůsobitelné křížové jazyky. Realistický a přirozený zvuk vlastního hlasu může představovat značky, personifikovat počítače a umožnit uživatelům komunikovat s aplikacemi konverzálně. Podívejte se na podporované jazyky pro vlastní hlas.

Jak to funguje?

Pokud chcete vytvořit vlastní hlas, použijte Speech Studio k nahrání nahraného zvuku a odpovídajících skriptů, trénování modelu a nasazení hlasu do vlastního koncového bodu.

Vytvoření skvělého vlastního hlasu vyžaduje v každém kroku pečlivé řízení kvality od návrhu hlasu a přípravy dat až po nasazení hlasového modelu do systému.

Než začnete pracovat se sadou Speech Studio, tady je několik důležitých aspektů:

Navrhněte osobu hlasu, která představuje vaši značku, pomocí stručného dokumentu osoby. Tento dokument definuje prvky, jako jsou vlastnosti hlasu, a znak za hlasem. To vám pomůže řídit proces vytváření vlastního hlasového modelu, včetně definování skriptů, výběru talentu hlasu, trénování a ladění hlasu.
Vyberte skript pro nahrávání, který bude představovat uživatelské scénáře pro váš hlas. Pokud například vytváříte robota služby zákazníkům, můžete jako svůj záznamový skript použít fráze z konverzací robota robota. Do skriptů můžete zahrnout různé typy vět, včetně příkazů, otázek a vykřičníků.

Tady je přehled kroků pro vytvoření vlastního hlasu v sadě Speech Studio:

Vytvořte projekt , který bude obsahovat vaše data, hlasové modely, testy a koncové body. Každý projekt je specifický pro zemi nebo oblast a jazyk. Pokud budete vytvářet více hlasů, doporučujeme vytvořit projekt pro každý hlas.
Nastavte talent hlasu. Než budete moct vyladit profesionální hlas, musíte odeslat záznam prohlášení o souhlasu od hlasového umělce. Prohlášení o hlasovém talentu je záznam hlasového talentu, který čte prohlášení, že souhlasí s používáním svých hlasových dat pro profesionální vyladění hlasu.
Příprava dat pro jemné doladění ve správném formátu Je vhodné zachytit zvukové nahrávky v profesionální kvalitě nahrávacího studia, abyste dosáhli vysokého poměru signálu k šumu. Kvalita hlasového modelu závisí hodně na vašich jemně vyladěných datech. Vyžaduje se konzistentní hlasitost, rychlost mluvení, výška a konzistence výrazným způsobem.
Trénování hlasového modelu Vyberte aspoň 300 promluv a vytvořte vlastní hlas. Při nahrávání se automaticky provádí řada kontrol kvality dat. Pokud chcete vytvářet vysoce kvalitní hlasové modely, měli byste opravit případné chyby a odeslat je znovu.
Otestujte svůj hlas. Připravte testovací skripty pro hlasový model, které pokrývají různé případy použití vašich aplikací. Je vhodné používat skripty v rámci trénovací datové sady i mimo ni, abyste mohli kvalitnější testovat pro různé obsahy.
Nasaďte a používejte hlasový model ve svých aplikacích.

Můžete ladit, upravovat a používat vlastní hlas, podobně jako byste používali standardní hlas. Převeďte text na řeč v reálném čase nebo vygenerujte zvukový obsah offline pomocí textového vstupu. Používáte rozhraní REST API, sadu Speech SDK nebo Sadu Speech Studio.

Návod

Podívejte se na ukázky kódu v úložišti Speech SDK na GitHubu a podívejte se, jak používat vlastní hlas ve vaší aplikaci.

Styl a vlastnosti vytrénovaného hlasového modelu závisí na stylu a kvalitě nahrávek z talentu hlasu používaného k trénování. Pomocí jazyka SSML (Speech Synthesis Markup Language) však můžete provést několik úprav při volání rozhraní API pro hlasový model, který generuje syntetickou řeč. SSML je jazyk revizí používaný ke komunikaci s textem do služby speech za účelem převodu textu na zvuk. Mezi úpravy, které můžete provést, patří změna sklonu, rychlosti, intonace a opravy výslovnosti. Pokud je hlasový model vytvořený s více styly, můžete styly přepínat také pomocí SSML.

Posloupnost komponent

Vlastní hlas se skládá ze tří hlavních součástí: analyzátor textu, neurální akustický model a neurální vocoder. Pro generování přirozené syntetické řeči z textu je text první vstup do textového analyzátoru, který poskytuje výstup ve formě posloupnosti fomeů. Fonát je základní jednotka zvuku, která rozlišuje jedno slovo od druhého v určitém jazyce. Posloupnost fonetů definuje výslovnost slov zadaných v textu.

V dalším kroku se sekvence fomů dostane do neurálního akustického modelu, aby předpověděla akustické funkce, které definují řečové signály. Akustické funkce zahrnují timbre, styl mluvení, rychlost, intonace a stresové vzory. Nakonec neurální vocoder převádí akustické vlastnosti na zvukové vlny, aby se generovala syntetická řeč.

Vývojový diagram znázorňující komponenty vlastního hlasu

Neurální text na hlasové modely řeči se trénují pomocí hlubokých neurálních sítí na základě nahrávek vzorků lidských hlasů. Další informace najdete v tomto blogovém příspěvku Microsoftu. Další informace o tom, jak je vytrénovaný neurální vocoder, najdete v tomto blogovém příspěvku Microsoftu.

Zodpovědná AI

Systém AI zahrnuje nejen technologii, ale také uživatele, kteří ho používají, osoby, kterých se to týká, a prostředí, ve kterém je nasazené. Přečtěte si poznámky k transparentnosti a seznamte se s zodpovědným používáním a nasazením umělé inteligence ve vašich systémech.

Sdílet prostřednictvím

Co je personalizovaný hlas?

Jak to funguje?

Posloupnost komponent

Zodpovědná AI

Další kroky

Váš názor

Další materiály