Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Až budete připraveni vytvořit vlastní hlas pro vaši aplikaci, prvním krokem je shromáždění zvukových nahrávek a přidružených skriptů pro zahájení profesionálního ladění hlasu. "Vlastní hlas" je zastřešující termín, který zahrnuje profesionální vyladění hlasu i osobní hlas. Služba Speech používá tato data k profesionálnímu vyladění hlasu a k vytvoření jedinečného hlasu vyladěného tak, aby odpovídal hlasu v záznamech. Po doladění profesionálního hlasu můžete v aplikacích začít syntetizovat řeč.
Návod
Pokud chcete vytvořit hlas pro produkční použití, doporučujeme použít profesionální nahrávací studio a hlasový talent. Další informace najdete v tématu nahrávání hlasových ukázek pro profesionální vyladění hlasu.
Typy dat pro vyladění profesionálního hlasu
Datová sada pro profesionální vyladění hlasu zahrnuje zvukové nahrávky a textový soubor s přidruženými přepisy. Každý zvukový soubor by měl obsahovat jednu promluvu (jednu větu nebo jedno otočení či tah v dialogovém systému) a mělo by být kratší než 15 sekund.
V některých případech možná nemáte připravenou správnou datovou sadu. Můžete otestovat profesionální jemné ladění hlasu s dostupnými zvukovými soubory, krátkými nebo dlouhými, s přepisy nebo bez nich.
Tato tabulka uvádí datové typy a způsob jejich použití pro profesionální vyladění hlasu.
| Datový typ | Popis | Kdy použít | Vyžaduje se dodatečné zpracování. | Zpracováno jako |
|---|---|---|---|---|
| Jednotlivé promluvy + odpovídající přepis | Kolekce zvukových souborů (.zip) (.wav) jako jednotlivých promluv. Každý zvukový soubor by měl mít délku 15 sekund nebo méně, spárovaný s formátovaným přepisem (.txt). | Profesionální nahrávky s odpovídajícími přepisy | Připraveno na vyladění. | Segmentovaný |
| Dlouhý zvuk + přepis | Kolekce (.zip) dlouhých nesegmentovaných zvukových souborů (.wav nebo .mp3, delší než 20 sekund, maximálně 1 000 zvukových souborů), spárovaných s kolekcí (.zip) přepisů, které obsahují všechna mluvená slova. | Máte zvukové soubory a odpovídající přepisy, ale nejsou segmentované do promluv. | Segmentace (při dávkovém přepisu) Transformace formátu zvuku bez ohledu na to, kde je to potřeba. |
Segmentované, kontextové |
| Pouze zvuk | Kolekce zvukových souborů (.zip) (.wav nebo .mp3, maximálně 1 000 zvukových souborů) bez přepisu. | Máte k dispozici jenom zvukové soubory bez přepisů. | Segmentace + generování přepisu (pomocí dávkového přepisu) Transformace formátu zvuku bez ohledu na to, kde je to potřeba. |
Segmentované, kontextové |
Soubory by se měly seskupit podle typu do datové sady a nahrát jako soubor ZIP. Každá datová sada může obsahovat pouze jeden datový typ.
Poznámka:
Maximální počet datových sad, které je možné importovat na jedno předplatné, je 500 souborů ZIP pro standardní uživatele předplatného (S0).
Zpracování kontextově zachovává celý zvuk, aby se udržely kontextové informace pro přirozenější intonace.
Jednotlivé promluvy a odpovídající přepis
Nahrávky jednotlivých promluv a odpovídající přepis můžete připravit dvěma způsoby. Buď napište skript a nechte ho číst hlasovým talentem , nebo použijte veřejně dostupný zvuk a přepište ho na text. Pokud se rozhodnete pro druhou možnost, upravte zvukové soubory a odstraňte s nimi spojené disfluence, jako jsou "um" a další výplňové zvuky, koktání, mumlání nebo chybné výslovnosti.
Pokud chcete vytvořit dobrý hlasový model, vytvořte nahrávky v tiché místnosti s vysoce kvalitním mikrofonem. Konzistentní hlasitost, rychlost mluvení, intonace řeči a výrazové vlastnosti řeči jsou nezbytné.
Příklady formátu dat najdete v ukázkové datové sadě na GitHub. Ukázková datová sada obsahuje ukázkový skript a přidružený zvuk.
Zvuková data pro jednotlivé promluvy a odpovídající přepis
Každý zvukový soubor by měl obsahovat jednu promluvu (jednu větu nebo jeden tah dialogového systému), kratší než 15 sekund. Všechny soubory musí být ve stejném mluveném jazyce. Vícejazyčné přizpůsobené hlasy pro převod textu na řeč nejsou podporovány, s výjimkou čínština-angličtina bilingvní. Každý zvukový soubor musí mít jedinečný název souboru s příponou názvu souboru .wav.
Při přípravě zvuku postupujte podle těchto pokynů.
| Vlastnost | Hodnota |
|---|---|
| Formát souboru | RIFF (.wav) seskupené do souboru .zip |
| Název souboru | Znaky názvu souboru podporované operačním systémem Windows s příponou .wav Znaky \ / : * ? " < > \| nejsou povolené. Nemůže začínat ani končit mezerou a nemůže začínat tečkou. Nejsou povoleny žádné duplicitní názvy souborů. |
| Vzorkovací frekvence | Při doladění profesionálního hlasu je vyžadováno 24 KHz a vyšší. |
| Formát ukázky | PCM, aspoň 16bitová verze |
| Délka zvuku | Kratší než 15 sekund |
| Formát archivu | .zip |
| Maximální velikost archivu | 2048 MB |
Poznámka:
Výchozí vzorkovací frekvence pro profesionální vyladění hlasu je 24 KHz. Zvukové soubory s vzorkovací frekvencí nižší než 16 000 Hz budou odmítnuty. Pokud soubor .zip obsahuje soubory .wav s různými vzorkovacími rychlostmi, importují se pouze soubory, které se rovnají nebo vyšší než 16 000 Hz. Zvukové soubory s vzorkovací rychlostí vyšší než 16 000 Hz a nižší než 24 KHz budou vzorkovány až na 24 KHz pro vyladění. Doporučuje se použít vzorkovací frekvenci 24 KHz a vyšší pro vaše jemně vyladěná data.
Data přepisu pro jednotlivé promluvy a odpovídající přepis
Soubor přepisu je soubor ve formátu prostého textu. Pomocí těchto pokynů připravte přepisy.
| Vlastnost | Hodnota |
|---|---|
| Formát souboru | Prostý text (.txt) |
| Formát kódování | ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE nebo UTF-16-BE. Pro zh-CN se kódování ANSI a ASCII nepodporuje. |
| Počet promluv na řádek | Jedna – každý řádek souboru přepisu by měl obsahovat název jednoho ze zvukových souborů následovaný odpovídajícím přepisem. K oddělení názvu souboru a přepisu musíte použít tabulátor (\t). |
| Maximální velikost souboru | 2048 MB |
Tady je příklad uspořádání přepisů podle promluvy v jednom souboru .txt:
0000000001[tab] This is the waistline, and it's falling.
0000000002[tab] We have trouble scoring.
0000000003[tab] It was Janet Maslin.
Je důležité, aby přepisy byly 100% přesné přepisy odpovídajícího zvuku. Chyby v přepisech představují ztrátu kvality během procesu vyladění.
Dlouhý zvuk + přepis
Poznámka:
Pro Long audio + přepis jsou podporovány pouze tyto jazyky: čínština (mandarínština, zjednodušená), čínština (kantonština, tradiční), čínština (tchaj-wanština), angličtina (Indie), angličtina (Spojené království), angličtina (Spojené království), angličtina (USA), francouzština (Francie), němčina (Německo), hindština (Indie), italština (Itálie), japonština (Japonsko), portugalština (Brazílie), španělština (Španělsko) a španělština (Mexiko).
Zpracováno jako kontext je v současné době dostupné pouze pro angličtinu, čínštinu (mandarínštinu, zjednodušenou), francouzštinu, italštinu, němčinu, španělštinu, portugalštinu (Brazílie), japonštinu, korejštinu a češtinu.
V některých případech možná nemáte k dispozici segmentovaný zvuk. Speech Studio vám pomůže segmentovat dlouhé zvukové soubory a vytvářet přepisy. Služba segmentace dlouhého zvuku používá funkci rozhraní API pro dávkový přepis pro převod řeči na text.
Služba nabízí dva režimy zpracování:
- Segmentováno: Výchozí režim zpracování, který funguje se všemi podporovanými jazyky
- Kontextový: Vylepšený režim, který zachovává zvuk jako celek, aby se uchovaly kontextové informace pro přirozenější intonaci.
Během zpracování segmentace se zvukové soubory a přepisy také posílají do služby Custom Speech, aby se zlepšil model rozpoznávání, aby bylo možné zlepšit přesnost vašich dat. Během tohoto procesu se nezachovávají žádná data. Po dokončení segmentace se ukládají pouze segmentované promluvy a jejich odpovídající přepisy pro vaše stahování a vyladění.
Zvuková data pro dlouhé audio a přepis
Při přípravě zvuku na segmentaci postupujte podle těchto pokynů.
| Vlastnost | Hodnota |
|---|---|
| Formát souboru | RIFF (.wav) nebo .mp3 seskupené do souboru .zip |
| Název souboru | Znaky názvu souboru podporované operačním systémem Windows s příponou .wav Znaky \ / : * ? " < > \| nejsou povolené. Nemůže začínat ani končit mezerou a nemůže začínat tečkou. Nejsou povoleny žádné duplicitní názvy souborů. |
| Vzorkovací frekvence | Při doladění profesionálního hlasu je vyžadováno 24 KHz a vyšší. |
| Formát ukázky | RIFF(.wav): PCM, nejméně 16bitová verze. mp3: Minimálně 256 KB/s přenosová rychlost. |
| Délka zvuku | Delší než 30 sekund |
| Formát archivu | .zip |
| Maximální velikost archivu | 2048 MB, maximálně 1 000 zvukových souborů zahrnutých |
Poznámka:
Výchozí vzorkovací frekvence pro profesionální vyladění hlasu je 24 KHz. Zvukové soubory s vzorkovací frekvencí nižší než 16 000 Hz budou odmítnuty. Zvukové soubory s vzorkovací rychlostí vyšší než 16 000 Hz a nižší než 24 KHz budou vzorkovány až na 24 KHz pro vyladění. Doporučuje se použít vzorkovací frekvenci 24 KHz a vyšší pro vaše jemně vyladěná data.
Segmentované promluvy by měly být v ideálním případě dlouhé 5 až 15 sekund. Pro optimální výsledky segmentace se doporučuje zahrnout přirozené pozastavení 0,5 až 1 sekundu každých 5 až 15 sekund řeči, nejlépe na konci frází nebo vět.
Všechny zvukové soubory by se měly seskupit do souboru ZIP. Je v pořádku umístit .wav soubory a .mp3 soubory do stejného souboru ZIP. Můžete například nahrát 45sekundový zvukový soubor s názvem "kingstory.wav" a 200sekundový zvukový soubor s názvem "queenstory.mp3" ve stejném souboru ZIP. Všechny .mp3 soubory se po zpracování transformují do formátu .wav.
Data pro přepis dlouhého zvuku a jeho přepisu
Přepisy musí být připravené na specifikace uvedené v této tabulce. Každý zvukový soubor se musí shodovat s přepisem.
| Vlastnost | Hodnota |
|---|---|
| Formát souboru | Prostý text (.txt) seskupený do .zip |
| Název souboru | Použijte stejný název jako odpovídající zvukový soubor. |
| Formát kódování | ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE nebo UTF-16-BE. Pro zh-CN se kódování ANSI a ASCII nepodporuje. |
| Počet promluv na řádek | Bez omezení |
| Maximální velikost souboru | 2048 MB |
Všechny soubory přepisů v tomto datovém typu by se měly seskupit do souboru ZIP. Můžete například nahrát 45sekundový zvukový soubor s názvem "kingstory.wav" a 200sekundový zvukový soubor s názvem "queenstory.mp3" ve stejném souboru ZIP. Musíte nahrát další soubor ZIP obsahující odpovídající dva přepisy – jeden s názvem "kingstory.txt" a druhý s názvem "queenstory.txt". V každém souboru prostého textu zadáte úplný správný přepis odpovídajícího zvuku.
Po úspěšném nahrání datové sady vám služba Speech pomůže segmentovat zvukový soubor do promluv na základě poskytnutého přepisu. Stažením datové sady můžete zkontrolovat segmentované promluvy a odpovídající přepisy. K segmentovaným promluvám se automaticky přiřazují jedinečná ID. Je důležité, abyste měli jistotu, že přepisy, které zadáte, jsou 100% přesné. Chyby v přepisech mohou snížit přesnost během segmentace zvuku a dále zavést ztrátu kvality ve fázi jemného ladění, která přichází později.
Pouze zvuk
Poznámka:
Pro Audio pouze jsou podporovány pouze tyto jazyky: čínština (mandarínština, zjednodušená), čínština (kantonština, tradiční), čínština (tchajwanština), angličtina (Indie), angličtina (Spojené království), angličtina (Spojené království), angličtina (USA), francouzština (Francie), němčina (Německo), hindština (Indie), italština (Itálie), japonština (Japonsko), portugalština (Brazílie), španělština (Španělsko) a španělština (Mexiko).
Zpracováno jako kontext je v současné době dostupné pouze pro angličtinu, čínštinu (mandarínštinu, zjednodušenou), francouzštinu, italštinu, němčinu, španělštinu, portugalštinu (Brazílie), japonštinu, korejštinu a češtinu.
Pokud nemáte přepisy zvukových nahrávek, nahrajte svá data pomocí možnosti Pouze audio. Služba Speech vám může pomoct segmentovat a přepisovat zvukové soubory.
Služba nabízí dva režimy zpracování:
- Segmentováno: Výchozí režim zpracování, který funguje se všemi podporovanými jazyky
- Kontextový: Vylepšený režim, který zachovává zvuk jako celek, aby se uchovaly kontextové informace pro přirozenější intonaci.
Při přípravě zvuku postupujte podle těchto pokynů.
| Vlastnost | Hodnota |
|---|---|
| Formát souboru | RIFF (.wav) nebo .mp3 seskupené do souboru .zip |
| Název souboru | Znaky názvu souboru podporované operačním systémem Windows s příponou .wav Znaky \ / : * ? " < > \| nejsou povolené. Nemůže začínat ani končit mezerou a nemůže začínat tečkou. Nejsou povoleny žádné duplicitní názvy souborů. |
| Vzorkovací frekvence | Při doladění profesionálního hlasu je vyžadováno 24 KHz a vyšší. |
| Formát ukázky | RIFF(.wav): PCM, minimálně 16bitová verze mp3: Minimálně 256 KB/s přenosová rychlost. |
| Délka zvuku | Bez omezení |
| Formát archivu | .zip |
| Maximální velikost archivu | 2048 MB, maximálně 1 000 zvukových souborů zahrnutých |
Poznámka:
Výchozí vzorkovací frekvence pro profesionální vyladění hlasu je 24 KHz. Zvukové soubory s vzorkovací rychlostí vyšší než 16 000 Hz a nižší než 24 KHz budou vzorkovány až na 24 KHz pro vyladění. Doporučuje se použít vzorkovací frekvenci 24 KHz a vyšší pro vaše jemně vyladěná data.
Segmentované promluvy by měly být v ideálním případě dlouhé 5 až 15 sekund. Pro optimální výsledky segmentace se doporučuje zahrnout přirozené pozastavení 0,5 až 1 sekundu každých 5 až 15 sekund řeči, nejlépe na konci frází nebo vět.
Všechny zvukové soubory by se měly seskupit do souboru ZIP. Po úspěšném nahrání datové sady vám služba Speech pomůže segmentovat zvukový soubor do promluv na základě služby dávkového přepisu řeči. V závislosti na vašem jazyce a požadavcích můžete vybrat režim standardního nebo kontextového zpracování. K segmentovaným promluvám se automaticky přiřazují jedinečná ID. Odpovídající přepisy se generují prostřednictvím rozpoznávání řeči. Všechny .mp3 soubory se po zpracování transformují do formátu .wav. Stažením datové sady můžete zkontrolovat segmentované promluvy a odpovídající přepisy.