Träningsdata för anpassad neural röst

Artikel
09/29/2024

När du är redo att skapa en anpassad text till tal-röst för ditt program är det första steget att samla in ljudinspelningar och tillhörande skript för att börja träna röstmodellen. Speech-tjänsten använder dessa data för att skapa en unik röst som är justerad för att matcha rösten i inspelningarna. När du har tränat rösten kan du börja syntetisera tal i dina program.

Dricks

För att skapa en röst för produktionsanvändning rekommenderar vi att du använder en professionell inspelningsstudio och rösttalang. Mer information finns i spela in röstexempel för att skapa en anpassad neural röst.

Typer av träningsdata

En röstträningsdatauppsättning innehåller ljudinspelningar och en textfil med tillhörande transkriptioner. Varje ljudfil ska innehålla ett enda yttrande (en enda mening eller en enda sväng för ett dialogsystem) och vara mindre än 15 sekunder långt.

I vissa fall kanske du inte har rätt datauppsättning redo. Du kan testa den anpassade neurala röstträningen med tillgängliga ljudfiler, korta eller långa, med eller utan avskrifter.

Den här tabellen visar datatyper och hur var och en används för att skapa en anpassad text-till-tal-röstmodell.

Datatyp	beskrivning	Används när	Extra bearbetning krävs
Enskilda yttranden + matchande avskrift	En samling (.zip) av ljudfiler (.wav) som enskilda yttranden. Varje ljudfil ska vara 15 sekunder eller mindre lång, parat med en formaterad avskrift (.txt).	Professionella inspelningar med matchande avskrifter	Redo för träning.
Långt ljud + avskrift	En samling (.zip) av långa, osegmenterade ljudfiler (.wav eller .mp3, längre än 20 sekunder, högst 1 000 ljudfiler), parat med en samling (.zip) av transkriptioner som innehåller alla talade ord.	Du har ljudfiler och matchande avskrifter, men de är inte segmenterade i yttranden.	Segmentering (med batch-transkription). Omvandling av ljudformat där det behövs.
Endast ljud (förhandsversion)	En samling (.zip) av ljudfiler (.wav eller .mp3, högst 1 000 ljudfiler) utan avskrift.	Du har bara ljudfiler tillgängliga, utan avskrifter.	Segmentering + avskriftsgenerering (med batch-transkription). Omvandling av ljudformat där det behövs.

Filer ska grupperas efter typ i en datauppsättning och laddas upp som en zip-fil. Varje datauppsättning kan bara innehålla en enda datatyp.

Kommentar

Det maximala antalet datamängder som tillåts importeras per prenumeration är 500 zip-filer för standardprenumerationsanvändare (S0).

Enskilda yttranden + matchande avskrift

Du kan förbereda inspelningar av enskilda yttranden och matchande avskrift på två sätt. Skriv antingen ett skript och låt det läsas av en rösttalang eller använda offentligt tillgängligt ljud och transkribera det till text. Om du gör det senare kan du redigera avvikelser från ljudfilerna, till exempel "um" och andra fyllnadsljud, stamningar, mumlade ord eller felpronunciationer.

Skapa inspelningarna i ett tyst rum med en mikrofon av hög kvalitet för att skapa en bra röstmodell. Konsekvent volym, talfrekvens, talhöjd och uttrycksfulla talsätt är viktiga.

Exempel på dataformat finns i exempelträningsuppsättningen på GitHub. Exempelträningsuppsättningen innehåller exempelskriptet och det associerade ljudet.

Ljuddata för enskilda yttranden + matchande avskrift

Varje ljudfil ska innehålla ett enda yttrande (en enda mening eller en enda sväng i ett dialogsystem), mindre än 15 sekunder långt. Alla filer måste vara på samma talade språk. Anpassade text-till-talröster med flera språk stöds inte, förutom tvåspråkiga kinesiska-engelska. Varje ljudfil måste ha ett unikt filnamn med filnamnstillägget .wav.

Följ dessa riktlinjer när du förbereder ljud.

Property	Värde
File format	RIFF (.wav), grupperad i en .zip fil
Filnamn	Filnamnstecken som stöds av Windows OS, med .wav filnamnstillägg. `\ / : * ? " < > \\|` Tecknen är inte tillåtna. Det kan inte börja eller sluta med ett blanksteg och kan inte börja med en punkt. Inga duplicerade filnamn tillåts.
Samplingsfrekvens	När du skapar en anpassad neural röst krävs 24 000 Hz.
Samplingsformat	PCM, minst 16-bitars
Ljudlängd	Kortare än 15 sekunder
Arkivformat	.zip
Maximal arkivstorlek	2 048 MB

Kommentar

Standardsamplingshastigheten för en anpassad neural röst är 24 000 Hz. Ljudfiler med en samplingsfrekvens som är lägre än 16 000 Hz avvisas. Om en .zip fil innehåller .wav filer med olika exempelfrekvenser importeras endast de som är lika med eller högre än 16 000 Hz. Dina ljudfiler med en samplingsfrekvens som är högre än 16 000 Hz och lägre än 24 000 Hz kommer att samplas upp till 24 000 Hz för att träna en neural röst. Vi rekommenderar att du använder en exempelfrekvens på 24 000 Hz för dina träningsdata.

Transkriptionsdata för enskilda yttranden + matchande avskrift

Transkriptionsfilen är en oformaterad textfil. Använd dessa riktlinjer för att förbereda dina transkriptioner.

Property	Värde
File format	Oformaterad text (.txt)
Kodningsformat	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE eller UTF-16-BE. För zh-CN stöds inte ANSI- och ASCII-kodning.
antal yttrande per rad	En – Varje rad i transkriptionsfilen ska innehålla namnet på en av ljudfilerna, följt av motsvarande transkription. Du måste använda en flik (\t) för att avgränsa filnamnet och transkriptionen.
Maximal filstorlek	2 048 MB

Här är ett exempel på hur avskrifterna är ordnade yttranden efter yttrande i en .txt fil:

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

Det är viktigt att avskrifterna är 100 % korrekta transkriptioner av motsvarande ljud. Fel i avskrifterna medför kvalitetsförlust under träningen.

Långt ljud + avskrift (förhandsversion)

Kommentar

För Long audio + transcript (förhandsversion)stöds endast dessa språk: kinesiska (mandarin, förenklad), engelska (Indien), engelska (Storbritannien), engelska (USA), franska (Frankrike), tyska (Tyskland), italienska (Italien), japanska (Japan), portugisiska (Brasilien) och spanska (Mexiko).

I vissa fall kanske du inte har segmenterat ljud tillgängligt. Speech Studio kan hjälpa dig att segmentera långa ljudfiler och skapa transkriptioner. Segmenteringstjänsten för långt ljud använder funktionen Batch Transcription API i tal till text.

Under bearbetningen av segmenteringen skickas även ljudfilerna och avskrifterna till den anpassade taltjänsten för att förfina igenkänningsmodellen så att noggrannheten kan förbättras för dina data. Inga data behålls under den här processen. När segmenteringen är klar lagras endast yttrandena segmenterade och deras mappningsavskrifter för nedladdning och träning.

Kommentar

Den här tjänsten debiteras för din användning av textprenumeration. Segmenteringstjänsten för långt ljud stöds endast med standardresurser (S0).

Ljuddata för Långt ljud + avskrift

Följ dessa riktlinjer när du förbereder ljud för segmentering.

Property	Värde
File format	RIFF (.wav) eller .mp3, grupperade i en .zip fil
Filnamn	Filnamnstecken som stöds av Windows OS, med .wav filnamnstillägg. `\ / : * ? " < > \\|` Tecknen är inte tillåtna. Det kan inte börja eller sluta med ett blanksteg och kan inte börja med en punkt. Inga duplicerade filnamn tillåts.
Samplingsfrekvens	När du skapar en anpassad neural röst krävs 24 000 Hz.
Samplingsformat	RIFF(.wav): PCM, minst 16-bitars. mp3: Minst 256 KBIT/s bithastighet.
Ljudlängd	Längre än 20 sekunder
Arkivformat	.zip
Maximal arkivstorlek	2 048 MB, högst 1 000 ljudfiler inkluderade

Kommentar

Standardsamplingshastigheten för en anpassad neural röst är 24 000 Hz. Ljudfiler med en samplingsfrekvens som är lägre än 16 000 Hz avvisas. Dina ljudfiler med en samplingsfrekvens som är högre än 16 000 Hz och lägre än 24 000 Hz kommer att samplas upp till 24 000 Hz för att träna en neural röst. Vi rekommenderar att du använder en exempelfrekvens på 24 000 Hz för dina träningsdata.

Alla ljudfiler ska grupperas i en zip-fil. Det är ok att placera .wav filer och .mp3 filer i samma zip-fil. Du kan till exempel ladda upp en 45-sekunders ljudfil med namnet "kingstory.wav" och en 200 sekunder lång ljudfil med namnet "queenstory.mp3" i samma zip-fil. Alla .mp3 filer omvandlas till .wav format efter bearbetning.

Transkriptionsdata för Långt ljud + avskrift

Avskrifter måste förberedas enligt specifikationerna i den här tabellen. Varje ljudfil måste matchas med en avskrift.

Property	Värde
File format	Oformaterad text (.txt), grupperad i en .zip
Filnamn	Använd samma namn som den matchande ljudfilen
Kodningsformat	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE eller UTF-16-BE. För zh-CN stöds inte ANSI- och ASCII-kodning.
antal yttrande per rad	Ingen begränsning
Maximal filstorlek	2 048 MB

Alla avskriftsfiler i den här datatypen ska grupperas i en zip-fil. Du kan till exempel ladda upp en 45-sekunders ljudfil med namnet "kingstory.wav" och en 200 sekunder lång ljudfil med namnet "queenstory.mp3" i samma zip-fil. Du måste ladda upp en annan zip-fil som innehåller motsvarande två avskrifter – en med namnet "kingstory.txt" och den andra med namnet "queenstory.txt". I varje oformaterad textfil anger du den fullständiga korrekta transkriptionen för det matchande ljudet.

När datamängden har laddats upp hjälper vi dig att segmentera ljudfilen i yttranden baserat på den avskrift som tillhandahålls. Du kan kontrollera segmenterade yttranden och matchande avskrifter genom att ladda ned datamängden. Unika ID:er tilldelas automatiskt till segmenterade yttranden. Det är viktigt att du ser till att avskrifterna du anger är 100 % korrekta. Fel i avskrifterna kan minska noggrannheten under ljudsegmenteringen och ytterligare införa kvalitetsförlust i träningsfasen som kommer senare.

Endast ljud (förhandsversion)

Kommentar

Endast för ljud (förhandsversion)stöds endast dessa språk: kinesiska (mandarin, förenklad), engelska (Indien), engelska (Storbritannien), engelska (USA), franska (Frankrike), tyska (Tyskland), italienska (Italien), japanska (Japan), portugisiska (Brasilien) och spanska (Mexiko).

Om du inte har transkriptioner för dina ljudinspelningar använder du alternativet Endast ljud för att ladda upp dina data. Vårt system kan hjälpa dig att segmentera och transkribera dina ljudfiler. Tänk på att den här tjänsten debiteras för din användning av tal till textprenumeration.

Följ dessa riktlinjer när du förbereder ljud.

Kommentar

Segmenteringstjänsten för långt ljud använder funktionen för batchavskrift i tal till text, som endast stöder standardprenumerationsanvändare (S0).

Property	Värde
File format	RIFF (.wav) eller .mp3, grupperade i en .zip fil
Filnamn	Filnamnstecken som stöds av Windows OS, med .wav filnamnstillägg. `\ / : * ? " < > \\|` Tecknen är inte tillåtna. Det kan inte börja eller sluta med ett blanksteg och kan inte börja med en punkt. Inga duplicerade filnamn tillåts.
Samplingsfrekvens	När du skapar en anpassad neural röst krävs 24 000 Hz.
Samplingsformat	RIFF(.wav): PCM, minst 16-bitars mp3: Minst 256 KBIT/s bithastighet.
Ljudlängd	Ingen begränsning
Arkivformat	.zip
Maximal arkivstorlek	2 048 MB, högst 1 000 ljudfiler inkluderade

Kommentar

Standardsamplingshastigheten för en anpassad neural röst är 24 000 Hz. Dina ljudfiler med en samplingsfrekvens som är högre än 16 000 Hz och lägre än 24 000 Hz kommer att samplas upp till 24 000 Hz för att träna en neural röst. Vi rekommenderar att du använder en exempelfrekvens på 24 000 Hz för dina träningsdata.

Alla ljudfiler ska grupperas i en zip-fil. När datamängden har laddats upp hjälper Speech-tjänsten dig att segmentera ljudfilen i yttranden baserat på vår transkriptionstjänst för talbatch. Unika ID:er tilldelas automatiskt till segmenterade yttranden. Matchande avskrifter genereras genom taligenkänning. Alla .mp3 filer omvandlas till .wav format efter bearbetning. Du kan kontrollera segmenterade yttranden och matchande avskrifter genom att ladda ned datamängden.

Dela via

Träningsdata för anpassad neural röst

Typer av träningsdata

Enskilda yttranden + matchande avskrift

Ljuddata för enskilda yttranden + matchande avskrift

Transkriptionsdata för enskilda yttranden + matchande avskrift

Långt ljud + avskrift (förhandsversion)

Ljuddata för Långt ljud + avskrift

Transkriptionsdata för Långt ljud + avskrift

Endast ljud (förhandsversion)

Nästa steg

Feedback

Ytterligare resurser