Betanítási adatok egyéni neurális hanghoz

Cikk
01/22/2024

Ha készen áll arra, hogy egyéni szövegfelolvasást hozzon létre az alkalmazáshoz, az első lépés a hangrögzítések és a hozzájuk tartozó szkriptek összegyűjtése a hangmodell betanításának megkezdéséhez. A Speech szolgáltatás ezeket az adatokat felhasználva egy egyedi hangszínt hoz létre, amely a felvételek hangjának megfelelően van hangolva. A hang betanítása után megkezdheti a beszéd szintetizálását az alkalmazásokban.

Tipp.

A hang éles használatra való létrehozásához javasoljuk, hogy professzionális stúdiót és hangtehetségeket használjon. További információ: Hangminták rögzítése egyéni neurális hang létrehozásához.

Betanítási adatok típusai

A hangbetanítási adatkészletek hangrögzítéseket és a hozzájuk tartozó átiratokat tartalmazó szövegfájlt tartalmaznak. Minden hangfájlnak egyetlen kimondott szöveget kell tartalmaznia (egy mondatot vagy egy párbeszédpanel-rendszer egyetlen fordulatát), és 15 másodpercnél rövidebbnek kell lennie.

Bizonyos esetekben előfordulhat, hogy nem áll készen a megfelelő adatkészlet. Az egyéni neurális hangtanítást rövid vagy hosszú, átiratokkal vagy anélkül elérhető hangfájlokkal tesztelheti.

Ez a táblázat felsorolja az adattípusokat, és azt, hogy ezek hogyan használhatók egy egyéni szöveg beszédhangmodell létrehozásához.

Adattípus	Leírás	Mikor érdemes használni?	További feldolgozás szükséges
Egyéni kimondott szövegek + egyező átirat	Hangfájlok (.zip) gyűjteménye (.wav) egyéni kimondott szövegekként. Minden hangfájlnak legalább 15 másodperc hosszúságúnak kell lennie, formázott átirattal (.txt) párosítva.	Professzionális felvételek egyező átiratokkal	Készen áll a betanításra.
Hosszú hang + átirat	Hosszú, nem sérült hangfájlok (.wav vagy .mp3, 20 másodpercnél hosszabb, legfeljebb 1000 hangfájlból álló gyűjtemény (.zip), amely az összes beszélt szót tartalmazó átiratok gyűjteményével (.zip) van párosítva.	Rendelkezik hangfájlokkal és egyező átiratokkal, de ezek nem lesznek kimondott szövegekre szegmentáltak.	Szegmentálás (kötegelt átírással). Hangformátum-átalakítás, ahol szükséges.
Csak hang (előzetes verzió)	Hangfájlok gyűjteménye (.zip) (.wav vagy .mp3, legfeljebb 1000 hangfájl) átirat nélkül.	Csak hangfájlok érhetők el átiratok nélkül.	Szegmentáció + átirat generálása (kötegelt átírással). Hangformátum-átalakítás, ahol szükséges.

A fájlokat típus szerint kell csoportosítani egy adathalmazba, és zip-fájlként kell feltölteni. Minden adatkészlet csak egyetlen adattípust tartalmazhat.

Feljegyzés

Az előfizetésenként importálható adathalmazok maximális száma 500 zip-fájl a standard előfizetés (S0) felhasználói számára.

Egyéni kimondott szövegek + egyező átirat

Az egyes kimondott szövegekről és az egyező átiratokról kétféleképpen készíthet felvételeket. Írjon egy szkriptet, és olvassa el egy hangtehetség , vagy használjon nyilvánosan elérhető hangot, és írja át szövegre. Ha az utóbbit teszi, szerkessze a hangfájlokból származó eltéréseket, például az "um" és más kitöltő hangok, dadogások, mumble-szavak vagy helytelen kifejezések.

Egy jó hangmodell létrehozásához hozza létre a felvételeket egy csendes szobában, kiváló minőségű mikrofonnal. A következetes hangerő, a beszédsebesség, a beszédhang és a beszéd kifejező modora elengedhetetlen.

Az adatformátumra vonatkozó példákért tekintse meg a GitHubon található mintatanítási csoportot. A minta betanítási készlet tartalmazza a mintaszkriptet és a hozzá tartozó hangot.

Hangadatok egyéni kimondott szövegekhez + egyező átirat

Minden hangfájlnak egyetlen kimondott szöveget kell tartalmaznia (egyetlen mondatot vagy egy párbeszédpanel-rendszer egyetlen fordulóját), amely kevesebb, mint 15 másodperc hosszú. Minden fájlnak azonos beszélt nyelven kell lennie. A többnyelvű egyéni szöveg és a beszédhangok nem támogatottak, kivéve a kétnyelvű kínai-angol nyelvet. Minden hangfájlnak egyedi fájlnévvel kell rendelkeznie a .wav fájlnévkiterjesztéssel.

A hang előkészítésekor kövesse ezeket az irányelveket.

Tulajdonság	Érték
Fájlformátum	RIFF (.wav), .zip fájlba csoportosítva
Fájlnév	A Windows operációs rendszer által támogatott fájlnévkarakterek .wav kiterjesztéssel. A karakterek `\ / : * ? " < > \\|` nem engedélyezettek. Nem kezdődhet és nem végződhet szóközzel, és nem kezdődhet ponttal. Nem engedélyezett duplikált fájlnevek használata.
Mintavételezési sebesség	Egyéni neurális hang létrehozásakor 24 000 Hz szükséges.
Minták formátuma	PCM, legalább 16 bites
Hanghossz	15 másodpercnél rövidebb
Archív formátum	.zip
Archív méret maximális mérete	2048 MB

Feljegyzés

Az egyéni neurális hang alapértelmezett mintavételezési sebessége 24 000 Hz. A 16 000 Hz-nél alacsonyabb mintavételi sebességgel rendelkező hangfájlok elutasításra kerülnek. Ha egy .zip fájl különböző mintasebességű .wav fájlokat tartalmaz, csak a 16 000 Hz-nél egyenlő vagy annál nagyobb fájlokat importálja a rendszer. A 16 000 Hz-nél magasabb és 24 000 Hz-nél alacsonyabb mintavételi sebességgel rendelkező hangfájlok mintavételezése 24 000 Hz-re történik a neurális hang betanításához. Ajánlott 24 000 Hz-es mintasebességet használni a betanítási adatokhoz.

Átírási adatok egyéni kimondott szövegekhez + egyező átirat

Az átiratfájl egyszerű szöveges fájl. Az átiratok elkészítéséhez használja ezeket az irányelveket.

Tulajdonság	Érték
Fájlformátum	Egyszerű szöveg (.txt)
Kódolási formátum	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE vagy UTF-16-BE. A zh-CN esetében az ANSI és az ASCII kódolás nem támogatott.
Kimondott szövegek száma soronként	Egy – Az átírási fájl minden sorának tartalmaznia kell az egyik hangfájl nevét, majd a megfelelő átiratot. A fájlnév és az átirat elválasztásához egy tabulátort (\t) kell használnia.
Maximális fájlméret	2048 MB

Íme egy példa arra, hogy az átiratok kimondott szöveg szerint vannak rendszerezve egy .txt fájlban:

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

Fontos, hogy az átiratok a megfelelő hang 100%-os pontosságú átiratai legyenek. Az átiratokban szereplő hibák minőségromlást okoznak a betanítás során.

Hosszú hang + átirat (előzetes verzió)

Feljegyzés

A Long audio + átirat (előzetes verzió) esetében csak ezek a nyelvek támogatottak: kínai (mandarin, egyszerűsített), angol (India), angol (Egyesült Királyság), angol (Egyesült Államok), francia (Franciaország), német (Németország), olasz (Olaszország), japán (Japán), portugál (Brazília) és spanyol (Mexikó).

Bizonyos esetekben előfordulhat, hogy nem érhető el szegmentált hang. A Speech Studio segít a hosszú hangfájlok szegmentálásában és átiratok létrehozásában. A hosszú hangszegmentálási szolgáltatás a Batch Transcription API beszéd-szöveg funkcióját használja.

A szegmentálás feldolgozása során a hangfájlokat és az átiratokat is elküldi a rendszer az egyéni beszédszolgáltatásnak, hogy pontosítsa a felismerési modellt, hogy az adatok pontossága javuljon. A folyamat során nem maradnak meg adatok. A szegmentálás befejezése után csak a szegmentált kimondott szövegek és azok leképezési átiratai lesznek tárolva a letöltéshez és a betanításhoz.

Feljegyzés

Ezt a szolgáltatást a szöveges előfizetés használatára vonatkozó beszédért számítjuk fel. A hosszú hangszegmentálási szolgáltatás csak standard (S0) Speech-erőforrásokkal támogatott.

Hangadatok Hosszú hanghoz + átirat

Kövesse ezeket az irányelveket a hang szegmentálásra való előkészítésekor.

Tulajdonság	Érték
Fájlformátum	RIFF (.wav) vagy .mp3, .zip fájlba csoportosítva
Fájlnév	A Windows operációs rendszer által támogatott fájlnévkarakterek .wav kiterjesztéssel. A karakterek `\ / : * ? " < > \\|` nem engedélyezettek. Nem kezdődhet és nem végződhet szóközzel, és nem kezdődhet ponttal. Nem engedélyezett duplikált fájlnevek használata.
Mintavételezési sebesség	Egyéni neurális hang létrehozásakor 24 000 Hz szükséges.
Minták formátuma	RIFF(.wav): PCM, legalább 16 bites. mp3: Legalább 256 KBps bitsebesség.
Hanghossz	20 másodpercnél hosszabb
Archív formátum	.zip
Archív méret maximális mérete	2048 MB, legfeljebb 1000 hangfájl

Feljegyzés

Az egyéni neurális hang alapértelmezett mintavételezési sebessége 24 000 Hz. A 16 000 Hz-nél alacsonyabb mintavételi sebességgel rendelkező hangfájlok elutasításra kerülnek. A 16 000 Hz-nél magasabb és 24 000 Hz-nél alacsonyabb mintavételi sebességgel rendelkező hangfájlok mintavételezése 24 000 Hz-re történik a neurális hang betanításához. Ajánlott 24 000 Hz-es mintasebességet használni a betanítási adatokhoz.

Minden hangfájlt zip-fájlba kell csoportosítani. Rendben van, ha .wav fájlokat és .mp3 fájlokat ugyanabba a zip-fájlba helyezi. Feltölthet például egy "kingstory.wav" nevű 45 másodperces hangfájlt, és egy 200 másodperc hosszú, "queenstory.mp3" nevű hangfájlt ugyanabban a zip-fájlban. A feldolgozás után az összes .mp3 fájl át lesz alakítva .wav formátumba.

Átírási adatok Hosszú hanghoz + átirat

Az átiratokat a táblázatban felsorolt specifikációknak megfelelően kell elkészíteni. Minden hangfájlt átirattal kell egyeztetni.

Tulajdonság	Érték
Fájlformátum	Egyszerű szöveg (.txt), .zip
Fájlnév	Használja ugyanazt a nevet, mint a megfelelő hangfájl
Kódolási formátum	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE vagy UTF-16-BE. A zh-CN esetében az ANSI és az ASCII kódolás nem támogatott.
Kimondott szövegek száma soronként	Korlátlan
Maximális fájlméret	2048 MB

Az ebben az adattípusban található összes átiratfájlt zip-fájlba kell csoportosítani. Feltölthet például egy 45 másodperces, "kingstory.wav" nevű hangfájlt, és egy 200 másodperc hosszú hangfájlt ugyanabban a zip-fájlban ,queenstory.mp3" néven. Fel kell töltenie egy másik zip-fájlt, amely tartalmazza a megfelelő két átiratot – az egyiket "kingstory.txt" néven, a másikat pedig "queenstory.txt" néven. Minden egyszerű szöveges fájlban meg kell adnia a megfelelő hang teljes helyes átiratát.

Az adathalmaz sikeres feltöltése után segítünk a hangfájl kimondott szövegekbe való szegmentálásában a megadott átirat alapján. Az adatkészlet letöltésével ellenőrizheti a szegmentált kimondott szövegeket és az egyező átiratokat. Az egyedi azonosítók automatikusan hozzá lesznek rendelve a szegmentált kimondott szövegekhez. Fontos, hogy a megadott átiratok 100%-ig pontosak legyenek. Az átiratokban előforduló hibák csökkenthetik a hangszegmentálás pontosságát, és tovább ronthatják a minőségromlást a későbbi betanítási fázisban.

Csak hang (előzetes verzió)

Feljegyzés

Csak a hang (előzetes verzió) esetében csak ezek a nyelvek támogatottak: kínai (mandarin, egyszerűsített), angol (India), angol (Egyesült Királyság), angol (Egyesült Államok), francia (Franciaország), német (Németország), olasz (Olaszország), japán (Japán), portugál (Brazília) és spanyol (Mexikó).

Ha nem rendelkezik átiratokkal a hangfelvételekhez, az adatok feltöltéséhez használja a Csak hang lehetőséget. Rendszerünk segít a hangfájlok szegmentálásában és átírásában. Ne feledje, hogy ez a szolgáltatás a szöveges előfizetések használatáért fizetendő.

A hang előkészítésekor kövesse ezeket az irányelveket.

Feljegyzés

A hosszú hangszegmentálási szolgáltatás a beszéd szöveggé alakításának kötegelt átírási funkcióját fogja használni, amely csak a standard előfizetési (S0) felhasználókat támogatja.

Tulajdonság	Érték
Fájlformátum	RIFF (.wav) vagy .mp3, .zip fájlba csoportosítva
Fájlnév	A Windows operációs rendszer által támogatott fájlnévkarakterek .wav kiterjesztéssel. A karakterek `\ / : * ? " < > \\|` nem engedélyezettek. Nem kezdődhet és nem végződhet szóközzel, és nem kezdődhet ponttal. Nem engedélyezett duplikált fájlnevek használata.
Mintavételezési sebesség	Egyéni neurális hang létrehozásakor 24 000 Hz szükséges.
Minták formátuma	RIFF(.wav): PCM, legalább 16 bites mp3: Legalább 256 KBps bitsebesség.
Hanghossz	Korlátlan
Archív formátum	.zip
Archív méret maximális mérete	2048 MB, legfeljebb 1000 hangfájl

Feljegyzés

Az egyéni neurális hang alapértelmezett mintavételezési sebessége 24 000 Hz. A 16 000 Hz-nél magasabb és 24 000 Hz-nél alacsonyabb mintavételi sebességgel rendelkező hangfájlok mintavételezése 24 000 Hz-re történik a neurális hang betanításához. Ajánlott 24 000 Hz-es mintasebességet használni a betanítási adatokhoz.

Minden hangfájlt zip-fájlba kell csoportosítani. Az adathalmaz sikeres feltöltése után a Speech szolgáltatás segít a hangfájl kimondott szövegekbe való szegmentálásában a beszédköteg átírási szolgáltatása alapján. Az egyedi azonosítók automatikusan hozzá lesznek rendelve a szegmentált kimondott szövegekhez. Az egyező átiratok beszédfelismeréssel jönnek létre. A feldolgozás után az összes .mp3 fájl át lesz alakítva .wav formátumba. Az adatkészlet letöltésével ellenőrizheti a szegmentált kimondott szövegeket és az egyező átiratokat.

Megosztás a következőn keresztül:

Betanítási adatok egyéni neurális hanghoz

Betanítási adatok típusai

Egyéni kimondott szövegek + egyező átirat

Hangadatok egyéni kimondott szövegekhez + egyező átirat

Átírási adatok egyéni kimondott szövegekhez + egyező átirat

Hosszú hang + átirat (előzetes verzió)

Hangadatok Hosszú hanghoz + átirat

Átírási adatok Hosszú hanghoz + átirat

Csak hang (előzetes verzió)

Következő lépések

Visszajelzés

Visszajelzés

További források