Mi az egyéni neurális hang?

Cikk
01/18/2024

Az egyéni neurális hang (CNV) egy szövegfelolvasási funkció, amellyel egyedi, testreszabott, szintetikus hangokat hozhat létre az alkalmazásokhoz. Az egyéni neurális hanggal rendkívül természetes hangzású hangot hozhat létre a márka vagy a karakterek számára, mivel betanítási adatokként emberi beszédmintákat biztosít.

Fontos

Az egyéni neurális hanghozzáférés a jogosultsági és használati feltételek alapján korlátozott . Hozzáférés kérése a beviteli űrlapon.

Az Egyéni neurális hang (CNV) Lite bárki számára elérhető a CNV bemutatójához és kiértékeléséhez, mielőtt professzionális felvételekbe fektetett, hogy jobb minőségű hangot hozzon létre.

A szövegfelolvasás minden támogatott nyelvhez használható előre összeállított neurális hangokkal. Az előre összeállított neurális hangok a legtöbb szövegfelolvasási forgatókönyvben jól működnek, ha nincs szükség egyedi hangra.

Az egyéni neurális hang a beszédtechnológia neurális szövegén és a többnyelvű, több beszélős, univerzális modellen alapul. Létrehozhat olyan szintetikus hangokat, amelyek beszédstílusokban gazdagok, vagy adaptálható keresztnyelvek. Az egyéni neurális hang valósághű és természetes hangzása márkákat képviselhet, megszemélyesítheti a gépeket, és lehetővé teszi a felhasználók számára, hogy beszélgetéssel kommunikáljanak az alkalmazásokkal. Az egyéni neurális hang támogatott nyelveinek megtekintése.

Hogyan működik?

Egyéni neurális hang létrehozásához használja a Speech Studiót a rögzített hang és a megfelelő szkriptek feltöltésére, a modell betanítására és a hang egyéni végponton való üzembe helyezésére.

Tipp.

Próbálja ki az Egyéni neurális hang (CNV) Lite-t a CNV demózásához és kiértékeléséhez, mielőtt professzionális felvételekbe fektetett, hogy jobb minőségű hangot hozzon létre.

A nagyszerű egyéni neurális hang létrehozásához minden lépésben gondos minőség-ellenőrzés szükséges, a hangtervezéstől és az adatok előkészítésétől kezdve a hangmodell üzembe helyezéséig a rendszerig.

Mielőtt elkezdené a Speech Studiót, íme néhány szempont:

Egy rövid persona-dokumentum segítségével megtervezheti a márkát jelképező hangszemélyeket. Ez a dokumentum olyan elemeket határoz meg, mint a hang jellemzői és a hang mögötti karakter. Ez segít az egyéni neurális hangmodellek létrehozásának folyamatában, beleértve a szkriptek meghatározását, a hangtehetség kiválasztását, a betanítást és a hanghangolást.
Válassza ki a rögzítési szkriptet a hang felhasználói forgatókönyveinek megjelenítéséhez. Ha például ügyfélszolgálati robotot hoz létre, használhatja például a robotbeszélgetések kifejezéseit felvételi szkriptként. A szkriptekben különböző mondattípusokat is tartalmazhat, például utasításokat, kérdéseket és felkiáltójeleket.

Az alábbiakban áttekintjük az egyéni neurális hang létrehozásának lépéseit a Speech Studióban:

Hozzon létre egy projektet , amely tartalmazza az adatokat, hangmodelleket, teszteket és végpontokat. Minden projekt egy adott országra/régióra és nyelvre vonatkozik. Ha több hangot szeretne létrehozni, javasoljuk, hogy minden hanghoz hozzon létre egy projektet.
Hangtehetség beállítása. A neurális hang betanítása előtt be kell küldenie egy felvételt a hangtehetség hozzájárulási nyilatkozatáról. A hangtehetség-állítás a hangtehetség-olvasó nyilatkozat felvétele, amely hozzájárul a beszédadatok egyéni hangmodell betanításához való használatához.
A betanítási adatok előkészítése a megfelelő formátumban. Érdemes professzionális minőségű stúdióban rögzíteni a hangfelvételeket, hogy magas jel-zaj arányt érjen el. A hangmodell minősége nagymértékben függ a betanítási adatoktól. Konzisztens hangerőre, beszédsebességre, hangmagasságra és konzisztenciára van szükség a beszéd kifejező módjában.
Hangmodell betanítása. Jelöljön ki legalább 300 kimondott szöveget egyéni neurális hang létrehozásához. A rendszer automatikusan elvégzi az adatminőség-ellenőrzéseket a feltöltéskor. A kiváló minőségű hangmodellek létrehozásához ki kell javítania a hibákat, és újra be kell küldenie.
Tesztelje a hangját. Készítsen tesztszkripteket a hangmodellhez, amelyek lefedik az alkalmazások különböző használati eseteit. Érdemes szkripteket használni a betanítási adatkészleten belül és kívül, hogy szélesebb körben tesztelhesse a minőséget a különböző tartalmakhoz.
Hangmodell üzembe helyezése és használata az alkalmazásokban.

Az egyéni hangot ugyanúgy hangolhatja, módosíthatja és használhatja, mint egy előre összeállított neurális hangot. Valós idejű szöveggé alakíthatja a szöveget, vagy offline hangtartalmat hozhat létre szövegbevitellel. A REST API-t, a Speech SDK-t vagy a Speech Studiót használja.

Tipp.

Az egyéni neurális hang betanításához használhatja a Speech SDK-t és az egyéni hang REST API-t is.

A GitHub Speech SDK-adattárában található kódmintákból megtudhatja, hogyan használhat egyéni neurális hangokat az alkalmazásban.

A betanított hangmodell stílusa és jellemzői a betanításhoz használt hangtehetségből származó felvételek stílusától és minőségétől függenek. Az SSML (Speech Synthesis Markup Language) használatával azonban több módosítást is elvégezhet, amikor az API-hívásokat a hangmodellbe indítja, hogy szintetikus beszédet generáljon. Az SSML a szöveggel a beszédszolgáltatással való kommunikációhoz használt korrektúranyelv a szöveg hanggá alakításához. A módosítható beállítások közé tartozik a hangmagasság, a sebesség, az intonáció és a kiejtés korrekciója. Ha a hangmodell több stílussal készült, az SSML használatával is válthat a stílusok között.

Összetevők sorozata

Az egyéni neurális hang három fő összetevőből áll: a szövegelemzőből, a neurális akusztikai modellből és a neurális vocoderból. Ha természetes szintetikus beszédet szeretne létrehozni a szövegből, a szöveg az első bemenet a szövegelemzőbe, amely a kimenetet fonetikai szekvenciák formájában biztosítja. A fotel egy alapvető hangegység, amely megkülönbözteti az egyik szót a másiktól egy adott nyelven. A fonefonok sorozata határozza meg a szövegben megadott szavak kiejtését.

Ezután a fonálütemezés a neurális akusztikai modellbe kerül, hogy előre jelezhesse a beszédjeleket meghatározó akusztikai jellemzőket. Az akusztikai jellemzők közé tartozik a hangjelzés, a beszédstílus, a sebesség, az intonációk és a stresszminták. Végül a neurális vocoder hallható hullámokká alakítja az akusztikai jellemzőket, így szintetikus beszéd jön létre.

Az egyéni neurális hang összetevőit megjelenítő folyamatábra.

A neurális szövegek beszédhangmodelljeinek betanítása mély neurális hálózatok használatával történik az emberi hangok felvételmintái alapján. További információkért tekintse meg ezt a Microsoft-blogbejegyzést. Ha többet szeretne megtudni a neurális vocoderok betanításáról, tekintse meg ezt a Microsoft-blogbejegyzést.

Migrálás a Custom Neural Voice-ra

Ha az egyéni hang régi verzióját használja (amely 2024 februárjában lesz visszavonva), olvassa el a Migrálás egyéni neurális hangra című témakört.

Felelős AI

Az AI-rendszerek nem csak a technológiát, hanem az azt használó személyeket, az érintett személyeket és az üzembe helyezett környezetet is magukban foglalják. Az átláthatósági megjegyzésekből megtudhatja, hogyan használhatja a mesterséges intelligenciát és üzembe helyezést a rendszerekben.

Megosztás a következőn keresztül:

Mi az egyéni neurális hang?

Hogyan működik?

Összetevők sorozata

Migrálás a Custom Neural Voice-ra

Felelős AI

Következő lépések

Visszajelzés

Visszajelzés

További források