Share via


Mi az egyéni neurális hang?

Az egyéni neurális hang (CNV) egy szövegfelolvasási funkció, amellyel egyedi, testreszabott, szintetikus hangokat hozhat létre az alkalmazásokhoz. Az egyéni neurális hanggal rendkívül természetes hangzású hangot hozhat létre a márka vagy a karakterek számára, mivel betanítási adatokként emberi beszédmintákat biztosít.

Fontos

Az egyéni neurális hanghozzáférés a jogosultsági és használati feltételek alapján korlátozott . Hozzáférés kérése a beviteli űrlapon.

Az Egyéni neurális hang (CNV) Lite bárki számára elérhető a CNV bemutatójához és kiértékeléséhez, mielőtt professzionális felvételekbe fektetett, hogy jobb minőségű hangot hozzon létre.

A szövegfelolvasás minden támogatott nyelvhez használható előre összeállított neurális hangokkal. Az előre összeállított neurális hangok a legtöbb szövegfelolvasási forgatókönyvben jól működnek, ha nincs szükség egyedi hangra.

Az egyéni neurális hang a beszédtechnológia neurális szövegén és a többnyelvű, több beszélős, univerzális modellen alapul. Létrehozhat olyan szintetikus hangokat, amelyek beszédstílusokban gazdagok, vagy adaptálható keresztnyelvek. Az egyéni neurális hang valósághű és természetes hangzása márkákat képviselhet, megszemélyesítheti a gépeket, és lehetővé teszi a felhasználók számára, hogy beszélgetéssel kommunikáljanak az alkalmazásokkal. Az egyéni neurális hang támogatott nyelveinek megtekintése.

Hogyan működik?

Egyéni neurális hang létrehozásához használja a Speech Studiót a rögzített hang és a megfelelő szkriptek feltöltésére, a modell betanítására és a hang egyéni végponton való üzembe helyezésére.

Tipp.

Próbálja ki az Egyéni neurális hang (CNV) Lite-t a CNV demózásához és kiértékeléséhez, mielőtt professzionális felvételekbe fektetett, hogy jobb minőségű hangot hozzon létre.

A nagyszerű egyéni neurális hang létrehozásához minden lépésben gondos minőség-ellenőrzés szükséges, a hangtervezéstől és az adatok előkészítésétől kezdve a hangmodell üzembe helyezéséig a rendszerig.

Mielőtt elkezdené a Speech Studiót, íme néhány szempont:

  • Egy rövid persona-dokumentum segítségével megtervezheti a márkát jelképező hangszemélyeket. Ez a dokumentum olyan elemeket határoz meg, mint a hang jellemzői és a hang mögötti karakter. Ez segít az egyéni neurális hangmodellek létrehozásának folyamatában, beleértve a szkriptek meghatározását, a hangtehetség kiválasztását, a betanítást és a hanghangolást.
  • Válassza ki a rögzítési szkriptet a hang felhasználói forgatókönyveinek megjelenítéséhez. Ha például ügyfélszolgálati robotot hoz létre, használhatja például a robotbeszélgetések kifejezéseit felvételi szkriptként. A szkriptekben különböző mondattípusokat is tartalmazhat, például utasításokat, kérdéseket és felkiáltójeleket.

Az alábbiakban áttekintjük az egyéni neurális hang létrehozásának lépéseit a Speech Studióban:

  1. Hozzon létre egy projektet , amely tartalmazza az adatokat, hangmodelleket, teszteket és végpontokat. Minden projekt egy adott országra/régióra és nyelvre vonatkozik. Ha több hangot szeretne létrehozni, javasoljuk, hogy minden hanghoz hozzon létre egy projektet.
  2. Hangtehetség beállítása. A neurális hang betanítása előtt be kell küldenie egy felvételt a hangtehetség hozzájárulási nyilatkozatáról. A hangtehetség-állítás a hangtehetség-olvasó nyilatkozat felvétele, amely hozzájárul a beszédadatok egyéni hangmodell betanításához való használatához.
  3. A betanítási adatok előkészítése a megfelelő formátumban. Érdemes professzionális minőségű stúdióban rögzíteni a hangfelvételeket, hogy magas jel-zaj arányt érjen el. A hangmodell minősége nagymértékben függ a betanítási adatoktól. Konzisztens hangerőre, beszédsebességre, hangmagasságra és konzisztenciára van szükség a beszéd kifejező módjában.
  4. Hangmodell betanítása. Jelöljön ki legalább 300 kimondott szöveget egyéni neurális hang létrehozásához. A rendszer automatikusan elvégzi az adatminőség-ellenőrzéseket a feltöltéskor. A kiváló minőségű hangmodellek létrehozásához ki kell javítania a hibákat, és újra be kell küldenie.
  5. Tesztelje a hangját. Készítsen tesztszkripteket a hangmodellhez, amelyek lefedik az alkalmazások különböző használati eseteit. Érdemes szkripteket használni a betanítási adatkészleten belül és kívül, hogy szélesebb körben tesztelhesse a minőséget a különböző tartalmakhoz.
  6. Hangmodell üzembe helyezése és használata az alkalmazásokban.

Az egyéni hangot ugyanúgy hangolhatja, módosíthatja és használhatja, mint egy előre összeállított neurális hangot. Valós idejű szöveggé alakíthatja a szöveget, vagy offline hangtartalmat hozhat létre szövegbevitellel. A REST API-t, a Speech SDK-t vagy a Speech Studiót használja.

Tipp.

Az egyéni neurális hang betanításához használhatja a Speech SDK-t és az egyéni hang REST API-t is.

A GitHub Speech SDK-adattárában található kódmintákból megtudhatja, hogyan használhat egyéni neurális hangokat az alkalmazásban.

A betanított hangmodell stílusa és jellemzői a betanításhoz használt hangtehetségből származó felvételek stílusától és minőségétől függenek. Az SSML (Speech Synthesis Markup Language) használatával azonban több módosítást is elvégezhet, amikor az API-hívásokat a hangmodellbe indítja, hogy szintetikus beszédet generáljon. Az SSML a szöveggel a beszédszolgáltatással való kommunikációhoz használt korrektúranyelv a szöveg hanggá alakításához. A módosítható beállítások közé tartozik a hangmagasság, a sebesség, az intonáció és a kiejtés korrekciója. Ha a hangmodell több stílussal készült, az SSML használatával is válthat a stílusok között.

Összetevők sorozata

Az egyéni neurális hang három fő összetevőből áll: a szövegelemzőből, a neurális akusztikai modellből és a neurális vocoderból. Ha természetes szintetikus beszédet szeretne létrehozni a szövegből, a szöveg az első bemenet a szövegelemzőbe, amely a kimenetet fonetikai szekvenciák formájában biztosítja. A fotel egy alapvető hangegység, amely megkülönbözteti az egyik szót a másiktól egy adott nyelven. A fonefonok sorozata határozza meg a szövegben megadott szavak kiejtését.

Ezután a fonálütemezés a neurális akusztikai modellbe kerül, hogy előre jelezhesse a beszédjeleket meghatározó akusztikai jellemzőket. Az akusztikai jellemzők közé tartozik a hangjelzés, a beszédstílus, a sebesség, az intonációk és a stresszminták. Végül a neurális vocoder hallható hullámokká alakítja az akusztikai jellemzőket, így szintetikus beszéd jön létre.

Az egyéni neurális hang összetevőit megjelenítő folyamatábra.

A neurális szövegek beszédhangmodelljeinek betanítása mély neurális hálózatok használatával történik az emberi hangok felvételmintái alapján. További információkért tekintse meg ezt a Microsoft-blogbejegyzést. Ha többet szeretne megtudni a neurális vocoderok betanításáról, tekintse meg ezt a Microsoft-blogbejegyzést.

Migrálás a Custom Neural Voice-ra

Ha az egyéni hang régi verzióját használja (amely 2024 februárjában lesz visszavonva), olvassa el a Migrálás egyéni neurális hangra című témakört.

Felelős AI

Az AI-rendszerek nem csak a technológiát, hanem az azt használó személyeket, az érintett személyeket és az üzembe helyezett környezetet is magukban foglalják. Az átláthatósági megjegyzésekből megtudhatja, hogyan használhatja a mesterséges intelligenciát és üzembe helyezést a rendszerekben.

Következő lépések