Mi az egyéni szöveg a beszéd avatar? (előzetes verzió)

Cikk
02/24/2024

Feljegyzés

A szöveg–beszéd avatar jelenleg nyilvános előzetes verzióban érhető el. Ez az előzetes verzió szolgáltatásszintű szerződés nélkül érhető el, és éles számítási feladatokhoz nem ajánlott. Előfordulhat, hogy néhány funkció nem támogatott, vagy korlátozott képességekkel rendelkezik. További információ: Kiegészítő használati feltételek a Microsoft Azure előzetes verziójú termékeihez.

Az egyéni szöveg-beszéd avatár lehetővé teszi, hogy testreszabott, egy-az-egy típusú szintetikus beszélő avatart hozzon létre az alkalmazáshoz. Az egyéni szövegről a beszéd avatárjára kattintva egyedi és természetes megjelenésű avatart hozhat létre a termékéhez vagy márkájához a kiválasztott színészek videofelvételi adatainak megadásával. Ha egy egyéni neurális hangot is létrehoz ugyanahhoz a színészhez, és az avatar hangjaként használja, az avatar még reálisabb lesz.

Fontos

Az egyéni szöveg és a beszéd avatarhoz való hozzáférés a jogosultsági és használati feltételek alapján korlátozott . Hozzáférés kérése a beviteli űrlapon.

Hogyan működik?

Egyéni szöveg avatárhoz való létrehozásához legalább 10 perc videofelvételre van szükség az avatar tehetségéről betanítási adatokként, és először hozzájárulást kell kérnie a színészi tehetségtől.

Fontos

Jelenleg az egyéni szöveg-beszéd avatar esetében az adatfeldolgozás és a modell betanítása manuálisan történik.

Az első lépések előtt íme néhány szempont:

Használati eset: Az avatar használatával hoz létre videótartalmakat, például betanítási anyagokat, termékbemutatókat, vagy virtuális értékesítőként használja az avatart egy valós idejű beszélgetés során az ügyfelekkel? A különböző használati esetekhez bizonyos rögzítési követelmények vonatkoznak.

Az avatar megjelenése: Az egyéni szöveg a beszéd avatar ugyanúgy néz ki, mint az avatar tehetség a betanítási adatokban, és nem támogatjuk az avatar modell megjelenésének testreszabását, például ruhákat, frizurát stb. Tehát ha az alkalmazás több stílust is igényel ugyanahhoz az avatarhoz, akkor minden stílushoz elő kell készítenie a betanítási adatokat, mivel az avatar minden stílusa egyetlen avatarmodellnek minősül.

Az avatar hangja: Az egyéni szöveg és a beszéd avatárja egyaránt használható előre összeállított neurális hangokkal és egyéni neurális hangokkal. Egyéni neurális hang létrehozása az avatar tehetsége számára, és az avatar használatával jelentősen növeli az avatar élmény természetességét.

Az alábbiakban áttekintjük az egyéni szöveg beszédavatárhoz való létrehozásának lépéseit:

Hozzájárulási videó lekérése: A hozzájárulási nyilatkozat videofelvételének beszerzése. A hozzájárulási nyilatkozat egy videófelvétel az avatar tehetségéről, amely egy nyilatkozatot olvas fel, és hozzájárul a kép- és hangadatok használatához, hogy betanítsa az egyéni szöveget a beszéd avatar modelljébe.
Betanítási adatok előkészítése: Győződjön meg arról, hogy a videofelvétel a megfelelő formátumban van. Érdemes profi minőségű videofelvételt készíteni, hogy tiszta háttérképet kapjon. Az eredményül kapott avatar minősége nagymértékben függ a betanításhoz használt rögzített videótól. Az olyan tényezők, mint a beszédsebesség, a testtartás, az arckifejezés, a kézmozdulatok, a színész pozíciójának konzisztenciája és a videofelvétel megvilágítása elengedhetetlenek a beszéd avatárjának vonzó egyéni szövegének létrehozásához.
Az avatarmodell betanítása: Az avatar-tehetség hozzájárulási nyilatkozatának ellenőrzése után elkezdjük az egyéni szöveg betanítását a beszédmodellbe. A szolgáltatás előzetes verziójában ezt a lépést manuálisan fogja elvégezni a Microsoft. A modell sikeres betanítása után értesítést kap.
Az avatarmodell üzembe helyezése és használata az API-kban

Összetevők sorozata

Az egyéni szöveg–beszéd avatar modell három összetevőt tartalmaz: szövegelemző, szöveg–beszéd hangszintetizátor és szöveg–beszéd avatar video renderer.

Ha avatar-videófájlt szeretne létrehozni vagy streamelni az avatarmodellel, a szöveg először be lesz adva a szövegelemzőbe, amely a kimenetet fonálütemezés formájában biztosítja.
A hangszintetizátor szintetizálja a beszédhangot a bemeneti szöveghez, és ezt a két részt szöveg biztosítja a beszédhez vagy egyéni neurális hangmodellekhez.
Végül, a neurális szöveg a beszéd avatar modell előrejelzi a kép ajak szinkronizálása a beszéd hang, így a szintetikus videó jön létre.

A beszédavatár-modellek neurális szövegét mély neurális hálózatok használatával tanítjuk be az emberi videók különböző nyelvű felvételmintái alapján. Az előre összeállított hangok és az egyéni neurális hangok minden nyelve támogatott.

Egyéni hang és egyéni szöveg a beszéd avatárja

Az egyéni szöveg és a beszéd avatarja egy előre összeállított neurális hanggal vagy egyéni neurális hanggal működhet az avatar hangjaként. További információ: Avatar hang és nyelv.

Az egyéni neurális hang és az egyéni szöveg a beszéd avatárja külön funkciók. Ezeket egymástól függetlenül vagy együtt is használhatja. Ha egyéni neurális hangot is szeretne használni egy szöveggel az avatar beszédéhez, telepítenie kell vagy át kell másolnia az egyéni neurális hangmodellt az avatar által támogatott régiók egyikére.

Megosztás a következőn keresztül:

Mi az egyéni szöveg a beszéd avatar? (előzetes verzió)

Hogyan működik?

Összetevők sorozata

Egyéni hang és egyéni szöveg a beszéd avatárja

Következő lépések

További források