Szöveg–beszéd avatar áttekintése

2025-06-02

A szöveget beszéddé alakító avatár digitális videót készít egy fotorealisztikus emberről (lehet egy standard avatár vagy egy egyéni szöveg-beszéd avatár), aki természetes hangzású hangon beszél. A szöveg és a beszéd avatar videója aszinkron módon vagy valós időben szintetizálható. A fejlesztők egy API-n keresztül szöveggel és beszédavatárral integrált alkalmazásokat hozhatnak létre, vagy a Speech Studióban egy tartalomkészítő eszközzel kódolás nélkül hozhatnak létre videótartalmakat.

A szöveg-beszéd avatar fejlett neurális hálózati modelljei lehetővé teszik a felhasználók számára, hogy életszerű és kiváló minőségű, szintetikus beszélő avatar videókat nyújtsanak különböző alkalmazásokhoz, miközben betartják a felelős AI-gyakorlatokat.

Tipp.

Ha kód nélküli megközelítéssel szeretne szöveget beszédgé alakítani, próbálja ki a Text to speech avatar eszközt a Speech Studióban.

Avatar képességek

A szöveg–beszéd avatar képességei a következők:

A szöveget digitális videóvá alakítja, amely egy fotorealisztikus emberi beszédet, természetes hangzású, Azure AI-szövegből álló hangokkal beszédté alakít át.
Standard avatarok gyűjteménye.
Az Azure AI beszédszövege az avatar hangját hozza létre. További információ: Avatar hang és nyelv.
A kötegelt szintézis API-val aszinkron módon vagy valós időben szintetizálja a szöveget a beszéd avatarvideójának megfelelően.
Tartalomlétrehozási eszközt biztosít a Speech Studióban a videótartalmak kódolás nélküli létrehozásához.
Valós idejű avatarbeszélgetéseket tesz lehetővé a Speech Studióban az élő csevegés avatar eszközén keresztül.

A szöveg-beszéd avatar fejlett neurális hálózati modelljeivel a funkció lehetővé teszi, hogy élethű és kiváló minőségű szintetikus beszélő avatar videókat biztosítson különböző alkalmazásokhoz, miközben betartja a felelős AI-gyakorlatokat.

Avatar hang és nyelv

Az avatarhoz számos szabványos hang közül választhat. A szöveg-beszéd avatar nyelvi támogatása megegyezik a szövegfelolvasás nyelvi támogatásával. További részletekért tekintse meg a Speech szolgáltatás nyelv- és hangtámogatását. A szabványos szöveg-beszéd avatarok a Speech Studio portálon vagy API-val érhetők el.

A szintetikus videóban szereplő hang lehet az Azure AI Speech standard hangja vagy az Ön által választott egyéni hangtehetség.

Avatar videó kimenete

A kötegszintézis és a valós idejű szintézis felbontása 1920 x 1080, a másodpercenkénti képkockák (FPS) pedig 25. A kötegelt szintézis kodek lehet h264, hevc vagy av1, ha a formátum az mp4, és beállítható vp9 vagy av1 kodekként, ha a formátum az webm; csak az vp9 formátum tartalmazhat alfa csatornát. A valós idejű szintézis kodek h264. A videobitráta konfigurálható kötegelt és valós idejű szintézishez is a kérelemben; az alapértelmezett érték 2000000; részletesebb konfigurációk találhatók a mintakódban.

	Batch-szintézis	Valós idejű szintézis
Resolution (Osztás)	1920 x 1080	1920 x 1080
FPS	25	25
Kodek	h264/hevc/vp9/av1	h264

Egyéni szöveg a beszéd avatárja

Létrehozhat egyéni szöveget a termékére vagy márkájához egyedi beszédavatárakra. Az első lépésekhez mindössze 10 percnyi videófelvétel szükséges. Ha ön is finomhangol egy profi hangot a színésznek, az avatar lehet nagyon élethű.

Az avatar hangszinkronizálása az egyéni avatar mellett a betanítási videó hangjának felhasználásával történik. A hang kizárólag az egyéni avatarhoz van társítva, és egymástól függetlenül nem használható.

A professzionális hang finomhangolása és az egyéni szövegfelolvasó avatár külön funkciók. Ezeket egymástól függetlenül vagy együtt is használhatja. Ha professzionális hang finomhangolást is tervez alkalmazni szövegalapú beszédavatárral, telepítenie vagy át kell másolnia a professzionális hangmodellt finomhangolva az avatar által támogatott régiók valamelyikére.

További információ: Mi az egyéni szöveg a beszéd avatarja?

Mintakód

A gitHubon elérhető a szöveg és a beszéd avatarjának mintakódja. Ezek a minták a legnépszerűbb forgatókönyveket fedik le:

Kötegelt szintézis (REST)
Valós idejű szintézis (SDK)
Élő csevegés az Azure OpenAI-val a háttérben (SDK)
Ha élő csevegőalkalmazást szeretne létrehozni az Azure OpenAI On Your Data szolgáltatással, tekintse meg ezt a mintakódot (keressen rá az "Adatokon" kifejezésre)

Díjszabás

Az avatar valós idejű munkamenete vagy kötegtartalmai létrehozása során a szövegfelolvasás, a beszédfelolvasás, az Azure OpenAI vagy más Azure-szolgáltatások külön kerülnek felszámításra.
Az avatar hangszinkronizálása (egyéni avatar képzésen keresztül) ugyanolyan díjszabású, mint a személyes hang a hanglétrehozás és a szintézis tekintetében. A hang tárolása ingyenes.
A szövegfelolvasási avatar díjszabási megjegyzésében megtudhatja, hogyan működik a számlázás a szövegfelolvasási avatar funkcióhoz.
A részletes díjszabásért tekintse meg a Speech service díjszabását. Vegye figyelembe, hogy az avatar díjszabása csak azokat a szolgáltatási régiókat fogja látni, ahol a szolgáltatás elérhető, beleértve Délkelet-Ázsia, Észak-Európa, Nyugat-Európa, Közép-Svédország, AZ USA déli középső régiója, az USA 2. keleti régiója és az USA 2. nyugati régiója.

Elérhető helyek

A szövegfelolvasási avatar funkció csak a következő szolgáltatási régiókban érhető el: Délkelet-Ázsia, Észak-Európa, Nyugat-Európa, Közép-Svédország, USA déli középső régiója, USA 2. keleti régiója és AZ USA 2. nyugati régiója.

Felelős AI

Törődünk az AI-t használó emberekkel és azokkal az emberekkel, akiket érint a technológia. További információkért lásd a Felelős AI átláthatósági megjegyzéseit , valamint a hang- és avatartehetségekkel kapcsolatos közzétételt.