Megosztás a következőn keresztül:


A szöveg és a beszéd avatarjának kötegelt szintézisi tulajdonságai (előzetes verzió)

Feljegyzés

A szöveg–beszéd avatar jelenleg nyilvános előzetes verzióban érhető el. Ez az előzetes verzió szolgáltatásszintű szerződés nélkül érhető el, és éles számítási feladatokhoz nem ajánlott. Előfordulhat, hogy néhány funkció nem támogatott, vagy korlátozott képességekkel rendelkezik. További információ: Kiegészítő használati feltételek a Microsoft Azure előzetes verziójú termékeihez.

A kötegszintézis tulajdonságai csoportosíthatók a következő módon: avatarhoz kapcsolódó tulajdonságok, kötegelt feladattal kapcsolatos tulajdonságok és szöveg–beszéd kapcsolódó tulajdonságok, amelyeket az alábbi táblázatok ismertetnek.

Új kötegszintézisi feladat létrehozásakor JSON formátumú tulajdonságokra van szükség. Más tulajdonságok megadása nem kötelező. A kötegszintézis válasza más tulajdonságokat is tartalmaz, amelyek információt nyújtanak a szintézis állapotáról és az eredményekről. A tulajdonság például azt a outputs.result helyet tartalmazza, ahonnan letöltheti az avatarvideóját tartalmazó videofájlt. Innen outputs.summaryelérheti az összegzés és a hibakeresés részleteit.

Avatar tulajdonságai

Az alábbi táblázat az avatar tulajdonságait ismerteti.

Tulajdonság Leírás
avatarConfig.talkingAvatarCharacter A beszélő avatar karakterneve.

A támogatott avatar karakterek itt találhatók.

Ez a tulajdonság kötelező.
avatarConfig.talkingAvatarStyle A beszélő avatar stílusneve.

A támogatott avatarstílusok itt találhatók.

Ez a tulajdonság az előre összeállított avatarhoz szükséges, és a testreszabott avatarhoz nem kötelező.
avatarConfig.customized Egy bool érték, amely azt jelzi, hogy a használni kívánt avatar testre szabott avatar vagy sem. Igaz a testreszabott avatarra, és hamis az előre összeállított avatarra.

Ez a tulajdonság nem kötelező, és az alapértelmezett érték.false
avatarConfig.videoFormat A kimeneti videofájl formátuma lehet mp4 vagy webm.

A webm formátum a transzparens háttérhez szükséges.

Ez a tulajdonság nem kötelező, az alapértelmezett érték pedig mp4.
avatarConfig.videoCodec A kimeneti videó kodekje lehet h264, hevc vagy vp9.

A transzparens háttérhez vp9 szükséges. A vp9 kodek esetén a szintézis sebessége lassabb lesz, mivel a VP9 kódolás lassabb.

Ez a tulajdonság nem kötelező, az alapértelmezett érték pedig hevc.
avatarConfig.bitrateKbps A kimeneti videó bitráta, amely egész szám, egység kbps-ekkel.

Ez a tulajdonság nem kötelező, az alapértelmezett érték pedig 2000.
avatarConfig.videoCrop Ez a tulajdonság lehetővé teszi a videó kimenetének körülvágását, ami azt jelenti, hogy az eredeti videó téglalap alterületét adja ki. Ez a tulajdonság két mezőből áll, amelyek a téglalap bal felső és jobb alsó csúcsát határozzák meg.

Ez a tulajdonság nem kötelező, és az alapértelmezett viselkedés a teljes videó kimenete.
avatarConfig.videoCrop.topLeft A téglalap bal felső csúcsa a videó körülvágásához. Ez a tulajdonság két x és y mezővel rendelkezik a csúcs vízszintes és függőleges pozíciójának meghatározásához.

Ez a tulajdonság a properties.videoCrop beállításakor szükséges.
avatarConfig.videoCrop.bottomRight A téglalap jobb alsó csúcsa a videó körülvágásához. Ez a tulajdonság két x és y mezővel rendelkezik a csúcs vízszintes és függőleges pozíciójának meghatározásához.

Ez a tulajdonság a properties.videoCrop beállításakor szükséges.
avatarConfig.subtitleType Az avatar videofájl alcímének típusa lehet external_file, soft_embeddedhard_embeddedvagy none.

Ez a tulajdonság nem kötelező, és az alapértelmezett érték.soft_embedded
avatarConfig.backgroundImage Háttérkép hozzáadása a avatarConfig.backgroundImage tulajdonság használatával. A tulajdonság értékének a kívánt képre mutató URL-címnek kell lennie. Ez a tulajdonság opcionális.
avatarConfig.backgroundColor Az avatarvideó háttérszíne, amely egy sztring #RRGGBBAA formátumban. Ebben a sztringben: RR, GG, BB és AA a piros, zöld, kék és alfa csatornákat jelenti, hexadecimális értéktartomány 00~ FF. Az alfa csatorna szabályozza az átlátszóságot, az átlátszóság 00, a nem átlátszó FF érték, a félig átlátszó FF értéke pedig 00 és FF között van.

Ez a tulajdonság nem kötelező, az alapértelmezett érték pedig #FFFFFFFF (fehér).
outputs.result A kötegelt szintézis eredményfájljának helye, amely egy videófájl, amely a szintetizált avatart tartalmazza.

Ez a tulajdonság írásvédett.
Tulajdonságok. DurationInMilliseconds A videó kimenetének időtartama ezredmásodpercben.

Ez a tulajdonság írásvédett.

Batch-szintézisi feladat tulajdonságai

Az alábbi táblázat a kötegszintézisi feladat tulajdonságait ismerteti.

Tulajdonság Leírás
createdDateTime A kötegszintézisi feladat létrehozásának dátuma és időpontja.

Ez a tulajdonság írásvédett.
leírás A kötegszintézis leírása.

Ez a tulajdonság opcionális.
ID (Azonosító) A kötegszintézisi feladat azonosítója.

Ez a tulajdonság írásvédett.
lastActionDateTime Az állapottulajdonság értékének módosításának legutóbbi dátuma és időpontja.

Ez a tulajdonság írásvédett.
tulajdonságok Az opcionális kötegszintézis konfigurációs beállításainak definiált készlete.
properties.destinationContainerUrl A kötegszintézis eredményei írható Azure-tárolóban tárolhatók. Ha nem ad meg közös hozzáférésű jogosultságkódokkal (SAS) rendelkező tároló URI-t, a Speech szolgáltatás az eredményeket a Microsoft által felügyelt tárolóban tárolja. A tárolt hozzáférési szabályzatokkal rendelkező SAS nem támogatott. A szintézisfeladat törlésekor az eredményadatok is törlődnek.

Ez az opcionális tulajdonság nem szerepel a válaszban a szintézisfeladat lekérésekor.
properties.timeToLiveInHours A szintézisi feladat létrehozását követő órákban megadott időtartam, amikor a rendszer automatikusan törli a szintézis eredményeit. A maximális élettartam 744 óra. Az automatikus törlés dátuma és időpontja a "Sikeres" vagy "Sikertelen" állapotú szintézisfeladatok esetében a legutóbbiActionDateTime és timeToLive tulajdonságok összegeként lesz kiszámítva.

Ellenkező esetben meghívhatja a törlési szintézis metódust a feladat hamarabbi eltávolításához.
status A kötegszintézis feldolgozási állapota.

Az állapotnak a "NotStarted" értékről a "Futtatás" értékre, végül pedig a "Sikeres" vagy a "Sikertelen" állapotra kell haladnia.

Ez a tulajdonság írásvédett.

Szöveg–beszéd tulajdonságai

Az alábbi táblázat a szöveg beszédtulajdonságokat ismerteti.

Tulajdonság Leírás
customVoices Az egyéni neurális hang egy névvel és annak üzembehelyezési azonosítójával van társítva, például: "customVoices": {"your-custom-voice-name": "502ac834-6537-4bc3-9fd6-140114daa66d"}

Használhatja a hangnevet a synthesisConfig.voice " inputKind PlainText" értékre beállítva, vagy a bemenetek SSML-szövegében, ha inputKind az "SSML" értékre van állítva.

Ez a tulajdonság egyéni hang használatához szükséges. Ha itt nem definiált egyéni hangot próbál használni, a szolgáltatás hibát ad vissza.
Bemenetek A szintetizálandó egyszerű szöveg vagy SSML.

Ha az inputKind értéke "PlainText", adjon meg egyszerű szöveget az itt látható módon: "bemenetek": [{"content": "A szivárvány hét színt tartalmaz."}]. Ha az inputKind értéke "SSML", adja meg a szöveget a Beszédszintézis korrektúranyelvben (SSML) az itt látható módon: "bemenetek": [{"content": "<speak version=''1.0'' xml:lang=''en-US'''><voice xml:lang='en-US'' xml:gender=''Female''' name='en-US-AvaMultilingualNeural'''>The rainbow has seven colors."}].

Legfeljebb 1000 szöveges objektumot tartalmazhat, ha több videokimeneti fájlt szeretne. Íme egy példa bemeneti szöveg, amelyet két videokimeneti fájlba kell szintetizálni: "inputs": [{"content": "synthesize this to a file"},{"content": "synthesize this to another file"}].

Az új bekezdésekhez nincs szükség külön szövegbevitelre. Bármelyik (legfeljebb 1000) szövegbevitelben megadhat új bekezdéseket az "\r\n" (új vonal) sztring használatával. Íme egy példa bemeneti szöveg két bekezdéssel, amelyeket ugyanarra a hangkimeneti fájlra kell szintetizálni: "bemenetek": [{"content": "ezt egy fájlba kell szintetizálni\r\nsynthesize this to another paragraph in same file"}]

Ez a tulajdonság új kötegszintézisi feladat létrehozásakor szükséges. Ez a tulajdonság nem szerepel a válaszban a szintézisfeladat lekérésekor.
properties.billingDetails A customNeural és a neurális (előre összeállított) hangok által feldolgozott és számlázott szavak száma.

Ez a tulajdonság írásvédett.
synthesisConfig Az egyszerű szöveg kötegszintéziséhez használandó konfigurációs beállítások.

Ez a tulajdonság csak akkor alkalmazható, ha az inputKind értéke "PlainText".
synthesisConfig.pitch A hangkimenet hangmagassága.

Az elfogadott értékekkel kapcsolatos információkért tekintse meg a Beszédszintézis korrektúranyelv (SSML) dokumentációjának prosody-táblázatát . A rendszer figyelmen kívül hagyja az érvénytelen értékeket.

Ez az opcionális tulajdonság csak akkor alkalmazható, ha az inputKind értéke "Egyszerű szöveg".
synthesisConfig.rate A hangkimenet sebessége.

Az elfogadott értékekkel kapcsolatos információkért tekintse meg a Beszédszintézis korrektúranyelv (SSML) dokumentációjának prosody-táblázatát . A rendszer figyelmen kívül hagyja az érvénytelen értékeket.

Ez az opcionális tulajdonság csak akkor alkalmazható, ha az inputKind értéke "Egyszerű szöveg".
synthesisConfig.style Egyes hangok esetében a beszédstílust úgy állíthatja be, hogy kifejezze a különböző érzelmeket, például vidámságot, empátiát és nyugodtságot. A hangot optimalizálhatja különböző forgatókönyvekhez, például az ügyfélszolgálathoz, a híradáshoz és a hangsegédhez.

A hangonként elérhető stílusokról további információt a hangstílusok és a szerepkörök című témakörben talál.

Ez az opcionális tulajdonság csak akkor alkalmazható, ha az inputKind értéke "Egyszerű szöveg".
synthesisConfig.voice A hangkimenetet beszélő hang.

Az előre összeállított neurális hangokkal kapcsolatos információkért tekintse meg a nyelv és a hangtámogatás témakörét. Egyéni hang használatához meg kell adnia egy érvényes egyéni hang- és üzembehelyezési azonosító-leképezést a customVoices tulajdonságban.

Ez a tulajdonság akkor szükséges, ha az inputKind értéke "PlainText".
synthesisConfig.volume A hangkimenet hangereje.

Az elfogadott értékekkel kapcsolatos információkért tekintse meg a Beszédszintézis korrektúranyelv (SSML) dokumentációjának prosody-táblázatát . A rendszer figyelmen kívül hagyja az érvénytelen értékeket.

Ez az opcionális tulajdonság csak akkor alkalmazható, ha az inputKind értéke "Egyszerű szöveg".
inputKind Azt jelzi, hogy a bemeneti szöveg tulajdonságnak egyszerű szövegnek vagy SSML-nek kell-e lennie. A kis- és nagybetűk érzéketlen értékei a "PlainText" és az "SSML". Ha az inputKind értéke "PlainText", akkor a synthesisConfig hangtulajdonságot is be kell állítania.

Ez a tulajdonság kötelező.

A háttér szerkesztése

Az avatar kötegelt szintézis API jelenleg nem támogatja a háttérvideó beállítását; csak statikus háttérképeket támogat. Ha azonban az utómunkát követően háttérrendszert szeretne hozzáadni a videóhoz, transzparens háttérrel is létrehozhat videókat.

Statikus háttérkép beállításához használja a avatarConfig.backgroundImage tulajdonságot, és adjon meg egy, a kívánt képre mutató URL-címet. Emellett a tulajdonság használatával beállíthatja az avatarvideó háttérszínét avatarConfig.backgroundColor is.

Transzparens háttérvideó létrehozásához a következő tulajdonságokat kell beállítania a kötegszintézis-kérelemben szükséges értékekre:

Tulajdonság A háttér áttetszőségéhez szükséges értékek
properties.videoFormat Webm
properties.videoCodec vp9
properties.backgroundColor #000000000 (vagy átlátszó)

A Clipchamp egy példa egy videószerkesztő eszközre, amely támogatja a batch synthesis API által létrehozott transzparens háttérvideó használatát.

Egyes videószerkesztő szoftverek nem támogatják közvetlenül a webm formátumot, és csak a transzparens háttérvideó-bevitelt támogatják .mov , például az Adobe Premiere Pro-t. Ilyen esetekben először át kell alakítania a videó formátumát webm.mov egy olyan eszközzel, mint az FFMPEG.

FFMPEG parancssor:

ffmpeg -vcodec libvpx-vp9 -i <input.webm> -vcodec png -pix_fmt rgba metadata:s:v:0 alpha_mode="1" <output.mov>

Az FFMPEG letölthető ffmpeg.org. Cserélje le <input.webm> a <output.mov> helyi elérési utat és a fájlnevet a parancssorban.

Következő lépések