A szöveg és a beszéd avatarjának kötegelt szintézisi tulajdonságai (előzetes verzió)
Feljegyzés
A szöveg–beszéd avatar jelenleg nyilvános előzetes verzióban érhető el. Ez az előzetes verzió szolgáltatásszintű szerződés nélkül érhető el, és éles számítási feladatokhoz nem ajánlott. Előfordulhat, hogy néhány funkció nem támogatott, vagy korlátozott képességekkel rendelkezik. További információ: Kiegészítő használati feltételek a Microsoft Azure előzetes verziójú termékeihez.
A kötegszintézis tulajdonságai csoportosíthatók a következő módon: avatarhoz kapcsolódó tulajdonságok, kötegelt feladattal kapcsolatos tulajdonságok és szöveg–beszéd kapcsolódó tulajdonságok, amelyeket az alábbi táblázatok ismertetnek.
Új kötegszintézisi feladat létrehozásakor JSON formátumú tulajdonságokra van szükség. Más tulajdonságok megadása nem kötelező. A kötegszintézis válasza más tulajdonságokat is tartalmaz, amelyek információt nyújtanak a szintézis állapotáról és az eredményekről. A tulajdonság például azt a outputs.result
helyet tartalmazza, ahonnan letöltheti az avatarvideóját tartalmazó videofájlt. Innen outputs.summary
elérheti az összegzés és a hibakeresés részleteit.
Avatar tulajdonságai
Az alábbi táblázat az avatar tulajdonságait ismerteti.
Tulajdonság | Leírás |
---|---|
avatarConfig.talkingAvatarCharacter | A beszélő avatar karakterneve. A támogatott avatar karakterek itt találhatók. Ez a tulajdonság kötelező. |
avatarConfig.talkingAvatarStyle | A beszélő avatar stílusneve. A támogatott avatarstílusok itt találhatók. Ez a tulajdonság az előre összeállított avatarhoz szükséges, és a testreszabott avatarhoz nem kötelező. |
avatarConfig.customized | Egy bool érték, amely azt jelzi, hogy a használni kívánt avatar testre szabott avatar vagy sem. Igaz a testreszabott avatarra, és hamis az előre összeállított avatarra. Ez a tulajdonság nem kötelező, és az alapértelmezett érték. false |
avatarConfig.videoFormat | A kimeneti videofájl formátuma lehet mp4 vagy webm. A webm formátum a transzparens háttérhez szükséges.Ez a tulajdonság nem kötelező, az alapértelmezett érték pedig mp4. |
avatarConfig.videoCodec | A kimeneti videó kodekje lehet h264, hevc vagy vp9. A transzparens háttérhez vp9 szükséges. A vp9 kodek esetén a szintézis sebessége lassabb lesz, mivel a VP9 kódolás lassabb. Ez a tulajdonság nem kötelező, az alapértelmezett érték pedig hevc. |
avatarConfig.bitrateKbps | A kimeneti videó bitráta, amely egész szám, egység kbps-ekkel. Ez a tulajdonság nem kötelező, az alapértelmezett érték pedig 2000. |
avatarConfig.videoCrop | Ez a tulajdonság lehetővé teszi a videó kimenetének körülvágását, ami azt jelenti, hogy az eredeti videó téglalap alterületét adja ki. Ez a tulajdonság két mezőből áll, amelyek a téglalap bal felső és jobb alsó csúcsát határozzák meg. Ez a tulajdonság nem kötelező, és az alapértelmezett viselkedés a teljes videó kimenete. |
avatarConfig.videoCrop.topLeft | A téglalap bal felső csúcsa a videó körülvágásához. Ez a tulajdonság két x és y mezővel rendelkezik a csúcs vízszintes és függőleges pozíciójának meghatározásához. Ez a tulajdonság a properties.videoCrop beállításakor szükséges. |
avatarConfig.videoCrop.bottomRight | A téglalap jobb alsó csúcsa a videó körülvágásához. Ez a tulajdonság két x és y mezővel rendelkezik a csúcs vízszintes és függőleges pozíciójának meghatározásához. Ez a tulajdonság a properties.videoCrop beállításakor szükséges. |
avatarConfig.subtitleType | Az avatar videofájl alcímének típusa lehet external_file , soft_embedded hard_embedded vagy none .Ez a tulajdonság nem kötelező, és az alapértelmezett érték. soft_embedded |
avatarConfig.backgroundImage | Háttérkép hozzáadása a avatarConfig.backgroundImage tulajdonság használatával. A tulajdonság értékének a kívánt képre mutató URL-címnek kell lennie. Ez a tulajdonság opcionális. |
avatarConfig.backgroundColor | Az avatarvideó háttérszíne, amely egy sztring #RRGGBBAA formátumban. Ebben a sztringben: RR, GG, BB és AA a piros, zöld, kék és alfa csatornákat jelenti, hexadecimális értéktartomány 00~ FF. Az alfa csatorna szabályozza az átlátszóságot, az átlátszóság 00, a nem átlátszó FF érték, a félig átlátszó FF értéke pedig 00 és FF között van. Ez a tulajdonság nem kötelező, az alapértelmezett érték pedig #FFFFFFFF (fehér). |
outputs.result | A kötegelt szintézis eredményfájljának helye, amely egy videófájl, amely a szintetizált avatart tartalmazza. Ez a tulajdonság írásvédett. |
Tulajdonságok. DurationInMilliseconds | A videó kimenetének időtartama ezredmásodpercben. Ez a tulajdonság írásvédett. |
Batch-szintézisi feladat tulajdonságai
Az alábbi táblázat a kötegszintézisi feladat tulajdonságait ismerteti.
Tulajdonság | Leírás |
---|---|
createdDateTime | A kötegszintézisi feladat létrehozásának dátuma és időpontja. Ez a tulajdonság írásvédett. |
leírás | A kötegszintézis leírása. Ez a tulajdonság opcionális. |
ID (Azonosító) | A kötegszintézisi feladat azonosítója. Ez a tulajdonság írásvédett. |
lastActionDateTime | Az állapottulajdonság értékének módosításának legutóbbi dátuma és időpontja. Ez a tulajdonság írásvédett. |
tulajdonságok | Az opcionális kötegszintézis konfigurációs beállításainak definiált készlete. |
properties.destinationContainerUrl | A kötegszintézis eredményei írható Azure-tárolóban tárolhatók. Ha nem ad meg közös hozzáférésű jogosultságkódokkal (SAS) rendelkező tároló URI-t, a Speech szolgáltatás az eredményeket a Microsoft által felügyelt tárolóban tárolja. A tárolt hozzáférési szabályzatokkal rendelkező SAS nem támogatott. A szintézisfeladat törlésekor az eredményadatok is törlődnek. Ez az opcionális tulajdonság nem szerepel a válaszban a szintézisfeladat lekérésekor. |
properties.timeToLiveInHours | A szintézisi feladat létrehozását követő órákban megadott időtartam, amikor a rendszer automatikusan törli a szintézis eredményeit. A maximális élettartam 744 óra. Az automatikus törlés dátuma és időpontja a "Sikeres" vagy "Sikertelen" állapotú szintézisfeladatok esetében a legutóbbiActionDateTime és timeToLive tulajdonságok összegeként lesz kiszámítva. Ellenkező esetben meghívhatja a törlési szintézis metódust a feladat hamarabbi eltávolításához. |
status | A kötegszintézis feldolgozási állapota. Az állapotnak a "NotStarted" értékről a "Futtatás" értékre, végül pedig a "Sikeres" vagy a "Sikertelen" állapotra kell haladnia. Ez a tulajdonság írásvédett. |
Szöveg–beszéd tulajdonságai
Az alábbi táblázat a szöveg beszédtulajdonságokat ismerteti.
Tulajdonság | Leírás |
---|---|
customVoices | Az egyéni neurális hang egy névvel és annak üzembehelyezési azonosítójával van társítva, például: "customVoices": {"your-custom-voice-name": "502ac834-6537-4bc3-9fd6-140114daa66d"} Használhatja a hangnevet a synthesisConfig.voice " inputKind PlainText" értékre beállítva, vagy a bemenetek SSML-szövegében, ha inputKind az "SSML" értékre van állítva.Ez a tulajdonság egyéni hang használatához szükséges. Ha itt nem definiált egyéni hangot próbál használni, a szolgáltatás hibát ad vissza. |
Bemenetek | A szintetizálandó egyszerű szöveg vagy SSML. Ha az inputKind értéke "PlainText", adjon meg egyszerű szöveget az itt látható módon: "bemenetek": [{"content": "A szivárvány hét színt tartalmaz."}]. Ha az inputKind értéke "SSML", adja meg a szöveget a Beszédszintézis korrektúranyelvben (SSML) az itt látható módon: "bemenetek": [{"content": "<speak version=''1.0'' xml:lang=''en-US'''><voice xml:lang='en-US'' xml:gender=''Female''' name='en-US-AvaMultilingualNeural'''>The rainbow has seven colors."}]. Legfeljebb 1000 szöveges objektumot tartalmazhat, ha több videokimeneti fájlt szeretne. Íme egy példa bemeneti szöveg, amelyet két videokimeneti fájlba kell szintetizálni: "inputs": [{"content": "synthesize this to a file"},{"content": "synthesize this to another file"}]. Az új bekezdésekhez nincs szükség külön szövegbevitelre. Bármelyik (legfeljebb 1000) szövegbevitelben megadhat új bekezdéseket az "\r\n" (új vonal) sztring használatával. Íme egy példa bemeneti szöveg két bekezdéssel, amelyeket ugyanarra a hangkimeneti fájlra kell szintetizálni: "bemenetek": [{"content": "ezt egy fájlba kell szintetizálni\r\nsynthesize this to another paragraph in same file"}] Ez a tulajdonság új kötegszintézisi feladat létrehozásakor szükséges. Ez a tulajdonság nem szerepel a válaszban a szintézisfeladat lekérésekor. |
properties.billingDetails | A customNeural és a neurális (előre összeállított) hangok által feldolgozott és számlázott szavak száma. Ez a tulajdonság írásvédett. |
synthesisConfig | Az egyszerű szöveg kötegszintéziséhez használandó konfigurációs beállítások. Ez a tulajdonság csak akkor alkalmazható, ha az inputKind értéke "PlainText". |
synthesisConfig.pitch | A hangkimenet hangmagassága. Az elfogadott értékekkel kapcsolatos információkért tekintse meg a Beszédszintézis korrektúranyelv (SSML) dokumentációjának prosody-táblázatát . A rendszer figyelmen kívül hagyja az érvénytelen értékeket. Ez az opcionális tulajdonság csak akkor alkalmazható, ha az inputKind értéke "Egyszerű szöveg". |
synthesisConfig.rate | A hangkimenet sebessége. Az elfogadott értékekkel kapcsolatos információkért tekintse meg a Beszédszintézis korrektúranyelv (SSML) dokumentációjának prosody-táblázatát . A rendszer figyelmen kívül hagyja az érvénytelen értékeket. Ez az opcionális tulajdonság csak akkor alkalmazható, ha az inputKind értéke "Egyszerű szöveg". |
synthesisConfig.style | Egyes hangok esetében a beszédstílust úgy állíthatja be, hogy kifejezze a különböző érzelmeket, például vidámságot, empátiát és nyugodtságot. A hangot optimalizálhatja különböző forgatókönyvekhez, például az ügyfélszolgálathoz, a híradáshoz és a hangsegédhez. A hangonként elérhető stílusokról további információt a hangstílusok és a szerepkörök című témakörben talál. Ez az opcionális tulajdonság csak akkor alkalmazható, ha az inputKind értéke "Egyszerű szöveg". |
synthesisConfig.voice | A hangkimenetet beszélő hang. Az előre összeállított neurális hangokkal kapcsolatos információkért tekintse meg a nyelv és a hangtámogatás témakörét. Egyéni hang használatához meg kell adnia egy érvényes egyéni hang- és üzembehelyezési azonosító-leképezést a customVoices tulajdonságban. Ez a tulajdonság akkor szükséges, ha az inputKind értéke "PlainText". |
synthesisConfig.volume | A hangkimenet hangereje. Az elfogadott értékekkel kapcsolatos információkért tekintse meg a Beszédszintézis korrektúranyelv (SSML) dokumentációjának prosody-táblázatát . A rendszer figyelmen kívül hagyja az érvénytelen értékeket. Ez az opcionális tulajdonság csak akkor alkalmazható, ha az inputKind értéke "Egyszerű szöveg". |
inputKind | Azt jelzi, hogy a bemeneti szöveg tulajdonságnak egyszerű szövegnek vagy SSML-nek kell-e lennie. A kis- és nagybetűk érzéketlen értékei a "PlainText" és az "SSML". Ha az inputKind értéke "PlainText", akkor a synthesisConfig hangtulajdonságot is be kell állítania. Ez a tulajdonság kötelező. |
A háttér szerkesztése
Az avatar kötegelt szintézis API jelenleg nem támogatja a háttérvideó beállítását; csak statikus háttérképeket támogat. Ha azonban az utómunkát követően háttérrendszert szeretne hozzáadni a videóhoz, transzparens háttérrel is létrehozhat videókat.
Statikus háttérkép beállításához használja a avatarConfig.backgroundImage
tulajdonságot, és adjon meg egy, a kívánt képre mutató URL-címet. Emellett a tulajdonság használatával beállíthatja az avatarvideó háttérszínét avatarConfig.backgroundColor
is.
Transzparens háttérvideó létrehozásához a következő tulajdonságokat kell beállítania a kötegszintézis-kérelemben szükséges értékekre:
Tulajdonság | A háttér áttetszőségéhez szükséges értékek |
---|---|
properties.videoFormat | Webm |
properties.videoCodec | vp9 |
properties.backgroundColor | #000000000 (vagy átlátszó) |
A Clipchamp egy példa egy videószerkesztő eszközre, amely támogatja a batch synthesis API által létrehozott transzparens háttérvideó használatát.
Egyes videószerkesztő szoftverek nem támogatják közvetlenül a webm
formátumot, és csak a transzparens háttérvideó-bevitelt támogatják .mov
, például az Adobe Premiere Pro-t. Ilyen esetekben először át kell alakítania a videó formátumát webm
.mov
egy olyan eszközzel, mint az FFMPEG.
FFMPEG parancssor:
ffmpeg -vcodec libvpx-vp9 -i <input.webm> -vcodec png -pix_fmt rgba metadata:s:v:0 alpha_mode="1" <output.mov>
Az FFMPEG letölthető ffmpeg.org. Cserélje le <input.webm>
a <output.mov>
helyi elérési utat és a fájlnevet a parancssorban.
Következő lépések
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: