Batchsyntesegenskaper för text till tal-avatar

Artikel
10/16/2024

Batchsyntesegenskaper kan grupperas som: avatarrelaterade egenskaper, relaterade egenskaper för batchjobb och text till talrelaterade egenskaper, som beskrivs i följande tabeller.

Vissa egenskaper i JSON-format krävs när du skapar ett nytt batchsyntesjobb. Andra egenskaper är valfria. Batchsyntessvaret innehåller andra egenskaper för att ge information om syntesstatus och resultat. Egenskapen innehåller till exempel outputs.result platsen där du kan ladda ned en videofil som innehåller avatarvideon. Från outputs.summarykan du komma åt sammanfattnings- och felsökningsinformationen.

Avataregenskaper

I följande tabell beskrivs avataregenskaperna.

Property	beskrivning
avatarConfig.talkingAvatarCharacter	Karaktärsnamnet på den talande avataren. De avatartecken som stöds finns här. Egenskapen krävs.
avatarConfig.talkingAvatarStyle	Stilnamnet på den talande avataren. De avatarformat som stöds finns här. Den här egenskapen krävs för fördefinierad avatar och valfritt för anpassad avatar.
avatarConfig.customd	Ett bool-värde som anger om avataren som ska användas är anpassad avatar eller inte. Sant för anpassad avatar och falskt för fördefinierad avatar. Den här egenskapen är valfri och standardvärdet är `false`.
avatarConfig.videoFormat	Formatet för utdatavideofilen kan vara mp4 eller webm. Formatet `webm` krävs för transparent bakgrund. Den här egenskapen är valfri och standardvärdet är mp4.
avatarConfig.videoCodec	Codec för utdatavideo kan vara h264, hevc, vp9 eller av1. Vp9 krävs för transparent bakgrund. Synteshastigheten blir långsammare med vp9 codec, eftersom vp9-kodning är långsammare. Den här egenskapen är valfri och standardvärdet är hevc.
avatarConfig.bitrateKbps	Bithastigheten för utdatavideo, som är heltalsvärde, med enhetskbit/s. Den här egenskapen är valfri och standardvärdet är 2000.
avatarConfig.videoCrop	Med den här egenskapen kan du beskära videoutdata, vilket innebär att du kan mata ut ett rektangelunderområde i den ursprungliga videon. Den här egenskapen har två fält som definierar det övre vänstra hörnet och det nedre högra hörnet i rektangeln. Den här egenskapen är valfri och standardbeteendet är att mata ut hela videon.
avatarConfig.videoCrop.topLeft	Rektangelns övre vänstra hörn för videogrödor. Den här egenskapen har två fält x och y för att definiera hörnens vågräta och lodräta position. Den här egenskapen krävs när properties.videoCrop har angetts.
avatarConfig.videoCrop.bottomRight	Rektangelns nedre högra hörn för videogrödor. Den här egenskapen har två fält x och y för att definiera hörnens vågräta och lodräta position. Den här egenskapen krävs när properties.videoCrop har angetts.
avatarConfig.subtitleType	Typ av underrubrik för avatarvideofilen kan vara `external_file`, `soft_embedded`, `hard_embedded`eller `none`. Den här egenskapen är valfri och standardvärdet är `soft_embedded`.
avatarConfig.backgroundImage	Lägg till en bakgrundsbild med hjälp av `avatarConfig.backgroundImage` egenskapen . Värdet för egenskapen ska vara en URL som pekar på den önskade bilden. Den här egenskapen är valfri.
avatarConfig.backgroundColor	Bakgrundsfärg för avatarvideon, som är en sträng i #RRGGBBAA format. I den här strängen: RR, GG, BB och AA betyder de röda, gröna, blå och alfakanalerna med hexadecimalt värdeintervall 00~FF. Alfakanalen styr transparensen, med värdet 00 för transparent, värdet FF för icke-transparent och värdet mellan 00 och FF för halvtransparent. Den här egenskapen är valfri och standardvärdet är #FFFFFFFF (vit).
outputs.result	Platsen för resultatfilen för batchsyntesen, som är en videofil som innehåller den syntetiserade avataren. Den här egenskapen är skrivskyddad.
Egenskaper. DurationInMilliseconds	Videons utdatavaraktighet i millisekunder. Den här egenskapen är skrivskyddad.

Egenskaper för batchsyntesjobb

I följande tabell beskrivs egenskaperna för batchsyntesjobbet.

Property	beskrivning
createdDateTime	Datum och tid då batchsyntesjobbet skapades. Den här egenskapen är skrivskyddad.
description	Beskrivningen av batchsyntesen. Den här egenskapen är valfri.
ID	Batchsyntesens jobb-ID. Den här egenskapen är skrivskyddad.
lastActionDateTime	Det senaste datumet och tiden då värdet för statusegenskapen ändrades. Den här egenskapen är skrivskyddad.
egenskaper	En definierad uppsättning valfria konfigurationsinställningar för batchsyntes.
properties.destinationContainerUrl	Resultatet av batchsyntesen kan lagras i en skrivbar Azure-container. Om du inte anger en container-URI med sas-token (signaturer för delad åtkomst) lagrar Speech-tjänsten resultatet i en container som hanteras av Microsoft. SAS med lagrade åtkomstprinciper stöds inte. När syntesjobbet tas bort tas även resultatdata bort. Den här valfria egenskapen ingår inte i svaret när du får syntesjobbet.
properties.timeToLiveInHours	En varaktighet i timmar efter att syntesjobbet har skapats, när syntesresultatet tas bort automatiskt. Den maximala tiden att leva är 744 timmar. Datum och tid för automatisk borttagning för syntesjobb med statusen "Lyckades" eller "Misslyckades" beräknas som summan av egenskaperna lastActionDateTime och timeToLive. Annars kan du anropa borttagningssyntesmetoden för att ta bort jobbet tidigare.
status	Bearbetningsstatus för batchsyntes. Statusen ska gå från "NotStarted" till "Running" och slutligen till antingen "Succeeded" eller "Failed". Den här egenskapen är skrivskyddad.

Text till tal-egenskaper

I följande tabell beskrivs text till tal-egenskaper.

Property	beskrivning
customVoices	En anpassad neural röst är associerad med ett namn och dess distributions-ID, så här: "customVoices": {"your-custom-voice-name": "502ac834-6537-4bc3-9fd6-140114daa66d"} Du kan använda röstnamnet i din `synthesisConfig.voice` när `inputKind` är inställt på "PlainText" eller i SSML-text för indata när `inputKind` är inställt på "SSML". Den här egenskapen krävs för att använda en anpassad röst. Om du försöker använda en anpassad röst som inte har definierats här returnerar tjänsten ett fel.
Ingångar	Oformaterad text eller SSML som ska syntetiseras. När inputKind är inställt på "PlainText" anger du oformaterad text som visas här: "inputs": [{"content": "Regnbågen har sju färger."}]. När inputKind är inställt på "SSML" anger du text i SSML (Speech Synthesis Markup Language) som du ser här: "inputs": [{"content": "<speak version=''1.0''' xml:lang=''en-US'''><voice xml:lang='en-US''xml:gender=''Female''name=''en-US-AvaMultilingualNeural'''>'Regnbågen har sju färger."}]. Inkludera upp till 1 000 textobjekt om du vill ha flera videoutdatafiler. Här är exempel på indatatext som ska syntetiseras till två videoutdatafiler: "inputs": [{"content": "synthesize this to a file"},{"content": "synthesize this to another file"}]. Du behöver inte separata textindata för nya stycken. Inom någon av textinmatningarna (upp till 1 000) kan du ange nya stycken med strängen "\r\n" (ny rad). Här är exempel på indatatext med två stycken som ska syntetiseras till samma ljudutdatafil: "inputs": [{"content": "synthesize this to a file\r\nsynthesize this to another paragraph in the same file"}] Den här egenskapen krävs när du skapar ett nytt batchsyntesjobb. Den här egenskapen ingår inte i svaret när du får syntesjobbet.
properties.billingDetails	Antalet ord som bearbetades och fakturerades av customNeural kontra neurala (fördefinierade) röster. Den här egenskapen är skrivskyddad.
synthesisConfig	Konfigurationsinställningarna som ska användas för batchsyntes av oformaterad text. Den här egenskapen gäller endast när inputKind är inställd på "PlainText".
synthesisConfig.pitch	Tonhöjden för ljudutdata. Information om de godkända värdena finns i tabellen adjust prosody i dokumentationen för Speech Synthesis Markup Language (SSML). Ogiltiga värden ignoreras. Den här valfria egenskapen gäller endast när inputKind är inställd på "PlainText".
synthesisConfig.rate	Ljudutdatahastigheten. Information om de godkända värdena finns i tabellen adjust prosody i dokumentationen för Speech Synthesis Markup Language (SSML). Ogiltiga värden ignoreras. Den här valfria egenskapen gäller endast när inputKind är inställd på "PlainText".
synthesisConfig.style	För vissa röster kan du justera talarstilen för att uttrycka olika känslor som glädje, empati och lugn. Du kan optimera rösten för olika scenarier som kundtjänst, nyhetssändning och röstassistent. Information om tillgängliga format per röst finns i röstformat och roller. Den här valfria egenskapen gäller endast när inputKind är inställd på "PlainText".
synthesisConfig.voice	Rösten som talar ljudutdata. Information om tillgängliga fördefinierade neurala röster finns i språk- och röststöd. Om du vill använda en anpassad röst måste du ange en giltig anpassad röst- och distributions-ID-mappning i egenskapen customVoices. Den här egenskapen krävs när inputKind är inställd på "PlainText".
synthesisConfig.volume	Volymen för ljudutdata. Information om de godkända värdena finns i tabellen adjust prosody i dokumentationen för Speech Synthesis Markup Language (SSML). Ogiltiga värden ignoreras. Den här valfria egenskapen gäller endast när inputKind är inställd på "PlainText".
inputKind	Anger om textegenskapen för indata ska vara oformaterad text eller SSML. De möjliga skiftlägeskänsliga värdena är "PlainText" och "SSML". När inputKind är inställd på "PlainText" måste du också ange voice-egenskapen synthesisConfig. Egenskapen krävs.

Så här redigerar du bakgrunden

Api:et för avatar batchsyntes stöder för närvarande inte inställning av bakgrundsvideor. den stöder endast statiska bakgrundsbilder. Men om du vill lägga till en bakgrund för videon under efterproduktion kan du generera videor med en transparent bakgrund.

Om du vill ange en statisk bakgrundsbild använder du avatarConfig.backgroundImage egenskapen och anger en URL som pekar på den önskade bilden. Dessutom kan du ange bakgrundsfärgen för avatarvideon avatarConfig.backgroundColor med hjälp av egenskapen .

Om du vill generera en transparent bakgrundsvideo måste du ange följande egenskaper till de värden som krävs i batchsyntesbegäran:

Property	Obligatoriska värden för bakgrundstransparens
properties.videoFormat	webm
properties.videoCodec	vp9
properties.backgroundColor	#0000000000 (eller `transparent`)

Clipchamp är ett exempel på ett videoredigeringsverktyg som stöder den transparenta bakgrundsvideo som genereras av batchsyntes-API:et.

Vissa videoredigeringsprogram stöder webm inte formatet direkt och stöder .mov endast transparenta indata för bakgrundsvideo som Adobe Premiere Pro. I sådana fall måste du först konvertera videoformatet från webm till .mov med ett verktyg som FFMPEG.

FFMPEG-kommandorad:

ffmpeg -vcodec libvpx-vp9 -i <input.webm> -vcodec png -pix_fmt rgba metadata:s:v:0 alpha_mode="1" <output.mov>

FFMPEG kan laddas ned från ffmpeg.org. Ersätt <input.webm> och <output.mov> med din lokala sökväg och filnamn på kommandoraden.

Dela via

Batchsyntesegenskaper för text till tal-avatar

Avataregenskaper

Egenskaper för batchsyntesjobb

Text till tal-egenskaper

Så här redigerar du bakgrunden

Nästa steg

Feedback

Ytterligare resurser