Share via


Batchsyntesegenskaper för text till tal-avatar (förhandsversion)

Kommentar

Text till tal-avatar är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och rekommenderas inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

Batchsyntesegenskaper kan grupperas som: avatarrelaterade egenskaper, relaterade egenskaper för batchjobb och text till talrelaterade egenskaper, som beskrivs i följande tabeller.

Vissa egenskaper i JSON-format krävs när du skapar ett nytt batchsyntesjobb. Andra egenskaper är valfria. Batchsyntessvaret innehåller andra egenskaper för att ge information om syntesstatus och resultat. Egenskapen innehåller till exempel outputs.result platsen där du kan ladda ned en videofil som innehåller avatarvideon. Från outputs.summarykan du komma åt sammanfattnings- och felsökningsinformationen.

Avataregenskaper

I följande tabell beskrivs avataregenskaperna.

Property beskrivning
avatarConfig.talkingAvatarCharacter Karaktärsnamnet på den talande avataren.

De avatartecken som stöds finns här.

Egenskapen krävs.
avatarConfig.talkingAvatarStyle Stilnamnet på den talande avataren.

De avatarformat som stöds finns här.

Den här egenskapen krävs för fördefinierad avatar och valfritt för anpassad avatar.
avatarConfig.customd Ett bool-värde som anger om avataren som ska användas är anpassad avatar eller inte. Sant för anpassad avatar och falskt för fördefinierad avatar.

Den här egenskapen är valfri och standardvärdet är false.
avatarConfig.videoFormat Formatet för utdatavideofilen kan vara mp4 eller webm.

Formatet webm krävs för transparent bakgrund.

Den här egenskapen är valfri och standardvärdet är mp4.
avatarConfig.videoCodec Codec för utdatavideo kan vara h264, hevc eller vp9.

Vp9 krävs för transparent bakgrund. Synteshastigheten blir långsammare med vp9 codec, eftersom vp9-kodning är långsammare.

Den här egenskapen är valfri och standardvärdet är hevc.
avatarConfig.bitrateKbps Bithastigheten för utdatavideo, som är heltalsvärde, med enhetskbit/s.

Den här egenskapen är valfri och standardvärdet är 2000.
avatarConfig.videoCrop Med den här egenskapen kan du beskära videoutdata, vilket innebär att du kan mata ut ett rektangelunderområde i den ursprungliga videon. Den här egenskapen har två fält som definierar det övre vänstra hörnet och det nedre högra hörnet i rektangeln.

Den här egenskapen är valfri och standardbeteendet är att mata ut hela videon.
avatarConfig.videoCrop.topLeft Rektangelns övre vänstra hörn för videogrödor. Den här egenskapen har två fält x och y för att definiera hörnens vågräta och lodräta position.

Den här egenskapen krävs när properties.videoCrop har angetts.
avatarConfig.videoCrop.bottomRight Rektangelns nedre högra hörn för videogrödor. Den här egenskapen har två fält x och y för att definiera hörnens vågräta och lodräta position.

Den här egenskapen krävs när properties.videoCrop har angetts.
avatarConfig.subtitleType Typ av underrubrik för avatarvideofilen kan vara external_file, soft_embedded, hard_embeddedeller none.

Den här egenskapen är valfri och standardvärdet är soft_embedded.
avatarConfig.backgroundImage Lägg till en bakgrundsbild med hjälp av avatarConfig.backgroundImage egenskapen . Värdet för egenskapen ska vara en URL som pekar på den önskade bilden. Den här egenskapen är valfri.
avatarConfig.backgroundColor Bakgrundsfärg för avatarvideon, som är en sträng i #RRGGBBAA format. I den här strängen: RR, GG, BB och AA betyder de röda, gröna, blå och alfakanalerna med hexadecimalt värdeintervall 00~FF. Alfakanalen styr transparensen, med värdet 00 för transparent, värdet FF för icke-transparent och värdet mellan 00 och FF för halvtransparent.

Den här egenskapen är valfri och standardvärdet är #FFFFFFFF (vit).
outputs.result Platsen för resultatfilen för batchsyntesen, som är en videofil som innehåller den syntetiserade avataren.

Den här egenskapen är skrivskyddad.
Egenskaper. DurationInMilliseconds Videons utdatavaraktighet i millisekunder.

Den här egenskapen är skrivskyddad.

Egenskaper för batchsyntesjobb

I följande tabell beskrivs egenskaperna för batchsyntesjobbet.

Property beskrivning
createdDateTime Datum och tid då batchsyntesjobbet skapades.

Den här egenskapen är skrivskyddad.
description Beskrivningen av batchsyntesen.

Den här egenskapen är valfri.
ID Batchsyntesens jobb-ID.

Den här egenskapen är skrivskyddad.
lastActionDateTime Det senaste datumet och tiden då värdet för statusegenskapen ändrades.

Den här egenskapen är skrivskyddad.
egenskaper En definierad uppsättning valfria konfigurationsinställningar för batchsyntes.
properties.destinationContainerUrl Resultatet av batchsyntesen kan lagras i en skrivbar Azure-container. Om du inte anger en container-URI med sas-token (signaturer för delad åtkomst) lagrar Speech-tjänsten resultatet i en container som hanteras av Microsoft. SAS med lagrade åtkomstprinciper stöds inte. När syntesjobbet tas bort tas även resultatdata bort.

Den här valfria egenskapen ingår inte i svaret när du får syntesjobbet.
properties.timeToLiveInHours En varaktighet i timmar efter att syntesjobbet har skapats, när syntesresultatet tas bort automatiskt. Den maximala tiden att leva är 744 timmar. Datum och tid för automatisk borttagning för syntesjobb med statusen "Lyckades" eller "Misslyckades" beräknas som summan av egenskaperna lastActionDateTime och timeToLive.

Annars kan du anropa borttagningssyntesmetoden för att ta bort jobbet tidigare.
status Bearbetningsstatus för batchsyntes.

Statusen ska gå från "NotStarted" till "Running" och slutligen till antingen "Succeeded" eller "Failed".

Den här egenskapen är skrivskyddad.

Text till tal-egenskaper

I följande tabell beskrivs text till tal-egenskaper.

Property beskrivning
customVoices En anpassad neural röst är associerad med ett namn och dess distributions-ID, så här: "customVoices": {"your-custom-voice-name": "502ac834-6537-4bc3-9fd6-140114daa66d"}

Du kan använda röstnamnet i din synthesisConfig.voice när inputKind är inställt på "PlainText" eller i SSML-text för indata när inputKind är inställt på "SSML".

Den här egenskapen krävs för att använda en anpassad röst. Om du försöker använda en anpassad röst som inte har definierats här returnerar tjänsten ett fel.
Ingångar Oformaterad text eller SSML som ska syntetiseras.

När inputKind är inställt på "PlainText" anger du oformaterad text som visas här: "inputs": [{"content": "Regnbågen har sju färger."}]. När inputKind är inställt på "SSML" anger du text i SSML (Speech Synthesis Markup Language) som du ser här: "inputs": [{"content": "<speak version=''1.0''' xml:lang=''en-US'''><voice xml:lang='en-US''xml:gender=''Female''name=''en-US-AvaMultilingualNeural'''>'Regnbågen har sju färger."}].

Inkludera upp till 1 000 textobjekt om du vill ha flera videoutdatafiler. Här är exempel på indatatext som ska syntetiseras till två videoutdatafiler: "inputs": [{"content": "synthesize this to a file"},{"content": "synthesize this to another file"}].

Du behöver inte separata textindata för nya stycken. Inom någon av textinmatningarna (upp till 1 000) kan du ange nya stycken med strängen "\r\n" (ny rad). Här är exempel på indatatext med två stycken som ska syntetiseras till samma ljudutdatafil: "inputs": [{"content": "synthesize this to a file\r\nsynthesize this to another paragraph in the same file"}]

Den här egenskapen krävs när du skapar ett nytt batchsyntesjobb. Den här egenskapen ingår inte i svaret när du får syntesjobbet.
properties.billingDetails Antalet ord som bearbetades och fakturerades av customNeural kontra neurala (fördefinierade) röster.

Den här egenskapen är skrivskyddad.
synthesisConfig Konfigurationsinställningarna som ska användas för batchsyntes av oformaterad text.

Den här egenskapen gäller endast när inputKind är inställd på "PlainText".
synthesisConfig.pitch Tonhöjden för ljudutdata.

Information om de godkända värdena finns i tabellen adjust prosody i dokumentationen för Speech Synthesis Markup Language (SSML). Ogiltiga värden ignoreras.

Den här valfria egenskapen gäller endast när inputKind är inställd på "PlainText".
synthesisConfig.rate Ljudutdatahastigheten.

Information om de godkända värdena finns i tabellen adjust prosody i dokumentationen för Speech Synthesis Markup Language (SSML). Ogiltiga värden ignoreras.

Den här valfria egenskapen gäller endast när inputKind är inställd på "PlainText".
synthesisConfig.style För vissa röster kan du justera talarstilen för att uttrycka olika känslor som glädje, empati och lugn. Du kan optimera rösten för olika scenarier som kundtjänst, nyhetssändning och röstassistent.

Information om tillgängliga format per röst finns i röstformat och roller.

Den här valfria egenskapen gäller endast när inputKind är inställd på "PlainText".
synthesisConfig.voice Rösten som talar ljudutdata.

Information om tillgängliga fördefinierade neurala röster finns i språk- och röststöd. Om du vill använda en anpassad röst måste du ange en giltig anpassad röst- och distributions-ID-mappning i egenskapen customVoices.

Den här egenskapen krävs när inputKind är inställd på "PlainText".
synthesisConfig.volume Volymen för ljudutdata.

Information om de godkända värdena finns i tabellen adjust prosody i dokumentationen för Speech Synthesis Markup Language (SSML). Ogiltiga värden ignoreras.

Den här valfria egenskapen gäller endast när inputKind är inställd på "PlainText".
inputKind Anger om textegenskapen för indata ska vara oformaterad text eller SSML. De möjliga skiftlägeskänsliga värdena är "PlainText" och "SSML". När inputKind är inställd på "PlainText" måste du också ange voice-egenskapen synthesisConfig.

Egenskapen krävs.

Så här redigerar du bakgrunden

Api:et för avatar batchsyntes stöder för närvarande inte inställning av bakgrundsvideor. den stöder endast statiska bakgrundsbilder. Men om du vill lägga till en bakgrund för videon under efterproduktion kan du generera videor med en transparent bakgrund.

Om du vill ange en statisk bakgrundsbild använder du avatarConfig.backgroundImage egenskapen och anger en URL som pekar på den önskade bilden. Dessutom kan du ange bakgrundsfärgen för avatarvideon avatarConfig.backgroundColor med hjälp av egenskapen .

Om du vill generera en transparent bakgrundsvideo måste du ange följande egenskaper till de värden som krävs i batchsyntesbegäran:

Property Obligatoriska värden för bakgrundstransparens
properties.videoFormat Webm
properties.videoCodec vp9
properties.backgroundColor #0000000000 (eller transparent)

Clipchamp är ett exempel på ett videoredigeringsverktyg som stöder den transparenta bakgrundsvideo som genereras av batchsyntes-API:et.

Vissa videoredigeringsprogram stöder webm inte formatet direkt och stöder .mov endast transparenta indata för bakgrundsvideo som Adobe Premiere Pro. I sådana fall måste du först konvertera videoformatet från webm till .mov med ett verktyg som FFMPEG.

FFMPEG-kommandorad:

ffmpeg -vcodec libvpx-vp9 -i <input.webm> -vcodec png -pix_fmt rgba metadata:s:v:0 alpha_mode="1" <output.mov>

FFMPEG kan laddas ned från ffmpeg.org. Ersätt <input.webm> och <output.mov> med din lokala sökväg och filnamn på kommandoraden.

Nästa steg