Delen via


Batchsynthese-eigenschappen voor tekst-naar-spraak-avatar

Batchsynthese-eigenschappen kunnen worden gegroepeerd als: avatar-gerelateerde eigenschappen, eigenschappen met betrekking tot batchtaken en tekst naar spraakgerelateerde eigenschappen, die worden beschreven in de volgende tabellen.

Sommige eigenschappen in JSON-indeling zijn vereist wanneer u een nieuwe batchsynthesetaak maakt. Andere eigenschappen zijn optioneel. Het antwoord van de batchsynthese bevat andere eigenschappen voor informatie over de synthesestatus en resultaten. De eigenschap bevat bijvoorbeeld outputs.result de locatie van waaruit u een videobestand met de avatarvideo kunt downloaden. Hier outputs.summarykunt u toegang krijgen tot de samenvattings- en foutopsporingsgegevens.

Avatareigenschappen

In de volgende tabel worden de avatareigenschappen beschreven.

Eigenschappen Beschrijving
avatarConfig.talkingAvatarCharacter De naam van het sprekende avatar.

De ondersteunde avatartekens vindt u hier.

Deze eigenschap is vereist.
avatarConfig.talkingAvatarStyle De stijlnaam van de sprekende avatar.

De ondersteunde avatarstijlen vindt u hier.

Deze eigenschap is vereist voor vooraf gedefinieerde avatar en optioneel voor aangepaste avatar.
avatarConfig.customized Een boolwaarde die aangeeft of de avatar die moet worden gebruikt, is aangepaste avatar of niet. Waar voor aangepaste avatar en onwaar voor vooraf gemaakte avatar.

Deze eigenschap is optioneel en de standaardwaarde is false.
avatarConfig.videoFormat De indeling voor het uitvoervideobestand kan mp4 of webm zijn.

De webm indeling is vereist voor transparante achtergrond.

Deze eigenschap is optioneel en de standaardwaarde is mp4.
avatarConfig.videoCodec De codec voor uitvoervideo kan h264, hevc, vp9 of av1 zijn.

Vp9 is vereist voor transparante achtergrond. De synthesesnelheid zal langzamer zijn met vp9-codec, omdat vp9-codering langzamer is.

Deze eigenschap is optioneel en de standaardwaarde is hevc.
avatarConfig.bitrateKbps De bitrate voor uitvoervideo, die een geheel getal is, met modulekbpleten.

Deze eigenschap is optioneel en de standaardwaarde is 2000.
avatarConfig.videoCrop Met deze eigenschap kunt u de video-uitvoer bijsnijden, wat betekent dat u een rechthoekgebied van de oorspronkelijke video wilt uitvoeren. Deze eigenschap heeft twee velden, waarmee het hoekpunt linksboven en het rechterbenedenhoekpunt van de rechthoek worden gedefinieerd.

Deze eigenschap is optioneel en het standaardgedrag is om de volledige video uit te voeren.
avatarConfig.videoCrop.topLeft Het hoekpunt linksboven van de rechthoek voor het bijsnijden van video's. Deze eigenschap heeft twee velden x en y om de horizontale en verticale positie van het hoekpunt te definiƫren.

Deze eigenschap is vereist wanneer properties.videoCrop is ingesteld.
avatarConfig.videoCrop.bottomRight Het rechterbenedenhoekpunt van de rechthoek voor het bijsnijden van video's. Deze eigenschap heeft twee velden x en y om de horizontale en verticale positie van het hoekpunt te definiƫren.

Deze eigenschap is vereist wanneer properties.videoCrop is ingesteld.
avatarConfig.subtitleType Het type ondertitel voor het avatarvideobestand kan external_file, soft_embeddedof hard_embeddednone.

Deze eigenschap is optioneel en de standaardwaarde is soft_embedded.
avatarConfig.backgroundImage Voeg een achtergrondafbeelding toe met behulp van de avatarConfig.backgroundImage eigenschap. De waarde van de eigenschap moet een URL zijn die verwijst naar de gewenste afbeelding. Deze eigenschap is optioneel.
avatarConfig.backgroundColor Achtergrondkleur van de avatarvideo, een tekenreeks in #RRGGBBAA indeling. In deze tekenreeks: RR, GG, BB en AA betekenen de rode, groene, blauwe en alfakanalen, met een hexadecimaal waardebereik van 00~FF. Alpha-kanaal bepaalt de transparantie, met waarde 00 voor transparant, waarde FF voor niet-transparant en waarde tussen 00 en FF voor semitransparantie.

Deze eigenschap is optioneel en de standaardwaarde is #FFFFFFFF (wit).
outputs.result De locatie van het batchsyntheseresultaatbestand, een videobestand met de gesynthetiseerde avatar.

Deze eigenschap heeft het kenmerk Alleen-lezen.
Eigenschappen. DurationInMilliseconden De duur van de video-uitvoer in milliseconden.

Deze eigenschap heeft het kenmerk Alleen-lezen.

Eigenschappen van batchsynthesetaak

In de volgende tabel worden de eigenschappen van de batchsynthesetaak beschreven.

Eigenschappen Beschrijving
createdDateTime De datum en tijd waarop de batchsynthesetaak is gemaakt.

Deze eigenschap heeft het kenmerk Alleen-lezen.
beschrijving De beschrijving van de batchsynthese.

Deze eigenschap is optioneel.
Id De batchsynthesetaak-id.

Deze eigenschap heeft het kenmerk Alleen-lezen.
lastActionDateTime De meest recente datum en tijd waarop de waarde van de statuseigenschap is gewijzigd.

Deze eigenschap heeft het kenmerk Alleen-lezen.
properties Een gedefinieerde set configuratie-instellingen voor batchsynthese.
properties.destinationContainerUrl De resultaten van batchsynthese kunnen worden opgeslagen in een beschrijfbare Azure-container. Als u geen container-URI met SAS-token (Shared Access Signatures) opgeeft, worden de resultaten opgeslagen in een container die wordt beheerd door Microsoft. SAS met opgeslagen toegangsbeleid wordt niet ondersteund. Wanneer de synthesetaak wordt verwijderd, worden de resultaatgegevens ook verwijderd.

Deze optionele eigenschap wordt niet opgenomen in het antwoord wanneer u de synthesetaak krijgt.
properties.timeToLiveInHours Een duur in uren nadat de synthesetaak is gemaakt, wanneer de syntheseresultaten automatisch worden verwijderd. De maximale time to live is 744 uur. De datum en tijd van automatische verwijdering, voor synthesetaken met de status Geslaagd of Mislukt, wordt berekend als de som van de eigenschappen lastActionDateTime en timeToLive.

Anders kunt u de synthesemethode voor verwijderen aanroepen om de taak eerder te verwijderen.
status De verwerkingsstatus van de batchsynthese.

De status moet worden voortgezet van 'NotStarted' naar 'Wordt uitgevoerd' en ten slotte naar 'Geslaagd' of 'Mislukt'.

Deze eigenschap heeft het kenmerk Alleen-lezen.

Tekst-naar-spraakeigenschappen

In de volgende tabel worden de tekst-naar-spraakeigenschappen beschreven.

Eigenschappen Beschrijving
customVoices Een aangepaste neurale stem is gekoppeld aan een naam en de implementatie-id, zoals deze: "customVoices": {"your-custom-voice-name": "502ac834-6537-4bc3-9fd6-140114daa66d"}

U kunt de stemnaam in uw synthesisConfig.voice naam gebruiken wanneer inputKind deze is ingesteld op 'PlainText', of in SSML-tekst van invoer wanneer inputKind deze is ingesteld op 'SSML'.

Deze eigenschap is vereist voor het gebruik van een aangepaste stem. Als u een aangepaste stem probeert te gebruiken die hier niet is gedefinieerd, retourneert de service een fout.
Ingangen De tekst zonder opmaak of SSML die moet worden gesynthetiseerd.

Wanneer de inputKind is ingesteld op 'PlainText', geeft u tekst zonder opmaak op, zoals hier wordt weergegeven: "invoer": [{"content": "De regenboog heeft zeven kleuren."}]. Wanneer de inputKind is ingesteld op 'SSML', geef tekst op in de Speech Synthesis Markup Language (SSML) zoals hier wordt weergegeven: "inputs": [{"content": "<speak version="1.0"" xml:lang=''en-US'''><voice xml:lang=''en-US'' xml:gender=''Female''name='en-US-AvaMultilationlNeural''>The rainbow has seven colors.'}].

Neem maximaal 1000 tekstobjecten op als u meerdere video-uitvoerbestanden wilt. Hier volgt een voorbeeld van invoertekst die moet worden gesynthetiseerd naar twee video-uitvoerbestanden: "inputs": [{"content": "synthesize this to a file"},{"content": "synthesize this to another file"}].

U hebt geen afzonderlijke tekstinvoer nodig voor nieuwe alinea's. Binnen een van de tekstinvoer (maximaal 1000) kunt u nieuwe alinea's opgeven met behulp van de tekenreeks \r\n (newline). Hier volgt een voorbeeld van invoertekst met twee alinea's die moeten worden gesynthetiseerd naar hetzelfde audiobestand: "inputs": [{"content": "synthesize this to a file\r\nsynthesize this to another paragraph in hetzelfde bestand"}]

Deze eigenschap is vereist wanneer u een nieuwe batchsynthesetaak maakt. Deze eigenschap is niet opgenomen in het antwoord wanneer u de synthesetaak krijgt.
properties.billingDetails Het aantal woorden dat is verwerkt en gefactureerd door customNeural versus neurale (vooraf gemaakte) stemmen.

Deze eigenschap heeft het kenmerk Alleen-lezen.
synthesisConfig De configuratie-instellingen die moeten worden gebruikt voor batchsynthese van tekst zonder opmaak.

Deze eigenschap is alleen van toepassing wanneer inputKind is ingesteld op 'PlainText'.
synthesisConfig.pitch De toonhoogte van de audio-uitvoer.

Zie de tabel Prosody aanpassen in de SSML-documentatie (Speech Synthesis Markup Language) voor informatie over de geaccepteerde waarden. Ongeldige waarden worden genegeerd.

Deze optionele eigenschap is alleen van toepassing wanneer inputKind is ingesteld op 'PlainText'.
synthesisConfig.rate De snelheid van de audio-uitvoer.

Zie de tabel Prosody aanpassen in de SSML-documentatie (Speech Synthesis Markup Language) voor informatie over de geaccepteerde waarden. Ongeldige waarden worden genegeerd.

Deze optionele eigenschap is alleen van toepassing wanneer inputKind is ingesteld op 'PlainText'.
synthesisConfig.style Voor sommige stemmen kunt u de spreekstijl aanpassen om verschillende emoties uit te drukken, zoals vrolijkheid, empathie en kalmte. U kunt de stem optimaliseren voor verschillende scenario's, zoals klantenservice, newscast en spraakassistent.

Zie spraakstijlen en -rollen voor informatie over de beschikbare stijlen per stem.

Deze optionele eigenschap is alleen van toepassing wanneer inputKind is ingesteld op 'PlainText'.
synthesisConfig.voice De stem die de audio-uitvoer spreekt.

Zie taal- en spraakondersteuning voor informatie over de beschikbare vooraf samengestelde neurale stemmen. Als u een aangepaste stem wilt gebruiken, moet u een geldige aangepaste spraak- en implementatie-id-toewijzing opgeven in de eigenschap customVoices.

Deze eigenschap is vereist wanneer inputKind is ingesteld op 'PlainText'.
synthesisConfig.volume Het volume van de audio-uitvoer.

Zie de tabel Prosody aanpassen in de SSML-documentatie (Speech Synthesis Markup Language) voor informatie over de geaccepteerde waarden. Ongeldige waarden worden genegeerd.

Deze optionele eigenschap is alleen van toepassing wanneer inputKind is ingesteld op 'PlainText'.
inputKind Hiermee wordt aangegeven of de eigenschap tekst zonder opmaak of SSML moet zijn. De mogelijke hoofdlettergevoelige waarden zijn 'PlainText' en 'SSML'. Wanneer de inputKind is ingesteld op PlainText, moet u ook de voice-eigenschap synthesisConfig instellen.

Deze eigenschap is vereist.

De achtergrond bewerken

De avatar batchsynthese-API biedt momenteel geen ondersteuning voor het instellen van achtergrondvideo's; het ondersteunt alleen statische achtergrondafbeeldingen. Als u echter een achtergrond voor uw video wilt toevoegen tijdens de postproductie, kunt u video's genereren met een transparante achtergrond.

Als u een statische achtergrondafbeelding wilt instellen, gebruikt u de avatarConfig.backgroundImage eigenschap en geeft u een URL op die verwijst naar de gewenste afbeelding. Daarnaast kunt u de achtergrondkleur van de avatarvideo instellen met behulp van de avatarConfig.backgroundColor eigenschap.

Als u een transparante achtergrondvideo wilt genereren, moet u de volgende eigenschappen instellen op de vereiste waarden in de batchsyntheseaanvraag:

Eigenschappen Vereiste waarden voor achtergrondtransparantie
properties.videoFormat webm
properties.videoCodec vp9
properties.backgroundColor #000000000 (of transparent)

Clipchamp is een voorbeeld van een videobewerkingsprogramma dat de transparante achtergrondvideo ondersteunt die wordt gegenereerd door de batchsynthese-API.

Sommige videobewerkingssoftware ondersteunt de webm indeling niet rechtstreeks en biedt alleen ondersteuning voor .mov transparante achtergrondvideo-invoer zoals Adobe Premiere Pro. In dergelijke gevallen moet u eerst de video-indeling converteren naar webm .mov een hulpprogramma zoals FFMPEG.

FFMPEG-opdrachtregel:

ffmpeg -vcodec libvpx-vp9 -i <input.webm> -vcodec png -pix_fmt rgba metadata:s:v:0 alpha_mode="1" <output.mov>

FFMPEG kan worden gedownload van ffmpeg.org. Vervang <input.webm> en <output.mov> door uw lokale pad en bestandsnaam op de opdrachtregel.

Volgende stappen