Batchsynthese-eigenschappen voor tekst-naar-spraak-avatar
Batchsynthese-eigenschappen kunnen worden gegroepeerd als: avatar-gerelateerde eigenschappen, eigenschappen met betrekking tot batchtaken en tekst naar spraakgerelateerde eigenschappen, die worden beschreven in de volgende tabellen.
Sommige eigenschappen in JSON-indeling zijn vereist wanneer u een nieuwe batchsynthesetaak maakt. Andere eigenschappen zijn optioneel. Het antwoord van de batchsynthese bevat andere eigenschappen voor informatie over de synthesestatus en resultaten. De eigenschap bevat bijvoorbeeld outputs.result
de locatie van waaruit u een videobestand met de avatarvideo kunt downloaden. Hier outputs.summary
kunt u toegang krijgen tot de samenvattings- en foutopsporingsgegevens.
Avatareigenschappen
In de volgende tabel worden de avatareigenschappen beschreven.
Eigenschappen | Beschrijving |
---|---|
avatarConfig.talkingAvatarCharacter | De naam van het sprekende avatar. De ondersteunde avatartekens vindt u hier. Deze eigenschap is vereist. |
avatarConfig.talkingAvatarStyle | De stijlnaam van de sprekende avatar. De ondersteunde avatarstijlen vindt u hier. Deze eigenschap is vereist voor vooraf gedefinieerde avatar en optioneel voor aangepaste avatar. |
avatarConfig.customized | Een boolwaarde die aangeeft of de avatar die moet worden gebruikt, is aangepaste avatar of niet. Waar voor aangepaste avatar en onwaar voor vooraf gemaakte avatar. Deze eigenschap is optioneel en de standaardwaarde is false . |
avatarConfig.videoFormat | De indeling voor het uitvoervideobestand kan mp4 of webm zijn. De webm indeling is vereist voor transparante achtergrond.Deze eigenschap is optioneel en de standaardwaarde is mp4. |
avatarConfig.videoCodec | De codec voor uitvoervideo kan h264, hevc, vp9 of av1 zijn. Vp9 is vereist voor transparante achtergrond. De synthesesnelheid zal langzamer zijn met vp9-codec, omdat vp9-codering langzamer is. Deze eigenschap is optioneel en de standaardwaarde is hevc. |
avatarConfig.bitrateKbps | De bitrate voor uitvoervideo, die een geheel getal is, met modulekbpleten. Deze eigenschap is optioneel en de standaardwaarde is 2000. |
avatarConfig.videoCrop | Met deze eigenschap kunt u de video-uitvoer bijsnijden, wat betekent dat u een rechthoekgebied van de oorspronkelijke video wilt uitvoeren. Deze eigenschap heeft twee velden, waarmee het hoekpunt linksboven en het rechterbenedenhoekpunt van de rechthoek worden gedefinieerd. Deze eigenschap is optioneel en het standaardgedrag is om de volledige video uit te voeren. |
avatarConfig.videoCrop.topLeft | Het hoekpunt linksboven van de rechthoek voor het bijsnijden van video's. Deze eigenschap heeft twee velden x en y om de horizontale en verticale positie van het hoekpunt te definiƫren. Deze eigenschap is vereist wanneer properties.videoCrop is ingesteld. |
avatarConfig.videoCrop.bottomRight | Het rechterbenedenhoekpunt van de rechthoek voor het bijsnijden van video's. Deze eigenschap heeft twee velden x en y om de horizontale en verticale positie van het hoekpunt te definiƫren. Deze eigenschap is vereist wanneer properties.videoCrop is ingesteld. |
avatarConfig.subtitleType | Het type ondertitel voor het avatarvideobestand kan external_file , soft_embedded of hard_embedded none .Deze eigenschap is optioneel en de standaardwaarde is soft_embedded . |
avatarConfig.backgroundImage | Voeg een achtergrondafbeelding toe met behulp van de avatarConfig.backgroundImage eigenschap. De waarde van de eigenschap moet een URL zijn die verwijst naar de gewenste afbeelding. Deze eigenschap is optioneel. |
avatarConfig.backgroundColor | Achtergrondkleur van de avatarvideo, een tekenreeks in #RRGGBBAA indeling. In deze tekenreeks: RR, GG, BB en AA betekenen de rode, groene, blauwe en alfakanalen, met een hexadecimaal waardebereik van 00~FF. Alpha-kanaal bepaalt de transparantie, met waarde 00 voor transparant, waarde FF voor niet-transparant en waarde tussen 00 en FF voor semitransparantie. Deze eigenschap is optioneel en de standaardwaarde is #FFFFFFFF (wit). |
outputs.result | De locatie van het batchsyntheseresultaatbestand, een videobestand met de gesynthetiseerde avatar. Deze eigenschap heeft het kenmerk Alleen-lezen. |
Eigenschappen. DurationInMilliseconden | De duur van de video-uitvoer in milliseconden. Deze eigenschap heeft het kenmerk Alleen-lezen. |
Eigenschappen van batchsynthesetaak
In de volgende tabel worden de eigenschappen van de batchsynthesetaak beschreven.
Eigenschappen | Beschrijving |
---|---|
createdDateTime | De datum en tijd waarop de batchsynthesetaak is gemaakt. Deze eigenschap heeft het kenmerk Alleen-lezen. |
beschrijving | De beschrijving van de batchsynthese. Deze eigenschap is optioneel. |
Id | De batchsynthesetaak-id. Deze eigenschap heeft het kenmerk Alleen-lezen. |
lastActionDateTime | De meest recente datum en tijd waarop de waarde van de statuseigenschap is gewijzigd. Deze eigenschap heeft het kenmerk Alleen-lezen. |
properties | Een gedefinieerde set configuratie-instellingen voor batchsynthese. |
properties.destinationContainerUrl | De resultaten van batchsynthese kunnen worden opgeslagen in een beschrijfbare Azure-container. Als u geen container-URI met SAS-token (Shared Access Signatures) opgeeft, worden de resultaten opgeslagen in een container die wordt beheerd door Microsoft. SAS met opgeslagen toegangsbeleid wordt niet ondersteund. Wanneer de synthesetaak wordt verwijderd, worden de resultaatgegevens ook verwijderd. Deze optionele eigenschap wordt niet opgenomen in het antwoord wanneer u de synthesetaak krijgt. |
properties.timeToLiveInHours | Een duur in uren nadat de synthesetaak is gemaakt, wanneer de syntheseresultaten automatisch worden verwijderd. De maximale time to live is 744 uur. De datum en tijd van automatische verwijdering, voor synthesetaken met de status Geslaagd of Mislukt, wordt berekend als de som van de eigenschappen lastActionDateTime en timeToLive. Anders kunt u de synthesemethode voor verwijderen aanroepen om de taak eerder te verwijderen. |
status | De verwerkingsstatus van de batchsynthese. De status moet worden voortgezet van 'NotStarted' naar 'Wordt uitgevoerd' en ten slotte naar 'Geslaagd' of 'Mislukt'. Deze eigenschap heeft het kenmerk Alleen-lezen. |
Tekst-naar-spraakeigenschappen
In de volgende tabel worden de tekst-naar-spraakeigenschappen beschreven.
Eigenschappen | Beschrijving |
---|---|
customVoices | Een aangepaste neurale stem is gekoppeld aan een naam en de implementatie-id, zoals deze: "customVoices": {"your-custom-voice-name": "502ac834-6537-4bc3-9fd6-140114daa66d"} U kunt de stemnaam in uw synthesisConfig.voice naam gebruiken wanneer inputKind deze is ingesteld op 'PlainText', of in SSML-tekst van invoer wanneer inputKind deze is ingesteld op 'SSML'.Deze eigenschap is vereist voor het gebruik van een aangepaste stem. Als u een aangepaste stem probeert te gebruiken die hier niet is gedefinieerd, retourneert de service een fout. |
Ingangen | De tekst zonder opmaak of SSML die moet worden gesynthetiseerd. Wanneer de inputKind is ingesteld op 'PlainText', geeft u tekst zonder opmaak op, zoals hier wordt weergegeven: "invoer": [{"content": "De regenboog heeft zeven kleuren."}]. Wanneer de inputKind is ingesteld op 'SSML', geef tekst op in de Speech Synthesis Markup Language (SSML) zoals hier wordt weergegeven: "inputs": [{"content": "<speak version="1.0"" xml:lang=''en-US'''><voice xml:lang=''en-US'' xml:gender=''Female''name='en-US-AvaMultilationlNeural''>The rainbow has seven colors.'}]. Neem maximaal 1000 tekstobjecten op als u meerdere video-uitvoerbestanden wilt. Hier volgt een voorbeeld van invoertekst die moet worden gesynthetiseerd naar twee video-uitvoerbestanden: "inputs": [{"content": "synthesize this to a file"},{"content": "synthesize this to another file"}]. U hebt geen afzonderlijke tekstinvoer nodig voor nieuwe alinea's. Binnen een van de tekstinvoer (maximaal 1000) kunt u nieuwe alinea's opgeven met behulp van de tekenreeks \r\n (newline). Hier volgt een voorbeeld van invoertekst met twee alinea's die moeten worden gesynthetiseerd naar hetzelfde audiobestand: "inputs": [{"content": "synthesize this to a file\r\nsynthesize this to another paragraph in hetzelfde bestand"}] Deze eigenschap is vereist wanneer u een nieuwe batchsynthesetaak maakt. Deze eigenschap is niet opgenomen in het antwoord wanneer u de synthesetaak krijgt. |
properties.billingDetails | Het aantal woorden dat is verwerkt en gefactureerd door customNeural versus neurale (vooraf gemaakte) stemmen. Deze eigenschap heeft het kenmerk Alleen-lezen. |
synthesisConfig | De configuratie-instellingen die moeten worden gebruikt voor batchsynthese van tekst zonder opmaak. Deze eigenschap is alleen van toepassing wanneer inputKind is ingesteld op 'PlainText'. |
synthesisConfig.pitch | De toonhoogte van de audio-uitvoer. Zie de tabel Prosody aanpassen in de SSML-documentatie (Speech Synthesis Markup Language) voor informatie over de geaccepteerde waarden. Ongeldige waarden worden genegeerd. Deze optionele eigenschap is alleen van toepassing wanneer inputKind is ingesteld op 'PlainText'. |
synthesisConfig.rate | De snelheid van de audio-uitvoer. Zie de tabel Prosody aanpassen in de SSML-documentatie (Speech Synthesis Markup Language) voor informatie over de geaccepteerde waarden. Ongeldige waarden worden genegeerd. Deze optionele eigenschap is alleen van toepassing wanneer inputKind is ingesteld op 'PlainText'. |
synthesisConfig.style | Voor sommige stemmen kunt u de spreekstijl aanpassen om verschillende emoties uit te drukken, zoals vrolijkheid, empathie en kalmte. U kunt de stem optimaliseren voor verschillende scenario's, zoals klantenservice, newscast en spraakassistent. Zie spraakstijlen en -rollen voor informatie over de beschikbare stijlen per stem. Deze optionele eigenschap is alleen van toepassing wanneer inputKind is ingesteld op 'PlainText'. |
synthesisConfig.voice | De stem die de audio-uitvoer spreekt. Zie taal- en spraakondersteuning voor informatie over de beschikbare vooraf samengestelde neurale stemmen. Als u een aangepaste stem wilt gebruiken, moet u een geldige aangepaste spraak- en implementatie-id-toewijzing opgeven in de eigenschap customVoices. Deze eigenschap is vereist wanneer inputKind is ingesteld op 'PlainText'. |
synthesisConfig.volume | Het volume van de audio-uitvoer. Zie de tabel Prosody aanpassen in de SSML-documentatie (Speech Synthesis Markup Language) voor informatie over de geaccepteerde waarden. Ongeldige waarden worden genegeerd. Deze optionele eigenschap is alleen van toepassing wanneer inputKind is ingesteld op 'PlainText'. |
inputKind | Hiermee wordt aangegeven of de eigenschap tekst zonder opmaak of SSML moet zijn. De mogelijke hoofdlettergevoelige waarden zijn 'PlainText' en 'SSML'. Wanneer de inputKind is ingesteld op PlainText, moet u ook de voice-eigenschap synthesisConfig instellen. Deze eigenschap is vereist. |
De achtergrond bewerken
De avatar batchsynthese-API biedt momenteel geen ondersteuning voor het instellen van achtergrondvideo's; het ondersteunt alleen statische achtergrondafbeeldingen. Als u echter een achtergrond voor uw video wilt toevoegen tijdens de postproductie, kunt u video's genereren met een transparante achtergrond.
Als u een statische achtergrondafbeelding wilt instellen, gebruikt u de avatarConfig.backgroundImage
eigenschap en geeft u een URL op die verwijst naar de gewenste afbeelding. Daarnaast kunt u de achtergrondkleur van de avatarvideo instellen met behulp van de avatarConfig.backgroundColor
eigenschap.
Als u een transparante achtergrondvideo wilt genereren, moet u de volgende eigenschappen instellen op de vereiste waarden in de batchsyntheseaanvraag:
Eigenschappen | Vereiste waarden voor achtergrondtransparantie |
---|---|
properties.videoFormat | webm |
properties.videoCodec | vp9 |
properties.backgroundColor | #000000000 (of transparent ) |
Clipchamp is een voorbeeld van een videobewerkingsprogramma dat de transparante achtergrondvideo ondersteunt die wordt gegenereerd door de batchsynthese-API.
Sommige videobewerkingssoftware ondersteunt de webm
indeling niet rechtstreeks en biedt alleen ondersteuning voor .mov
transparante achtergrondvideo-invoer zoals Adobe Premiere Pro. In dergelijke gevallen moet u eerst de video-indeling converteren naar webm
.mov
een hulpprogramma zoals FFMPEG.
FFMPEG-opdrachtregel:
ffmpeg -vcodec libvpx-vp9 -i <input.webm> -vcodec png -pix_fmt rgba metadata:s:v:0 alpha_mode="1" <output.mov>
FFMPEG kan worden gedownload van ffmpeg.org. Vervang <input.webm>
en <output.mov>
door uw lokale pad en bestandsnaam op de opdrachtregel.