Delen via


Wat is aangepaste tekst voor spraak-avatar?

Met aangepaste tekst-naar-spraak-avatar kunt u een aangepaste, een-op-een-soort synthetische avatar voor uw toepassing maken. Met aangepaste tekst naar spraak-avatar kunt u een unieke en natuurlijk uitziende avatar bouwen voor uw product of merk door video-opnamegegevens van uw geselecteerde acteurs te bieden. Als u ook een aangepaste neurale stem voor dezelfde actor maakt en deze gebruikt als de stem van de avatar, is de avatar nog realistischer.

Belangrijk

Aangepaste tekst-naar-spraak-avatartoegang is beperkt op basis van geschiktheids- en gebruikscriteria. Vraag toegang aan op het intakeformulier.

Hoe werkt het?

Het maken van een aangepaste tekst naar spraak-avatar vereist ten minste 10 minuten video-opname van het avatartalent als trainingsgegevens en u moet eerst toestemming krijgen van het acteurstalent.

Belangrijk

Momenteel worden aangepaste tekst-naar-spraak-avatars handmatig uitgevoerd voor gegevensverwerking en modeltraining.

Voordat u aan de slag gaat, zijn hier enkele overwegingen:

Uw use-case: Gebruikt u de avatar om video-inhoud te maken, zoals trainingsmateriaal, productintroductie of gebruik de avatar als een virtuele verkoper in een realtime gesprek met uw klanten? Er zijn enkele opnamevereisten voor verschillende use cases.

Het uiterlijk van de avatar: De aangepaste tekst naar spraak-avatar ziet er hetzelfde uit als het avatartalent in de trainingsgegevens en we ondersteunen het aanpassen van het uiterlijk van het avatarmodel, zoals kleding, kapsel, enzovoort. Dus als uw toepassing meerdere stijlen van dezelfde avatar vereist, moet u trainingsgegevens voorbereiden voor elke stijl, omdat elke stijl van een avatar wordt beschouwd als één avatarmodel.

De stem van de avatar: De aangepaste tekst naar spraak avatar kan werken met zowel vooraf gemaakte neurale stemmen als aangepaste neurale stemmen. Het maken van een aangepaste neurale stem voor het avatartalent en het gebruik ervan met de avatar zal de naturaliteit van de avatarervaring aanzienlijk vergroten.

Hier volgt een overzicht van de stappen voor het maken van een aangepaste tekst naar spraak-avatar:

  1. Toestemmingsvideo ophalen: een video-opname van de toestemmingsverklaring verkrijgen. De toestemmingsverklaring is een video-opname van het avatartalent dat een verklaring leest, waardoor toestemming wordt gegeven voor het gebruik van hun afbeeldings- en spraakgegevens om een aangepaste tekst te trainen naar het avatarmodel voor spraak.

  2. Trainingsgegevens voorbereiden: Zorg ervoor dat de video-opname de juiste indeling heeft. Het is een goed idee om de video-opname te maken in een professionele video-opnamestudio om een schone achtergrondafbeelding te krijgen. De kwaliteit van de resulterende avatar hangt sterk af van de opgenomen video die wordt gebruikt voor training. Factoren zoals spreeksnelheid, lichaamspostuur, gezichtsuitdrukking, handbewegingen, consistentie in de positie van de acteur en belichting van de video-opname zijn essentieel om een aantrekkelijke aangepaste tekst te maken voor spraak-avatar.

  3. Het avatarmodel trainen: we beginnen met het trainen van de aangepaste tekst naar het spraakmodel na het verifiëren van de toestemmingsverklaring van het avatartalent. Deze stap wordt momenteel handmatig uitgevoerd door Microsoft. U ontvangt een melding nadat het model is getraind.

  4. Uw avatarmodel implementeren en gebruiken in uw APPs

Onderdelenreeks

Het aangepaste tekst-naar-spraak-avatarmodel bevat drie onderdelen: text analyzer, de tekst naar spraak audiosynthese en tekst naar spraak avatar video renderer.

  • Als u een avatar-videobestand wilt genereren of streamt met het avatarmodel, wordt tekst eerst ingevoerd in de tekstanalyse, die de uitvoer in de vorm van een fonemereeks levert.
  • De audiosynthesesynthese van de spraakaudio voor invoertekst en deze twee delen worden geleverd door tekst naar spraak of aangepaste neurale spraakmodellen.
  • Ten slotte voorspelt het neurale tekst-naar-spraak-avatarmodel de afbeelding van lipsynchronisatie met de spraakaudio, zodat de synthetische video wordt gegenereerd.

Schermopname van het weergeven van een overzicht van de aangepaste tekst naar de avatarwerkstroom voor spraak.

De neurale tekst naar spraak avatar-modellen worden getraind met behulp van diepe neurale netwerken op basis van de opnamevoorbeelden van menselijke video's in verschillende talen. Alle talen van vooraf samengestelde stemmen en aangepaste neurale stemmen kunnen worden ondersteund.

Aangepaste spraak en aangepaste tekst naar spraak-avatar

De aangepaste tekst naar spraak-avatar kan werken met een vooraf samengestelde neurale stem of aangepaste neurale stem als de stem van de avatar. Zie Avatar-stem en -taal voor meer informatie.

Aangepaste neurale spraak en aangepaste tekst naar spraak-avatar zijn afzonderlijke functies. U kunt ze onafhankelijk of samen gebruiken. Als u ervoor kiest om ze samen te gebruiken, moet u een aangepaste neurale stem en aangepaste tekst afzonderlijk op spraak avatar toepassen en worden er afzonderlijke kosten in rekening gebracht voor aangepaste neurale spraak en aangepaste tekst naar spraak avatar. Zie de pagina met prijzen voor meer informatie. Als u van plan bent om aangepaste neurale spraak te gebruiken met een tekst-naar-spraak-avatar, moet u uw aangepaste neurale spraakmodel implementeren of kopiëren naar een van de door avatar ondersteunde regio's.

Volgende stappen