Delen via


Wat is aangepaste tekst voor spraak-avatar?

Met aangepaste tekst-naar-spraak-avatar kunt u een aangepaste, een-op-een-soort synthetische avatar voor uw toepassing maken. Met aangepaste tekst naar spraak avatar kunt u een unieke en natuurlijke avatar bouwen voor uw product of merk. De avatar is nog realistischer als u ook een professionele stem of stemsynchronisatie gebruikt voor avatar voor dezelfde acteur.

Er zijn twee typen aangepaste tekst-naar-spraak-avatar:

  • Aangepaste video-avatar: wordt gemaakt door uw opgegeven video-opnamegegevens van uw geselecteerde acteurs.
  • Aangepaste foto-avatar: wordt gemaakt door uw opgegeven afbeelding.

Belangrijk

Aangepaste tekst-naar-spraak-avatartoegang is beperkt op basis van geschiktheids- en gebruikscriteria. Vraag toegang aan op het intakeformulier.

Belangrijk

Foto avatar (preview) en aangepaste foto avatar (preview) zijn gelicentieerd voor u als onderdeel van uw Azure-abonnement en zijn onderhevig aan voorwaarden die van toepassing zijn op 'Previews' in de Microsoft-productvoorwaarden en de Microsoft Products and Services Data Protection Addendum("DPA"), evenals de Microsoft Ative AI Services Preview-voorwaarden in de aanvullende gebruiksvoorwaarden voor Microsoft Azure Previews.

Toegang tot aangepaste foto-avatar (preview), die deel uitmaakt van aangepaste tekst naar spraak-avatar, is beperkt op basis van geschiktheids- en gebruikscriteria. Hier vindt u meer informatie en vraagt u toegang aan op het intakeformulier.

Hoe werkt het?

Het maken van een aangepaste video-avatar vereist ten minste 10 minuten video-opname van het avatartalent als trainingsgegevens en u moet eerst toestemming krijgen van het acteurstalent.

Voor het maken van een aangepaste foto-avatar is alleen een foto van het teken vereist. Als de foto van een echte persoon is, moet u eerst hun toestemming krijgen.

Het aangepaste avatarmodel kan het volgende ondersteunen:

Voordat u aan de slag gaat, zijn hier enkele overwegingen:

Uw use-case: Wilt u de avatar gebruiken om video-inhoud te maken, zoals trainingsmateriaal of een productintroductie? Wilt u de avatar gebruiken als een virtuele verkoper in een realtime gesprek met uw klanten? Er zijn enkele opnamevereisten voor verschillende use cases.

Het uiterlijk van de avatar: De aangepaste tekst naar spraak-avatar ziet er hetzelfde uit als het avatartalent in de trainingsgegevens en we ondersteunen het aanpassen van het uiterlijk van het avatarmodel, zoals kleding, kapsel, enzovoort. Dus als uw toepassing meerdere stijlen van dezelfde avatar vereist, moet u trainingsgegevens voorbereiden voor elke stijl, omdat elke stijl van een avatar wordt beschouwd als één avatarmodel.

De stem van de avatar: De aangepaste tekst naar spraak-avatar kan werken met standaardstem, professionele stem of spraaksynchronisatie voor avatar.

  • Spraaksynchronisatie voor avatar: een synthetische stem die lijkt op de stem van het avatartalent wordt getraind naast de aangepaste avatar die audio uit de trainingsvideo gebruikt. De spraaksynchronisatie voor avatar wordt momenteel alleen ondersteund voor aangepaste video-avatars.
  • Professionele stem: verfijn een professionele stem met meer trainingsgegevens, waardoor u een premium spraakervaring voor uw avatar verleent, waaronder natuurlijke gesprekken, meerdere stijlen en meertalige ondersteuning.

Overzicht van de stappen voor het maken van een aangepaste video-avatar:

  1. Ontvang toestemmingsvideo. Verkrijg een video-opname van het talent dat een toestemmingsverklaring leest. Ze moeten toestemming geven voor het gebruik van hun afbeeldingen en spraakgegevens om een gepersonaliseerd tekst-naar-spraak avatarmodel te trainen. Als spraaksynchronisatie voor avatar naar verwachting wordt getraind met een aangepast video avatarmodel, moeten ze ook toestemming geven voor het gebruik van hun spraakgegevens om een synthetische versie van hun stem te trainen.

  2. Trainingsgegevens voorbereiden. Zorg ervoor dat de video-opname de juiste indeling heeft. Het is een goed idee om de video-opname te maken in een professionele video-opnamestudio om een schone achtergrondafbeelding te krijgen. De kwaliteit van de resulterende avatar hangt sterk af van de opgenomen video die wordt gebruikt voor training. Factoren zoals spreeksnelheid, lichaamspostuur, gezichtsuitdrukking, handbewegingen, consistentie in de positie van de acteur en belichting van de video-opname zijn essentieel om een aantrekkelijke aangepaste tekst te maken voor spraak-avatar. Zie hoe u trainingsgegevens voorbereidt voor meer informatie.

  3. Train het avatarmodel. Zodra u de gegevens klaar hebt, uploadt u uw gegevens naar de aangepaste avatarportal en begint u met het trainen van uw model. Verificatie van toestemming wordt uitgevoerd tijdens de training. Zorg ervoor dat u toegang hebt tot de functie aangepaste tekst naar spraak-avatar voordat u een project kunt maken.

  4. Implementeer en gebruik uw avatarmodel in uw toepassingen.

Overzicht van de stappen voor het maken van een aangepaste foto-avatar:

Momenteel vereist de aangepaste fototraining voor avatars een handmatig offline proces. Gebruikers kunnen de korte stappen voor het trainen hieronder begrijpen:

  1. Trainingsgegevens voorbereiden. Een aangepaste foto-avatar kan worden getraind met behulp van de foto van een echte persoon of een virtueel menselijk beeld. Zie Aangepaste foto-avatar maken voor meer informatie.

  2. Ontvang toestemmingsvideo. Verkrijg een video van het talent dat een toestemmingsverklaring leest. Dit is vereist bij het trainen van een foto-avatar van een echte persoonsfoto. Ze moeten toestemming geven voor het gebruik van hun afbeelding om een aangepast avatarmodel voor foto's te trainen.

  3. Stel het avatarmodel in. De aangepaste foto avatar training en implementatie worden verwerkt via een handmatig proces.

Onderdelenreeks

Het aangepaste tekst-naar-spraak-avatarmodel bevat drie onderdelen: text analyzer, de tekst naar spraak audiosynthese en tekst naar spraak avatar video renderer.

  • Als u een avatar-videobestand wilt genereren of streamt met het avatarmodel, wordt tekst eerst ingevoerd in de tekstanalyse, die de uitvoer in de vorm van een fonemereeks levert.
  • De audiosynthesizer synthetiseert de spraakaudio voor invoertekst, en deze twee delen worden geleverd door standaard- of aangepaste spraakmodellen.
  • Ten slotte voorspelt het model van de tekst naar spraak avatar de afbeelding van lipsynchronisatie met de spraakaudio, zodat de synthetische video wordt gegenereerd.

Schermopname van het weergeven van een overzicht van de aangepaste tekst naar de avatarwerkstroom voor spraak.

De tekst-naar-spraak-avatarmodellen worden getraind met behulp van deep neurale netwerken op basis van de opnamevoorbeelden van menselijke video's in verschillende talen. Alle talen van standaardstemmen en aangepaste stemmen kunnen worden ondersteund.

Beschikbare locaties

Zie de tabel Speech-serviceregio's voor de huidige lijst met regio's die ondersteuning bieden voor aangepaste avatartraining en -gebruik.

Aangepaste spraak en aangepaste tekst naar spraak-avatar

Aangepaste spraak en aangepaste tekst naar spraak-avatar zijn afzonderlijke functies. U kunt ze onafhankelijk of samen gebruiken. Als u ook een professionele stem voor de acteur maakt, kan de avatar zeer realistisch zijn.

De aangepaste tekst naar spraak-avatar kan werken met een standaardstem of aangepaste stem als de stem van de avatar. Zie Avatar-stem en -taal voor meer informatie.

Er zijn twee soorten aangepaste stem voor een aangepaste avatar:

  • Spraaksynchronisatie voor avatar: Wanneer u de stemsynchronisatie inschakelt voor avatar-opties tijdens de training voor aangepaste video avatars, wordt een synthetische stemmodel met de gelijkenis van het avatartalent gelijktijdig getraind met de avatar. Deze stem is exclusief gekoppeld aan de aangepaste video-avatar en kan niet onafhankelijk worden gebruikt. Voor een overzicht van ondersteunde regio's, zie de tabel met regio's van de Speech-service.
  • Professionele stem: U kunt een professionele stem verfijnen. Professionele stemafstemming en aangepaste tekst naar spraak-avatar zijn afzonderlijke functies. U kunt ze onafhankelijk of samen gebruiken. Als u ervoor kiest om ze samen te gebruiken, moet u aanvragen voor professionele stemafstemming en aangepaste tekst op spraak-avatar afzonderlijk en worden er afzonderlijke kosten in rekening gebracht voor professionele stemafstemming en aangepaste tekst naar spraak-avatar. Zie voor meer informatie de pagina met prijzen. Als u van plan bent om professionele stemafstemming te gebruiken met een tekst-naar-spraak-avatar, moet u uw aangepaste spraakmodel implementeren of kopiëren naar een van de door avatar ondersteunde regio's.

Als u een professionele stem afstemt en deze samen met de aangepaste avatar wilt gebruiken, let dan op de volgende punten:

  • Zorg ervoor dat het aangepaste spraakeindpunt is gemaakt in dezelfde Microsoft Foundry-resource als het aangepaste avatareindpunt. Raadpleeg, indien nodig, uw professionele spraakmodel trainen om het aangepaste spraakmodel te kopiëren naar dezelfde Microsoft Foundry-resource als het aangepaste avatar-eindpunt.
  • U kunt de aangepaste spraakoptie zien in de stemmenlijst van de pagina voor het genereren van avatar-inhoud en instellingen voor live chatstemmen.
  • Als u batchsynthese gebruikt voor avatar-API, voegt u de eigenschap toe om de "customVoices" implementatie-id van het aangepaste spraakmodel te koppelen aan de naam van de stem in de aanvraag. Zie de tekst-naar-spraakeigenschappen voor meer informatie.
  • Als u realtime synthese gebruikt voor avatar-API, raadpleegt u onze voorbeeldcode op GitHub om de aangepaste stem in te stellen.