Share via


Vad är anpassad text till talavatar? (förhandsversion)

Kommentar

Text till tal-avatar är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och rekommenderas inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

Med anpassad text till tal-avatar kan du skapa en anpassad, unik syntetisk talande avatar för ditt program. Med anpassad text till tal-avatar kan du skapa en unik och naturlig avatar för din produkt eller ditt varumärke genom att tillhandahålla videoinspelningsdata för dina valda skådespelare. Om du också skapar en anpassad neural röst för samma skådespelare och använder den som avatarens röst blir avataren ännu mer realistisk.

Viktigt!

Åtkomst till anpassad text till talavatar är begränsad baserat på kriterier för berättigande och användning. Begär åtkomst i intagsformuläret.

Hur fungerar det?

Att skapa en anpassad text till talavatar kräver minst 10 minuters videoinspelning av avatartalangen som träningsdata, och du måste först få samtycke från skådespelarens talang.

Viktigt!

För närvarande utförs databearbetningen och modellträningen manuellt för anpassad text till tal-avatar.

Innan du börjar bör du tänka på följande:

Ditt användningsfall: Kommer du att använda avataren för att skapa videoinnehåll som träningsmaterial, produktintroduktion eller använda avataren som virtuell säljare i en realtidskonversation med dina kunder? Det finns vissa inspelningskrav för olika användningsfall.

Utseendet på avataren: Den anpassade texten till tal avatar ser likadan ut som avatar talang i träningsdata, och vi stöder inte anpassning av utseendet på avatar modell, såsom kläder, frisyr, etc. Så om ditt program kräver flera stilar av samma avatar bör du förbereda träningsdata för varje stil, eftersom varje stil i en avatar kommer att betraktas som en enda avatarmodell.

Avatarens röst: Den anpassade text till tal-avataren kan fungera med både fördefinierade neurala röster och anpassade neurala röster. Att skapa en anpassad neural röst för avatartalangen och använda den med avataren kommer avsevärt att öka avatarupplevelsens naturlighet.

Här är en översikt över stegen för att skapa en anpassad text till tal-avatar:

  1. Hämta samtyckesvideo: Hämta en videoinspelning av medgivandeutdraget. Medgivandeförklaringen är en videoinspelning av avatartalangen som läser ett uttalande, vilket ger samtycke till användningen av deras bild- och röstdata för att träna en anpassad text till talavatarmodell.

  2. Förbered träningsdata: Kontrollera att videoinspelningen är i rätt format. Det är en bra idé att spela in videoinspelningen i en videoinspelningsstudio av professionell kvalitet för att få en ren bakgrundsbild. Kvaliteten på den resulterande avataren är starkt beroende av den inspelade videon som används för träning. Faktorer som talfrekvens, kroppshållning, ansiktsuttryck, handgester, konsekvens i skådespelarens position och belysning av videoinspelningen är viktiga för att skapa en engagerande anpassad text till tal avatar.

  3. Träna avatarmodellen: Vi börjar träna den anpassade texten till talmodellen efter att ha verifierat samtyckesuttryck för avatartalangen. I förhandsversionen av den här tjänsten utförs det här steget manuellt av Microsoft. Du meddelas när modellen har tränats.

  4. Distribuera och använda din avatarmodell i dina APP:er

Komponentsekvens

Den anpassade modellen för text till tal-avatar innehåller tre komponenter: textanalys, text till tal ljudsyntes och text till tal avatar video renderare.

  • För att generera en avatarvideofil eller dataström med avatarmodellen matas text först in i textanalysatorn, vilket ger utdata i form av en fonetiksekvens.
  • Ljudsyntesen syntetiserar talljudet för indatatext och dessa två delar tillhandahålls av text till tal eller anpassade neurala röstmodeller.
  • Slutligen förutsäger modellen för neural text till tal avatar bilden av läppsynkronisering med talljudet, så att den syntetiska videon genereras.

Screenshot of displaying an overview of the custom text to speech avatar workflow.

Modeller för neural text-till-tal-avatar tränas med hjälp av djupa neurala nätverk baserat på inspelningsexempel på mänskliga videor på olika språk. Alla språk med fördefinierade röster och anpassade neurala röster kan stödjas.

Anpassad röst och anpassad text till tal-avatar

Den anpassade text-till-tal-avataren kan fungera med en fördefinierad neural röst eller anpassad neural röst som avatarens röst. Mer information finns i Avatar röst och språk.

Anpassad neural röst och anpassad text till tal-avatar är separata funktioner. Du kan använda dem oberoende av varandra eller tillsammans. Om du planerar att även använda anpassad neural röst med en text-till-tal-avatar måste du distribuera eller kopiera din anpassade neurala röstmodell till någon av de avatarer som stöds.

Nästa steg