Share via


Översikt över text till tal-avatar (förhandsversion)

Kommentar

Text till tal-avatar är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och rekommenderas inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

Text till tal-avatar konverterar text till en digital video av en fotorealistisk människa (antingen en fördefinierad avatar eller en anpassad text till talavatar) som talar med en naturligt klingande röst. Videon text till tal-avatar kan syntetiseras asynkront eller i realtid. Utvecklare kan skapa program som är integrerade med text till tal-avatar via ett API eller använda ett verktyg för att skapa innehåll i Speech Studio för att skapa videoinnehåll utan kodning.

Med text-till-tal-avatarens avancerade neurala nätverksmodeller ger funktionen användare möjlighet att leverera verklighetsliknande och högkvalitativa syntetiska talande avatarvideor för olika program samtidigt som de följer ansvarsfulla AI-metoder.

Kommentar

Funktionen text till tal-avatar är endast tillgänglig i följande tjänstregioner: USA, västra 2, Europa, västra och Sydostasien.

Funktioner för text-till-tal-avatar i Azure AI omfattar:

  • Konverterar text till en digital video av en fotorealistisk mänsklig talande med naturligt klingande röster som drivs av Azure AI text till tal.
  • Innehåller en samling fördefinierade avatarer.
  • Avatarens röst genereras av text till tal i Azure AI. Mer information finns i Avatar röst och språk.
  • Syntetiserar text till talavatarvideo asynkront med batchsyntes-API:et eller i realtid.
  • Tillhandahåller ett verktyg för att skapa innehåll i Speech Studio för att skapa videoinnehåll utan kodning.
  • Aktiverar avatarkonversationer i realtid via avatarverktyget för livechatt i Speech Studio.

Med text-till-tal-avatarens avancerade neurala nätverksmodeller ger funktionen dig möjlighet att leverera verklighetstrogna och högkvalitativa syntetiska talande avatarvideor för olika program samtidigt som du följer ansvarsfulla AI-metoder.

Dricks

Om du vill konvertera text till tal utan kod kan du prova avatarverktyget Text till tal i Speech Studio.

Avatar röst och språk

Du kan välja mellan en rad fördefinierade röster för avataren. Språkstödet för text till tal-avatar är detsamma som språkstöd för text till tal. Mer information finns i Språk- och röststöd för Speech-tjänsten. Fördefinierade text till talavatarer kan nås via Speech Studio-portalen eller via API.

Rösten i den syntetiska videon kan vara en fördefinierad neural röst som är tillgänglig i Azure AI Speech eller den anpassade neurala rösttalangen som du har valt.

Avatar videoutdata

Både batchsyntesen och realtidssyntesupplösningen är 1920 x 1 080 och bildrutorna per sekund (FPS) är 25. Batchsynteskodc kan vara h264 eller h265 om formatet är mp4 och kan ange codec som vp9 om formatet är webm, endast webm kan innehålla en alfakanal. Codec för realtidssyntes är h264. Videobithastighet kan konfigureras för både batchsyntes och realtidssyntes i begäran. Standardvärdet är 2000000. mer detaljerade konfigurationer finns i exempelkoden.

Batchsyntes Realtidssyntes
Lösning 1920 x 1080 1920 x 1080
FPS 25 25
Codec h264/h265/vp9 h264

Anpassad text till tal-avatar

Du kan skapa anpassade text-till-tal-avatarer som är unika för din produkt eller ditt varumärke. Allt som krävs för att komma igång är att ta 10 minuters videoinspelningar. Om du också skapar en anpassad neural röst för skådespelaren kan avataren vara mycket realistisk. Mer information finns i Vad är anpassad text till tal-avatar.

Anpassad neural röst och anpassad text till tal-avatar är separata funktioner. Du kan använda dem oberoende av varandra eller tillsammans. Om du planerar att även använda anpassad neural röst med en text-till-tal-avatar måste du distribuera eller kopiera din anpassade neurala röstmodell till någon av de avatarer som stöds.

Exempelkod

Exempelkod för text till tal-avatar finns på GitHub. De här exemplen beskriver de mest populära scenarierna:

Prissättning

  • När du använder funktionen text-till-tal-avatar debiteras avgifter baserat på minuter av videoutdata. Men med realtidsavatar baseras avgifterna på minuter av avataraktivering, oavsett om avataren aktivt talar eller förblir tyst. Information om hur du optimerar kostnaderna för användning av avatarer i realtid finns i de angivna tipsen i exempelkoden (sök efter "Använd lokal video för inaktivt").
  • Under en avatar-realtidssession eller batchinnehållsskapande debiteras text till tal, tal till text, Azure OpenAI eller andra Azure-tjänster separat.
  • Mer information finns i Priser för Speech-tjänsten. Observera att avatarpriser endast visas för tjänstregioner där funktionen är tillgänglig, inklusive USA, västra 2, Europa, västra och Sydostasien.

Tillgängliga platser

Funktionen text till tal-avatar är endast tillgänglig i följande tjänstregioner: USA, västra 2, Europa, västra och Sydostasien.

Ansvarig AI

Vi bryr oss om de människor som använder AI och de människor som kommer att påverkas av det lika mycket som vi bryr oss om teknik. Mer information finns i Information om ansvarsfull AI-transparensoch avslöjande för röst- och avatartalanger.

Nästa steg