Översikt över text till tal-avatar

2025-06-02

Text till tal avatar konverterar text till en digital video av en fotorealistisk människa (antingen en standard avatar eller en anpassad text till tal avatar) talar med en naturligt klingande röst. Videon text till tal-avatar kan syntetiseras asynkront eller i realtid. Utvecklare kan skapa program som är integrerade med text till tal-avatar via ett API eller använda ett verktyg för att skapa innehåll i Speech Studio för att skapa videoinnehåll utan kodning.

Med text-till-tal-avatarens avancerade neurala nätverksmodeller ger funktionen användare möjlighet att leverera verklighetsliknande och högkvalitativa syntetiska talande avatarvideor för olika program samtidigt som de följer ansvarsfulla AI-metoder.

Dricks

Om du vill konvertera text till tal utan kod kan du prova avatarverktyget Text till tal i Speech Studio.

Avatarfunktioner

Bland funktionerna för text till tal-avatar finns:

Konverterar text till en digital video av en fotorealistisk mänsklig talande med naturligt klingande röster som drivs av Azure AI text till tal.
Tillhandahåller en samling standardavatarer.
Text till tal i Azure AI genererar avatarens röst. Mer information finns i Avatar röst och språk.
Syntetiserar text till talavatarvideo asynkront med batchsyntes-API:et eller i realtid.
Tillhandahåller ett verktyg för att skapa innehåll i Speech Studio för att skapa videoinnehåll utan kodning.
Aktiverar avatarkonversationer i realtid via avatarverktyget för livechatt i Speech Studio.

Med text-till-tal-avatarens avancerade neurala nätverksmodeller ger funktionen dig möjlighet att leverera verklighetstrogna och högkvalitativa syntetiska talande avatarvideor för olika program samtidigt som du följer ansvarsfulla AI-metoder.

Avatar röst och språk

Du kan välja mellan en rad standardröster för avataren. Språkstödet för text till tal-avatar är detsamma som språkstöd för text till tal. Mer information finns i Språk- och röststöd för Speech-tjänsten. Standardtext till tal-avatarer kan nås via Speech Studio-portalen eller via API.

Rösten i den syntetiska videon kan vara en Azure AI Speech-standardröst eller den anpassade rösttalangen som du har valt.

Avatar videoutdata

Både batchsyntesen och realtidssyntesupplösningen är 1920 x 1 080 och bildrutorna per sekund (FPS) är 25. Batchsynteskodek kan vara h264, hevc eller av1 om formatet är mp4; kodeken kan väljas som vp9 eller av1 om formatet är webm. Endast vp9 kan innehålla en alfakanal. Codec för realtidssyntes är h264. Videobithastighet kan konfigureras för både batchsyntes och realtidssyntes i begäran. Standardvärdet är 2000000. mer detaljerade konfigurationer finns i exempelkoden.

	Batchsyntes	Realtidssyntes
Lösning	1920 x 1080	1920 x 1080
FPS	25	25
Codec	h264/hevc/vp9/av1	h264

Anpassad text till tal-avatar

Du kan skapa anpassade text-till-tal-avatarer som är unika för din produkt eller ditt varumärke. Allt som krävs för att komma igång är att ta 10 minuters videoinspelningar. Om du också finjusterar en professionell röst för skådespelaren kan avataren vara mycket realistisk.

Röstsynkronisering för avatar tränas tillsammans med den anpassade avataren som använder ljud från träningsvideon. Rösten är exklusivt associerad med den anpassade avataren och kan inte användas oberoende av varandra.

Professionell röst finjustering och anpassad text till tal avatar är separata funktioner. Du kan använda dem oberoende av varandra eller tillsammans. Om du planerar att även använda professionell röstjustering med en text-till-tal-avatar måste du distribuera eller kopiera din finjusterade professionella röstmodell till en av de avatarstödda regionerna.

Mer information finns i Vad är anpassad text till tal-avatar.

Exempelkod

Exempelkod för text till tal-avatar finns på GitHub. De här exemplen beskriver de mest populära scenarierna:

Batchsyntes (REST)
Realtidssyntes (SDK)
Livechatt med Azure OpenAI bakom (SDK)
Om du vill skapa en livechattapp med Azure OpenAI På dina data kan du läsa den här exempelkoden (sök efter "På dina data")

Prissättning

Under en avatar-realtidssession eller batchinnehållsskapande debiteras text till tal, tal till text, Azure OpenAI eller andra Azure-tjänster separat.
Röstsynkronisering för avatar (via anpassad avatarträning) debiteras på samma sätt som en personlig röst när det gäller röstskapande och syntes. Lagringen av rösten är kostnadsfri.
Mer information om hur fakturering fungerar för avatarfunktionen text till tal finns i prisanteckningen för text till tal.
Detaljerad prissättning finns i Priser för Speech-tjänsten. Observera att avatarpriser endast visas för tjänstregioner där funktionen är tillgänglig, inklusive Sydostasien, Europa, norra, Europa, västra, Sverige, centrala, USA, södra centrala, USA, östra 2 och USA, västra 2.

Tillgängliga platser

Funktionen text till tal-avatar är endast tillgänglig i följande tjänstregioner: Sydostasien, Europa, norra, Europa, västra, Sverige, centrala, USA, södra centrala, USA, östra 2 och USA, västra 2.

Ansvarsfull AI

Vi bryr oss om de människor som använder AI och de människor som kommer att påverkas av det lika mycket som vi bryr oss om teknik. Mer information finns i Information om ansvarsfull AI-transparensoch avslöjande för röst- och avatartalanger.