Vad är personlig röst för text till tal?

Artikel
05/21/2024

Med personlig röst kan du göra det möjligt för användarna att få AI-genererad replikering av sina egna röster på några sekunder. Med en verbal instruktion och ett kort talexempel som ljudprompt kan du skapa en personlig röst för dina användare och låta dem generera tal på något av de mer än 90 språk som stöds på fler än 100 språk.

Kommentar

Personlig röst är tillgängligt i dessa regioner: Europa, västra, USA, östra och Sydostasien. Information om språk som stöds finns i personligt stöd för röstspråk.

I följande tabell sammanfattas skillnaden mellan personlig röst och professionell anpassad neural röst.

Jämförelse	Personlig röst	Professionell röst
Målscenarier	Företagskunder skapar en app så att användarna kan skapa och använda sin egen personliga röst i appen.	Professionella scenarier som varumärkes- och karaktärsröster för chattrobotar eller läsning av ljudinnehåll.
Användningsfall	Begränsad till begränsade användningsfall. Se transparensanteckningen. Godkända kunder bör ha en plan för att stödja mer än 1 000 personliga röster.	Begränsad till begränsade användningsfall. Se transparensanteckningen.
Träningsdata	Se till att du följer uppförandekoden.	Ta med dina egna data. Inspelning i en professionell studio rekommenderas.
Nödvändig datastorlek	En minuts mänskligt tal.	300-2000 yttranden (cirka 30 minuter till 3 timmars mänskligt tal).
Träningstid	Mindre än 5 sekunder	Cirka 20–40 beräkningstimmar.
Röstkvalitet	Naturlig	Mycket naturligt
Stöd för flera språk	Ja. Rösten kan tala cirka 100 språk, med automatisk språkidentifiering aktiverad.	Ja. Du måste välja funktionen "Neural – cross lingual" för att träna en modell som talar ett annat språk än träningsdata.
Tillgänglighet	Demonstrationen i Speech Studio är tillgänglig vid registreringen. Åtkomsten till API:et är begränsad till berättigade kunder och godkända användningsfall. Begär åtkomst via intagsformuläret.	Du kan bara träna och distribuera en CNV Pro-modell när åtkomsten har godkänts. CNV Pro-åtkomst är begränsad baserat på berättigande- och användningskriterier. Begär åtkomst via intagsformuläret.
Prissättning	Kontrollera prisinformationen här¹.	Kontrollera prisinformationen här.
Ansvarsfulla AI-krav	Talarens verbala uttalande krävs. Inget ej godkänt användningsfall tillåts.	Talarens verbala uttalande krävs. Inget ej godkänt användningsfall tillåts.

¹ Observera att personliga röstpriser endast visas för tjänstregioner där funktionen är tillgänglig, inklusive Europa, västra, USA, östra och Sydostasien.

Prova demonstrationen

Om du har en S0-resurs kan du komma åt den personliga röstdemonstrationen i Speech Studio. Om du vill använda det personliga röst-API:et kan du ansöka om åtkomst här.

Gå till Speech Studio
Välj kortet Personlig röst .
Du kan spela in din egen röst och prova röstutdataexemplen på olika språk. Demonstrationen innehåller en delmängd av de språk som stöds av personlig röst.

Så här skapar du en personlig röst

Här är en sammanfattning av stegen för att skapa en personlig röst för att komma igång:

Skapa ett projekt.
Ladda upp medgivandefil. Med den personliga röstfunktionen krävs att varje röst skapas med uttryckligt medgivande från användaren. En inspelad instruktion från användaren krävs som bekräftar att kunden (Azure AI Speech-resursägaren) skapar och använder sin röst.
Hämta ett talarprofil-ID för den personliga rösten. Du får ett talarprofil-ID baserat på talarens verbala medgivandeuttryck och en ljudprompt. Användarens röstegenskaper kodas i egenskapen speakerProfileId som används för text till tal.

När du har en personlig röst kan du använda den för att syntetisera tal på något av de 91 språk som stöds i över 100 språk. En språktagg krävs inte. Personlig röst använder automatisk språkidentifiering på meningsnivå. Mer information finns i Använda personlig röst i ditt program.

Dricks

Kolla in kodexemplen på Speech SDK-lagringsplatsen på GitHub för att se hur du använder personlig röst i ditt program.

Referensdokumentation

Referensdokumentation för anpassad röst-REST API

Ansvarsfull AI

Vi bryr oss om de människor som använder AI och de människor som kommer att påverkas av det lika mycket som vi bryr oss om teknik. Mer information finns i anteckningarna om ansvarsfull AI-transparens.

Nästa steg

Skapa ett projekt.
Läs mer om anpassad neural röst i översikten.
Läs mer om Speech Studio i översikten.

Dela via