Share via


Vad är personlig röst (förhandsversion) för text till tal?

Kommentar

Personlig röst för text till tal är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och rekommenderas inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

Med personlig röst kan du få AI-genererad replikering av din röst (eller användare av ditt program) på några sekunder. Du anger ett talexempel på en minut som ljudprompt och använder det sedan för att generera tal på något av de mer än 90 språk som stöds på fler än 100 språk.

Kommentar

Personlig röst är tillgängligt i dessa regioner: Europa, västra, USA, östra och Sydostasien. Information om språk som stöds finns i personligt stöd för röstspråk.

I följande tabell sammanfattas skillnaden mellan personlig röst och professionell anpassad neural röst.

Jämförelse Personlig röst (förhandsversion) Professionell röst
Målscenarier Företagskunder skapar en app så att användarna kan skapa och använda sin egen personliga röst i appen. Professionella scenarier som varumärkes- och karaktärsröster för chattrobotar eller läsning av ljudinnehåll.
Användningsfall Begränsad till begränsade användningsfall. Se transparensanteckningen. Godkända kunder bör ha en plan för att stödja mer än 1 000 personliga röster. Begränsad till begränsade användningsfall. Se transparensanteckningen.
Träningsdata Se till att du följer uppförandekoden. Ta med dina egna data. Inspelning i en professionell studio rekommenderas.
Nödvändig datastorlek En minuts mänskligt tal. 300-2000 yttranden (cirka 30 minuter till 3 timmars mänskligt tal).
Träningstid Mindre än 5 sekunder Cirka 20–40 beräkningstimmar.
Röstkvalitet Naturliga Mycket naturligt
Stöd för flera språk Ja. Rösten kan tala cirka 100 språk, med automatisk språkidentifiering aktiverad. Ja. Du måste välja funktionen "Neural – cross lingual" för att träna en modell som talar ett annat språk än träningsdata.
Tillgänglighet Demonstrationen i Speech Studio är tillgänglig vid registreringen. Åtkomsten till API:et är begränsad till berättigade kunder och godkända användningsfall. Begär åtkomst via intagsformuläret. Du kan bara träna och distribuera en CNV Pro-modell när åtkomsten har godkänts. CNV Pro-åtkomst är begränsad baserat på berättigande- och användningskriterier. Begär åtkomst via intagsformuläret.
Prissättning "Officiella priser för offentlig förhandsversion för den personliga rösten kommer att tillkännages i januari 2024. Innan ytterligare meddelande debiteras med personlig röst med samma pris som standard neural text till tal. Kontrollera prisinformationen här.
Ansvarsfulla AI-krav Talarens verbala uttalande krävs. Inget ej godkänt användningsfall tillåts. Talarens verbala uttalande krävs. Inget ej godkänt användningsfall tillåts.

Prova demonstrationen

Om du har en S0-resurs kan du komma åt den personliga röstdemonstrationen i Speech Studio. Om du vill använda det personliga röst-API:et kan du ansöka om åtkomst här.

  1. Gå till Speech Studio

  2. Välj kortet Personlig röst .

    Skärmbild av Speech Studio-startsidan med det personliga röstkortet synligt.

  3. Du kan spela in din egen röst och prova röstutdataexemplen på olika språk. Demonstrationen innehåller en delmängd av de språk som stöds av personlig röst.

    Skärmbild av den personliga röstdemonstrationen i Speech Studio.

Så här skapar du en personlig röst

Här är en sammanfattning av stegen för att skapa en personlig röst för att komma igång:

  1. Skapa ett projekt.
  2. Ladda upp medgivandefil. Med den personliga röstfunktionen krävs att varje röst skapas med uttryckligt medgivande från användaren. En inspelad instruktion från användaren krävs som bekräftar att kunden (Azure AI Speech-resursägaren) skapar och använder sin röst.
  3. Hämta ett talarprofil-ID för den personliga rösten. Du får ett talarprofil-ID baserat på talarens verbala medgivandeuttryck och en ljudprompt. Användarens röstegenskaper kodas i egenskapen speakerProfileId som används för text till tal.

När du har en personlig röst kan du använda den för att syntetisera tal på något av de 91 språk som stöds i över 100 språk. En språktagg krävs inte. Personlig röst använder automatisk språkidentifiering på meningsnivå. Mer information finns i Använda personlig röst i ditt program.

Dricks

Kolla in kodexemplen på Speech SDK-lagringsplatsen på GitHub för att se hur du använder personlig röst i ditt program.

Referensdokumentation

Ansvarig AI

Vi bryr oss om de människor som använder AI och de människor som kommer att påverkas av det lika mycket som vi bryr oss om teknik. Mer information finns i anteckningarna om ansvarsfull AI-transparens.

Nästa steg

  • Skapa ett projekt.
  • Läs mer om anpassad neural röst i översikten.
  • Läs mer om Speech Studio i översikten.