Dela via


Transparensanteckning: text till tal

Viktigt!

Översättningar som inte är engelska tillhandahålls endast för enkelhetens skull. Se versionen EN-US av det här dokumentet för bindningsversionen.

Vad är en transparensanteckning?

Ett AI-system omfattar inte bara tekniken, utan även de personer som ska använda den, de personer som påverkas av den och miljön där den distribueras. Att skapa ett system som passar för det avsedda ändamålet kräver en förståelse för hur tekniken fungerar, vilka dess funktioner och begränsningar är och hur man uppnår bästa prestanda. Microsofts Transparensanteckningar är avsedda att hjälpa dig att förstå hur vår AI-teknik fungerar, vilka val systemägare kan göra som påverkar systemets prestanda och beteende samt vikten av att tänka på hela systemet, inklusive teknik, människor och miljö. Du kan använda Transparensanteckningar när du utvecklar eller distribuerar ditt eget system eller delar dem med de personer som kommer att använda eller påverkas av systemet.

Microsofts transparensanteckningar är en del i en mer omfattande insats på Microsoft för att börja använda våra AI-principer. Mer information finns i Microsoft AI-principerna.

Grunderna i text till tal

Inledning

Text till tal, en del av Azure AI Speech, är ett mångsidigt verktyg som kan konvertera skriven text till naturligt klingande talljud. Funktionen tar in indata i form av text och genererar högkvalitativa talljudutdata som kan spelas upp på enheter. För talljudutdata erbjuder text till tal en rad fördefinierade neurala röster eller, för Limited Access-kunder, alternativet att skapa en anpassad neural röst för din produkt eller ditt varumärke.

Text till tal har också visuella funktioner. Med text till tal-avatar kan kunder mata in text och skapa en syntetisk video av en avatar som talar. Både förbyggda och anpassade text-till-tal-avatarer är tillgängliga. Dessa kan användas med både förbyggda och anpassade neurala röster, även om vissa funktioner endast är tillgängliga för kunder med begränsad åtkomst.

I ett text-till-tal-system kan kunderna omvandla skriftlig information till hörbart tal och förbättra tillgängligheten för användare. Oavsett om du lyssnar på dokument eller förbättrar användarupplevelsen med syntetiserat tal omvandlar text till tal text till naturligt klingande talade ord.

Viktiga termer

Begrepp Definition
Talsyntes i realtid Använd Speech SDK eller REST API för att konvertera text till tal med hjälp av fördefinierad neural röst, fördefinierad text till talavatar, anpassad neural röst och anpassad text till tal-avatar.
Röstmodell I ett text-till-tal-system refererar en röstmodell till en maskininlärningsbaserad modell eller algoritm som genererar syntetiskt tal från skriftlig text. Den här modellen är tränad att konvertera textindata till talat språk, efterlikna egenskaperna hos en mänsklig röst, inklusive tonhöjd, tonfall och uttal.
Prosodi Prosody refererar till modulering av talelement som tonhöjd, varaktighet, volym och pauser för att ingjuta syntetiska röster med en naturlig och uttrycksfull kvalitet, förmedla känslomässiga nyanser och kontextuell mening, vilket minskar robotkvaliteten hos det genererade talet och gör det mer engagerande och begripligt för lyssnarna.
Speech Synthesis Markup Language ("SSML") Speech Synthesis Markup Language (SSML) är ett XML-baserat markeringsspråk som används för att anpassa text till taloutput. Med SSML kan du justera tonhöjd, lägga till pauser, förbättra uttalet, ändra talfrekvens, justera volymen och tilldela flera röster till ett enda dokument. Du kan använda SSML för att definiera egna lexikon eller växla till olika talformat.
Asynkron syntes av långt ljud Använd batchsyntes-API:et (förhandsversion) för att asynkront syntetisera text till talfiler längre än 10 minuter (till exempel ljudböcker eller föreläsningar). Till skillnad från syntes som utförs via Speech SDK eller Speech to text REST API returneras inte svar i realtid. Förväntningarna är att begäranden skickas asynkront, svar avsöks och syntetiserat ljud laddas ned när tjänsten gör den tillgänglig.
Visemer Visemes är nyckelposerna i observerat tal, inklusive läpparnas, käkens och tungans position vid produktionen av ett visst fonem. Visemes har en stark korrelation med röster och fonem.

Inledning

Fördefinierade neurala röster ger ett brett utbud av röster, med över 400 alternativ på mer än 140 språk och lokala varianter. Med dessa text-till-tal-röster kan du snabbt integrera uppläsningsfunktionalitet i dina program för förbättrad tillgänglighet.

Viktiga termer

Begrepp Definition
Fördefinierad neural röst Microsoft erbjuder en uppsättning fördefinierade neurala röster, som använder djupa neurala nätverk för att övervinna gränserna för traditionell talsyntes när det gäller stress och intonation i talat språk. Prosody förutsägelse och röstsyntes sker samtidigt, vilket resulterar i mer flytande och naturligt klingande utdata. Varje förbyggd neural röstmodell är tillgänglig vid 24 kHz och hög återgivning 48 kHz, och utgången kan uppsamplas eller nedsamplas till andra format.

Förmågor

Systemets beteende

Text till tal

Text till tal konverterar text till naturligt klingande tal.

Nedan visas de viktigaste alternativen för att anropa text till taltjänsten.

Realtidstext till tal-API

Detta är ett vanligt API-anrop via Speech SDK eller REST API för att skicka en textinmatning och ta emot ljudutdata i realtid. Speech-systemet använder en text-till-tal-röstmodell för att konvertera texten till mänskligt syntetiskt tal. Utdataljudet kan sparas som en fil eller spelas upp till en utdataenhet, till exempel en högtalare (läs mer om hur du syntetiserar tal från text). Användare kan också använda SSML för att finjustera text-till-tal-utdata.

Text-till-tal-modeller tränas på stora mängder olika ljud i vanliga användningsscenarier och en mängd olika talare. Text till tal-tjänsten används till exempel ofta för röstaktiverade chattrobotar eller för att skapa ljudinnehåll.

Api för batchsyntes

Batchsyntes är en annan typ av API-anrop. Den används vanligtvis för att skicka stora textfiler och för att ta emot ljudutdata asynkront (d.s. vid ett senare tillfälle). Om du vill använda det här API:et kan du ange platser för flera textfiler. Text till tal-tekniken läser textinmatningen från filen och genererar ljudfiler som returneras till lagringsplatsen som du anger. Den här funktionen används för att stödja större talsyntesjobb där det inte är nödvändigt att ge slutanvändarna ljudutdata i realtid. Ett exempel är att skapa ljudböcker.

Tal till text – anpassad neurala röst

Anpassad neural röst är en text till tal-funktion som gör att Limited Access-kunder kan skapa en unik anpassad syntetisk röst för sina program genom att tillhandahålla sina egna ljuddata från kundens valda rösttalanger.

Med anpassad neural röst kan du spela in dina röstskådespelare genom att låta dem läsa upp av Microsoft tillhandahållna skript i Speech Studio, och snabbt skapa en syntetisk röst som låter som dina röstskådespelare med hjälp av ett enkelt projekt (förhandsversion). Ett litet projekt är idealiskt för en snabb utvärderingsversion eller ett proof of concept.

Med ett pro-projekt kan du ladda upp studioinspelade röstdata av hög kvalitet för din valda rösttalang och skapa en realistisk röst. Pro stöder mycket naturlig röstträning som ännu mer liknar din rösttalangs röst och kan anpassas för att tala i flera känslor och mellan språk, utan att behöva ytterligare känslospecifika eller språkspecifika träningsdata.

När en anpassad neural röst har skapats kan du distribuera röstmodellen med en unik slutpunkt och använda modellen för att generera syntetiskt tal med API:et för realtidssyntes eller batchsyntes-API:et som beskrivs ovan.

Mer information om anpassad neural röst finns i Översikt över anpassad neural röst.

Personlig röst

Den personliga röstfunktionen gör det möjligt för Limited Access-kunder att skapa en röstmodell från ett kort mänskligt röstexempel. Funktionen kan skapa en röstmodell baserat på uppmaningen på så lite som några sekunder. Den här funktionen används vanligtvis för att driva personliga röstupplevelser för företagskunders program. Personliga röstmodeller kan skapa realistiska röster som kan tala närmare 100 språk.

Vattenstämplar läggs till i anpassade neurala röster som skapats med den personliga röstfunktionen. Med vattenstämplar kan användarna identifiera om tal syntetiseras med Hjälp av Azure AI Speech och specifikt vilken röst som användes. Behöriga kunder kan använda Azure AI Speechs funktioner för att upptäcka vattenstämplar. Om du vill begära att lägga till vattenstämpelidentifiering i dina program, kontaktar du mstts[at]microsoft.com.

Mer information om personlig röst finns i personlig röst.

Text-till-tal-avatar

Text till tal-avatar konverterar text till en digital video av en fotorealistisk människa (antingen en fördefinierad avatar eller en anpassad avatar) som talar med en naturligt klingande röst, vilket drivs av text till tal-funktioner som exempelvis inbyggd neural röst eller anpassad neural röst. Videon text till tal-avatar kan syntetiseras asynkront eller i realtid. Utvecklare kan skapa program som är integrerade med text till tal-avatar via ett API eller använda ett verktyg för att skapa innehåll i Speech Studio för att skapa videoinnehåll utan kodning.

Med text-till-tal-avatarens avancerade neurala nätverksmodeller ger funktionen användare möjlighet att leverera livsliknande och högkvalitativa syntetiska talande avatarvideor för olika program.

Text till tal-avatar antar Coalition for Content Provenance and Authenticity (C2PA) Standard för att ge publiken tydligare insikter om källan och historiken för videoinnehåll som skapats av avatarer. Den här standarden erbjuder transparent information om AI-generering av videoinnehåll. Mer information om integrering av C2PA med text-till-tal-avatarer finns i Innehållsautentiseringsuppgifter i Azure Text till Speech Avatar.

Dessutom vattenstämplas avatarutdata automatiskt. Med vattenstämplar kan godkända användare identifiera om en video syntetiseras med hjälp av avatarfunktionen i Azure AI Speech. Om du vill begära identifiering av vattenstämplar kontaktar du avatarvoice[at]microsoft.com.

Videoöversättning (förhandsversion)

Videoöversättning kan effektivt lokalisera ditt videoinnehåll för att tillgodose olika målgrupper runt om i världen. Videoöversättning extraherar automatiskt dialogljud, transkriberar, översätter och dubbar innehållet med fördefinierad eller personlig röst till målspråket, med korrekta undertexter för bättre tillgänglighet. Funktioner med flera talare hjälper dig att identifiera antalet personer som talar och rekommenderar lämpliga röster. Innehållsredigering med människa i loopen möjliggör exakt justering med kundens önskemål. Förbättrad översättningskvalitet säkerställer exakt ljud- och videoanpassning med GPT-integrering. Videoöversättning möjliggör autentiska och personliga dubbningsupplevelser med personlig röst.

Användningsfall

Text till tal erbjuder en mängd olika funktioner som tillgodoser en mängd olika avsedda användningsområden i olika branscher och domäner. Alla text-till-tal-funktioner, inklusive videoöversättning, omfattas av de villkor som gäller för kundernas Azure-prenumeration, inklusive azure-policyn för godtagbar användning och uppförandekoden för Text till tal i Azure AI Speech.

Dessutom är anpassade text-till-tal-funktioner som anpassad neural röst, personlig röst och anpassad text-till-tal-avatar begränsade till godkända användningsfall enligt de specifika scenarier som beskrivs nedan.

Avsedda användningsområden för Custom Neural Voice Pro och Custom Neural Voice Lite

Följande är godkända användningsfall för Custom Neural Voice Pro och Custom Neural Voice Lite:

  • Pedagogisk eller interaktiv inlärning: Skapa en fiktiv varumärkes- eller karaktärsröst för att läsa eller tala utbildningsmaterial, onlineinlärning, interaktiva lektionsplaner, simuleringsinlärning eller guidade museiturer.
  • Media: Underhållning: Skapa ett fiktivt varumärke eller en karaktärsröst för att läsa eller tala underhållningsinnehåll för tv-spel, filmer, TV, inspelad musik, podcaster, ljudböcker eller förhöjd eller virtuell verklighet.
  • Media: Marknadsföring: Skapa en fiktiv varumärkes- eller karaktärsröst för att läsa eller tala marknadsföring och produkt- eller tjänstmedier, produktintroduktioner, affärskampanjer eller annonser.
  • Självförfattat innehåll: Skapa en röst för att läsa innehåll som skapats av rösttalangen.
  • Hjälpmedelsfunktioner: För användning i ljudbeskrivningssystem och berättarröst, inklusive fiktiva varumärken eller teckenröster, eller för att underlätta kommunikation av personer med talsvårigheter.
  • Ivr-system (Interactive Voice Response): För att skapa röster, inklusive fiktiva varumärken eller teckenröster, för callcenter-åtgärder, telefonisystem eller svar för telefoninteraktioner.
  • Public Service- och informationsmeddelanden: Skapa en fiktiv varumärkes- eller karaktärsröst för kommunikation av information om offentliga tjänster, inklusive meddelanden för offentliga platser eller för informationssändningar som trafik, väder, händelseinformation och scheman. Det här användningsfallet är inte avsett för journalistiskt innehåll eller nyhetsinnehåll.
  • Översättning och lokalisering: För användning i översättningsprogram för översättning av konversationer på olika språk eller översättning av ljudmedier.
  • Virtuell assistent eller chattrobot: Skapa ett fiktivt varumärke eller en karaktärsröst för smarta assistenter i eller för virtuella webbassistenter, apparater, bilar, hushållsapparater, leksaker, kontroll över IoT-enheter, navigeringssystem, läsning av personliga meddelanden, virtuella följeslagare eller kundtjänstscenarier.

Avsedda användningsområden för personlig röst

Det personliga röst-API:et (se Personlig röst för mer information) är tillgängligt i förhandsversionen av Begränsad åtkomst. Endast kunder som uppfyller kriterierna för begränsad åtkomst kan integrera det personliga röst-API:et med sina program. Dessa berättigade kunder får endast använda personliga röster för följande användningsfall:

  • Program: För användning i program där röstutdata begränsas och definieras av kunder, och där rösten inte läser användargenererat eller öppet innehåll. Röstmodellanvändningen måste finnas kvar i programmet och utdata får inte vara publiceringsbara eller delbara från programmet. Några exempel på program som passar den här beskrivningen är röstassistenter på smarta enheter och anpassning av en karaktärsröst i spel.
  • Media, filmer och TV: Att dubba för filmer, TV, video och ljud endast för underhållningsscenarier, där kunderna behåller ensam kontroll över skapandet av, åtkomsten till och användningen av röstmodellerna och deras utdata.
  • Affärsinnehåll: Skapa ljud- och videoinnehåll för affärsscenarier för att kommunicera produktinformation, marknadsföringsmaterial, affärsreklaminnehåll och intern affärskommunikation.
  • Specialanvändning, paketerad med videoöversättning: Syntetisera röster för varje talare i en video. Kunder kan också redigera och generera läppsynkroniserat ljudinnehåll på målspråk. Kunder är inte skyldiga att skicka ytterligare ljudmedgivande till Microsoft för videoinnehåll i det här scenariot, men kunderna måste ha ensam kontroll över skapandet, åtkomsten till och användningen av röstmodellerna och deras utdata.

Alla andra användningsområden för anpassad neural röst, inklusive Custom Neural Voice Pro, Custom Neural Voice Lite och personlig röst, är förbjudna. Dessutom är anpassad neural röst en tjänst med begränsad tillgång och registrering krävs för att få tillgång till den här tjänsten. Mer information om Microsofts policy för begränsad åtkomst finns i Funktioner för begränsad åtkomst för Azure AI-tjänster. Vissa funktioner är endast tillgängliga för Microsofts hanterade kunder och partner, och endast för vissa användningsfall som godkänts av Microsoft vid tidpunkten för registreringen.

Förbyggd neural röst kan också användas för de anpassade neurala röstanvändningsfall ovan, samt ytterligare användningsfall som valts av kunder och överensstämmer med Azure Acceptable Use Policy och Uppförandekoden för Azure AI Speech text till tal. Ingen registrering eller förhandsgodkännande krävs för ytterligare användningsområden av fördefinierad neuralt röst som uppfyller alla relevanta villkor och förutsättningar.

Avsedda användningsfall för videoöversättning (förhandsversion)

Videoöversättning kan användas för filmer, TV och andra visuella objekt (inklusive men inte begränsat till video eller animering) och ljudprogram, där kunderna har ensam kontroll över skapandet av, åtkomsten till och användningen av röstmodellerna och deras utdata. Personlig röst- och läppsynkronisering omfattas av ramverket för begränsad åtkomst, och berättigade kunder kan använda dessa funktioner med videoöversättning. Följande är godkända användningsfall för videoöversättningstjänsten:

  • Utbildning och lärande: För att översätta ljud i utbildningsmaterial, onlinekurser, utbildningsmoduler, simuleringsbaserad inlärning eller guidad rundtur på museum för flerspråkiga elever. 
  • Media: Underhållning: Översätta ljud i filmer, filmer, TV-program, dokumentärer, tv-spel, miniserier, kortspel och AR/VR-innehåll för global publik, vilket säkerställer sömlöst berättande mellan olika språk. 
  • Media: Marknadsföring: För att översätta ljud i marknadsföringsvisualiseringar, produktdemonstrationer, annonser och varumärkeskampanjer för att få genklang med internationella marknader och kulturer. 
  • Self-Authored Innehåll: Att översätta ljud i vlogs, kortformatvisuellt innehåll, influencerinnehåll, reseguider, promotionsvideor för resmål, visuellt innehåll på sociala medier och kulturella höjdpunkter för att göra dem tillgängliga och engagerande. 
  • Företagsutbildning och kommunikation: För att översätta ljud i interna visuella kommunikationsobjekt, introduktionsmaterial för anställda, regelefterlevnadsutbildning och globala företagsmeddelanden för de internationella teamen. 
  • E-handel och produktdemonstrationer: För att översätta ljudet i produktunboxing-videor, handledningar, kundutlåtanden och förklaringsvideor för internationella shoppare. 
  • Offentlig tjänst och informationsmeddelanden: För att översätta ljud i visuella material för att öka allmänhetens medvetenhet, evenemangsscheman, säkerhetsmeddelanden och informationssändningar från myndigheter för flerspråkig tillgänglighet. 
  • Hjälpmedelsfunktioner: För att bredda tillgängligheten för videoinnehåll via flerspråkigt ljud och undertexter.
  • Nyhets- och journalistiskt innehåll: Översätta ljud i nyhetssegment, intervjuer, pressmeddelanden och nyhetsrapporter för olika språkpubliker. Kunder som vill översätta nyhetskällor kräver ytterligare granskning.

Avsedda användningsområden för anpassad text till talavatar och fördefinierad text till tal-avatar

Följande är de godkända användningsfallen för anpassad text till tal-avatar:

  • Virtuell assistent eller chattrobot: Skapa virtuella assistenter, virtuella följeslagare, virtuella försäljningsassistenter eller för kundtjänstprogram.
  • Innehållsgenerering för företagskontexter: För användning för att kommunicera produktinformation, marknadsföringsmaterial, affärsreklaminnehåll och intern affärskommunikation. Exempel är karaktärsavatarer eller digitala tvillingar till en företagsledare för att marknadsföra ett varumärke.
  • Pedagogisk eller interaktiv inlärning: Skapa en fiktiv varumärkes- eller karaktärsavatar för att presentera utbildningsmaterial, onlineinlärning, interaktiva lektionsplaner, simuleringsinlärning eller guidade museiturer.
  • Media: Underhållning: För att presentera uppdateringar, dela kunskap, skapa interaktiva medier eller göra talande huvudvideor för underhållningsscenarier som videor, spel och förhöjd eller virtuell verklighet.
  • Hjälpmedelsfunktioner: För användning för att underlätta kommunikation för personer med nedsatt talfunktion.
  • Självförfattat innehåll: Skapa en avatar för att läsa innehåll som skapats av avatartalangen.
  • Public Service och informationsmeddelanden: Skapa en fiktiv varumärkes- eller karaktärsbild för kommunikation av information om offentliga tjänster, inklusive meddelanden för offentliga platser eller för informationssändningar som trafik, väder, händelseinformation och scheman. Det här användningsfallet är inte avsett för journalistiskt innehåll eller nyhetsinnehåll.
  • Översättning och lokalisering: För användning i översättningsprogram för översättning av konversationer på olika språk eller översättning av ljudmedier i videoformat.

Alla andra användningsområden för anpassad text till talavatar är förbjudna. Dessutom är anpassad text till tal-avatar en tjänst för begränsad åtkomst och registrering krävs för åtkomst till den här funktionen. Mer information om Microsofts policy för begränsad åtkomst finns i aka.ms/limitedaccesscogservices. Vissa funktioner är endast tillgängliga för Microsofts hanterade kunder och partner, och endast för vissa användningsfall som godkänts av Microsoft vid tidpunkten för registreringen.

Fördefinierad text till tal-avatar kan också användas för de anpassade avataranvändningsfallen ovan, samt ytterligare användningsfall som valts av kunder och överensstämmer med Azures policy för godtagbar användning och uppförandekoden för Azure AI Speech text till tal. Ingen registrering eller förhandsgodkännande krävs för ytterligare användningsfall för fördefinierad text-till-tal-avatar som uppfyller alla tillämpliga villkor.

Att tänka på när du väljer användningsfall

Vi uppmuntrar kunderna att använda text till tal-funktioner i sina innovativa lösningar eller program. Alla text-till-tal-funktioner måste följa policyn för godtagbar användning i Azure och uppförandekoden för text till tal i Azure AI Speech. Dessutom får anpassade neurala röster och anpassade text-till-tal-avatarer endast användas för de användningsfall som har godkänts genom registreringsformuläret för begränsad åtkomst. Här är några saker att tänka på när du väljer ett användningsfall för alla funktioner för text till tal:

  • Se till att användningsfall överensstämmer: Se till att den avsedda användningen av text-till-tal-funktionen stämmer överens med funktionerna och syftet med text-till-tal-funktionen.
  • Ansvarsfulla AI-överväganden: Prioritera ansvarsfulla AI-metoder genom att undvika att skapa vilseledande eller skadligt innehåll. Följ sekretess, dataskydd och juridiska regler när du använder text till tal-funktioner.
  • Granska uppförandekoden: Microsoft har upprättat en uppförandekod som förbjuder vissa användningsområden för alla text-till-tal-funktioner. Se till att uppförandekoden följs när du väljer ett användningsfall för text-till-tal-tjänster.
  • Utöva redaktionell kontroll: Överväg noggrant att använda syntetiska röster med innehåll som saknar korrekt redaktionell kontroll, eftersom syntetiska röster kan låta människoliknande och förstärka effekten av felaktigt eller vilseledande innehåll.
  • Avslöjande: Avslöja den syntetiska karaktären hos röster, bilder och/eller videor för användare så att användarna sannolikt inte kommer att bluffas eller luras – eller kunna lura andra – att tro att de interagerar med en verklig person.
  • Juridiska och regelmässiga överväganden: Organisationer måste utvärdera potentiella specifika juridiska och regelmässiga skyldigheter när de använder AI-tjänster och lösningar, vilket kanske inte är lämpligt för användning i alla branscher eller scenarion. Dessutom är AI-tjänster eller lösningar inte utformade för och får inte användas på sätt som är förbjudna i tillämpliga användningsvillkor och relevanta uppförandekoder.

Genom att följa dessa överväganden kan användarna använda både fördefinierad och anpassad neural röst på ett ansvarsfullt sätt.

Begränsningar

Begränsningarna i text till tal bör beaktas i skärningspunkten mellan teknik och de mänskliga, sociala och organisatoriska faktorer som påverkar dess användning och inverkan. Text till tal erbjuder avancerade funktioner för talsyntes, men det finns vissa begränsningar att vara medveten om när du distribuerar det på ett ansvarsfullt sätt för att minimera potentiella fel.

Tekniska begränsningar, driftfaktorer och intervall

Tekniska begränsningar att tänka på när du använder text till tal inkluderar noggrannheten i uttal och intonation. Text till tal är utformat för att generera naturligt klingande tal, men det kan stöta på svårigheter med vissa ord, namn eller ovanliga fraser. Användarna bör vara medvetna om att det kan finnas instanser där systemet kan felpronomenisera eller betona ord felaktigt, särskilt när det gäller nisch eller domänspecifik vokabulär.

Det är viktigt att notera att vissa populationer kan påverkas mer negativt av dessa tekniska begränsningar. Till exempel kan personer med hörselnedsättningar som är starkt beroende av syntetiserat tal möta utmaningar när det gäller att förstå otydliga eller förvrängda talutdata. På samma sätt kan användare med kognitiva eller språkrelaterade funktionshinder ha svårt att förstå tal med onaturlig intonation eller felaktigt uttalade ord.

  • Språkbegränsningar: Även om vi noggrant kurerar och förbereder träningsdata för att minimera fördomar, särskilt relaterade till kön, etnicitet eller regionala accenter, och även om text till tal stöder flera språk och accenter, kan det finnas variationer i kvaliteten och tillgängligheten för röster på olika språk. Kunderna bör vara medvetna om potentiella begränsningar i uttalsprecision, intonation och språkliga nyanser som är specifika för vissa språk eller dialekter.
  • Kontext och känsla: Text till tal kan ha begränsningar när det gäller att korrekt förmedla sammanhangsbaserad information och känslor. Kunderna bör vara medvetna om systemets oförmåga att förstå de känslomässiga nyanser eller subtila signaler som finns i indatatexten. Överväganden bör göras för att ge ytterligare sammanhang eller använda andra metoder för att förmedla känslor effektivt.
  • Tillgänglighet: Microsoft kommer att ge kunderna 12 månaders varsel innan de tar bort fördefinierade neurala röster från vår katalog, såvida inte säkerhets-, juridiska eller systemprestandaöverväganden kräver en snabb borttagning. Detta gäller inte för förhandsversioner.

Varje program är olika och vår basmodell kanske inte matchar din kontext eller täcker alla scenarier som krävs för ditt användningsfall. Vi uppmuntrar utvecklare att noggrant utvärdera kvaliteten på text till talsyntetiserande röst och video med verkliga data som återspeglar ditt användningsfall, inklusive testning med användare från olika demografiska grupper och med olika talegenskaper. Se avsnittet Kvalitet på röstmodellen tränad för bästa praxis för att skapa röstmodeller av hög kvalitet.

Förutom att säkerställa prestanda är det viktigt att överväga hur man minimerar riskerna för stereotyper och radering som kan uppstå till följd av syntetiska röster och avatarer. Om du till exempel skapar en anpassad neural röst för en smart röstassistent bör du noga överväga vilken röst som är lämplig att skapa och söka olika perspektiv från individer från olika bakgrunder. När du skapar och utvärderar systemet bör du alltid söka olika indata.

Rättviseöverväganden

På Microsoft strävar vi efter att ge varje person på planeten möjlighet att göra mer. En viktig del av detta mål är att skapa tekniker och produkter som är rättvisa och inkluderande. Rättvisa är ett flerdimensionellt, socio-tekniskt ämne och påverkar många olika aspekter av vår produktutveckling. Du kan läsa mer om Microsofts rättvisestrategi här.

En viktig dimension att tänka på när du använder AI-system, inklusive text till tal, är hur bra systemet presterar för olika grupper av människor. Forskning har visat att utan medveten ansträngning som fokuserar på att förbättra prestanda för alla grupper kan AI-system uppvisa olika prestandanivåer för olika demografiska faktorer som ras, etnicitet, kön och ålder.

Som en del av vår utvärdering av Text till tal i Azure AI har vi genomfört en analys för att bedöma potentiella rättviseskador. Vi har undersökt systemets prestanda i olika demografiska grupper i syfte att identifiera eventuella skillnader eller skillnader som kan finnas och som potentiellt kan påverka rättvisan.

I vissa fall kan det finnas återstående skillnader i prestanda. Det är viktigt att notera att dessa skillnader kan överskrida målet, och vi arbetar aktivt för att ta itu med och minimera eventuella fördomar eller prestandaluckor, noggrant överväga aktörens demografiska gruppval och söka olika perspektiv från olika bakgrunder.

När det gäller representationsskador, till exempel stereotyper, förnedrande eller radering av utdata, erkänner vi de risker som är förknippade med dessa problem. Vår utvärderingsprocess syftar till att minska sådana risker, men vi uppmuntrar användarna att överväga sina specifika användningsfall noggrant och implementera ytterligare åtgärder efter behov. Att ha en människa i loopen kan ge ett extra lager av tillsyn för att ta itu med eventuella fördomar eller oavsiktliga konsekvenser. Användningen av blocklistor eller tillåtna listor kan också bidra till att det syntetiserade talet överensstämmer med önskade standarder och undviker skadligt eller olämpligt innehåll.

Vi är fast beslutna att kontinuerligt förbättra våra rättviseutvärderingar för att få en djupare förståelse för systemets prestanda i olika demografiska grupper och potentiella rättvisefrågor. Utvärderingsprocessen pågår och vi arbetar aktivt för att förbättra rättvisa och inkludering och minimera eventuella identifierade skillnader. Vi förstår vikten av att ta itu med rättviseöverväganden och strävar efter att se till att text till tal ger tillförlitliga och rättvisa syntetiserade talutdata.

Observera att den här informationen representerar vad vi hittills vet om rättviseutvärderingar, och vi förblir dedikerade till att förfina våra utvärderingsmetoder och ta itu med eventuella rättviseproblem som kan uppstå.

Systemprestanda

Prestanda för text till tal-systemet refererar till hur korrekt och naturligt det kan konvertera skriven text till syntetiserat tal. Detta mäts med hjälp av olika mått för att utvärdera kvaliteten och effektiviteten för de genererade ljudutdata. Några vanliga prestandamått som används är:

  • Medeltalspoäng (MOS): Ett klassificeringssystem där domare ger en poäng som representerar den övergripande kvaliteten på syntetiserat tal och avatarvideo. En högre MOS indikerar bättre kvalitet.
  • MOS-gap: Skillnaden mellan MOS-poängen för mänskliga inspelningar och de genererade ljudspåren/videorna. En mindre skillnad i MOS indikerar en närmare likhet med mänskligt tal och utseende.
  • Similarity MOS (SMOS): Mäter likheten mellan de genererade ljudspåren/videorna med de mänskliga inspelningarna. En högre SMOS betyder bättre likhet.
  • Begriplighet: Procentandelen korrekt begripliga ord i syntetiserat tal.

Även med toppmoderna modeller kan AI-system som text till tal generera fel. Systemet kan till exempel producera syntetiserat tal med subtila onaturliga intonationer eller uttalsfel, vilket leder till en mindre idealisk användarupplevelse, eller så kan systemet misstolka text eller kämpa med ovanliga språkkonstruktioner, vilket resulterar i onaturligt eller obegripligt tal.

Metodtips för att förbättra systemprestanda

För att förbättra systemets prestanda och anpassa systemets beteende i text till tal finns det flera metodtips som kan följas. Dessa metoder omfattar att justera olika komponenter och parametrar för att optimera kompromisserna och uppfylla specifika krav för användningsfall. Det är dock viktigt att överväga den potentiella effekten på olika befolkningar för att säkerställa rättvisa och inkludering.

Att använda SSML (Speech Synthesis Markup Language) anses vara en bra metod för att förbättra text- och talutdatakvaliteten. Med SSML kan användare utöva större kontroll över syntetiserat tal, vilket möjliggör anpassning av uttal, intonation, betoning och andra prosodic-funktioner. Genom att lägga till SSML-taggar i texten kan användarna lägga till pauser, justera talhastighet, ange fonetiska uttal och kontrollera tonhöjd och volym, bland andra parametrar. Den här nivån av finjustering hjälper till att skapa mer naturligt och uttrycksfullt tal, vilket gör att text till tal-utdata låter mer mänskligt och engagerande. Alla SSML-markeringar kan skickas direkt till API:et. Vi tillhandahåller även ett onlineverktyg, Audio Content Creation, som gör det möjligt för kunder att finjustera med hjälp av ett intuitivt användargränssnitt.

Om ditt användningsfall omfattar specialiserad vokabulär eller domänspecifikt innehåll bör du överväga att använda den anpassade lexikonfunktionen för att förbättra systemets förmåga att korrekt uttala och förmedla domänspecifika termer eller fraser.

Utvärdering av text till tal

Utvärderingsmetoder

Några vanliga mått för att utvärdera övergripande systemprestanda för text till tal är:

  • Genomsnittlig åsiktspoäng (MOS) gap med mänsklig inspelning: används vanligtvis för att jämföra textens kvalitet med talröstmodellen mot en mänsklig inspelning. Kvaliteten på en röstmodell som skapats av en anpassad neural röstmodell jämfört med en mänsklig inspelning förväntas likna den, med en skillnad på högst 0,5 i MOS-poängen.
  • För anpassad neural röst kan du också använda Similarity MOS (SMOS) för att mäta hur lika de anpassade röstljuden är jämfört med de ursprungliga mänskliga inspelningarna. Med SMOS-studier uppmanas domare att lyssna på en uppsättning parkopplade ljudspår, en som genereras med hjälp av den anpassade rösten, den andra från de ursprungliga mänskliga inspelningarna i träningsdata och betygsätta om de två ljudspåren i varje par talas av samma person, med hjälp av en fempunktsskala (1 är den lägsta, 5 högst). Genomsnittspoängen rapporteras som SMOS-poängen. Vi rekommenderar att en bra anpassad neural röst uppnår en SMOS över 4,0.
  • Förutom att mäta naturlighet med MOS och SMOS kan du också utvärdera röstmodellens begriplighet genom att kontrollera uttalsprecisionen för det genererade talet. Detta görs genom att låta domare lyssna på en uppsättning testexempel, avgöra om de kan förstå innebörden och indikera alla ord som inte var begripliga för dem. Begriplighetsgraden beräknas med hjälp av procentandelen korrekt begripliga ord bland det totala antalet testade ord (dvs. antalet begripliga ord/det totala antalet testade ord * 100%). Normalt måste en användbar text till talmotor nå en poäng på > 98% för begriplighet.

Utvärderingsresultat

Text till tal levererar konsekvent högkvalitativt och naturligt klingande syntetiserat tal som uppfyller kraven från olika branscher och domäner. Våra utvärderingar omfattar omfattande testning av systemets tränings- och testdata, vilket säkerställer att det representerar avsedda användningsområden och driftsfaktorer som påträffas i verkliga scenarier, samt testning av exempel på syntetiserade talutdata.

Utvärderingsresultaten har påverkat beslut om begränsningarna i systemets design, såsom den maximala fallstorleken och den minsta mängd träningsdata som krävs. Genom att analysera systemets prestanda i olika datauppsättningar, inställningar och parametrar har lämpliga begränsningar ställts in för att optimera systemets beteende, tillförlitlighet och säkerhet.

Även om utvärderingen omfattar ett brett spektrum av användningsfall är det viktigt att notera att resultaten i viss utsträckning kan generaliseras över användningsfall som inte var direkt en del av utvärderingen. Systemets robusthet och prestanda ger förtroende för dess förmåga att hantera olika scenarier, inklusive sådana som kanske inte uttryckligen har testats.

Här följer några rekommenderade tester och poängintervall baserat på vår erfarenhet:

Mätning Definition Hur den beräknas Rekommenderad textstorlek Rekommenderad poäng
MOS Genomsnittlig åsiktspoäng för ljudspårens kvalitet Medelvärde av betygspoängen för varje domare på varje ljud > 30 genererade ljudspår > 4,0 (normalt krävs att MOS för den mänskliga inspelningen är högre än 4,5)
MOS-lucka MOS-poängskillnaden mellan mänskliga inspelningar och de genererade ljudspåren MOS-poängen på de mänskliga inspelningarna minus MOS-poängen på de genererade ljudspåren > 10 mänskliga inspelningar, > 30 genererade ljudspår, > 20 domare på varje ljud < 0.5
SMOS Likheten mellan de genererade ljudspåren och de mänskliga inspelningarna Medelvärde av betygspoängen för likhetsnivån för varje par ljudspår > 40 par, > 20 domare på varje par > 4.0, > 3.5 (sekundärt språk)
Begriplighet Uttalsprecisionen för det genererade talet på ordnivå Procentandel av de korrekt begripliga orden bland det totala antalet testade ord > 60 genererade ljudspår, > 10 domare på varje ljud > 98%

Utvärdera och integrera text till tal för din användning

Nedan följer några metodtips som hjälper dig att på ett ansvarsfullt sätt integrera text till tal-funktioner i dina användningsfall.

Avslöja när rösten är syntetisk

Att avslöja att en röst är datorgenererad minimerar inte bara risken för skadliga resultat från bedrägeri utan ökar också förtroendet för organisationen som levererar rösten. Läs mer om hur du avslöjar.

Microsoft kräver att dess kunder avslöjar den syntetiska naturen hos text-till-tal-röster till sina användare.

  • Se till att tillhandahålla tillräcklig information till publiken, särskilt när du använder en välkänd persons röst. Människor gör bedömningar om information som delvis baseras på den person som levererar den, oavsett om de gör det medvetet eller omedvetet. Ett avslöjande kan till exempel delas verbalt i början av en sändning. Mer information finns i informationsmönster.
  • Överväg att lämna ut information till föräldrar eller andra parter med användningsfall som är utformade för eller kan användas i situationer där minderåriga och barn är inblandade. Om ditt användningsfall är avsett för minderåriga eller barn måste du se till att ditt avslöjande är tydligt och transparent så att föräldrar eller vårdnadshavare kan förstå syntetiska mediers roll och fatta ett välgrundat beslut på uppdrag av minderåriga eller barn om huruvida de ska använda upplevelsen.

Avslöja när avatarvideon är syntetisk

Att avslöja att en avatar som talar video är datorgenererad minimerar inte bara risken för skadliga resultat från bedrägeri utan ökar också förtroendet för organisationen som levererar videon. Läs mer om hur du avslöjar.

Microsoft kräver att dess kunder avslöjar den syntetiska karaktären hos text-till-tal-avatarer för sina användare.

  • Se till att ge tillräckligt med information till målgrupper, särskilt när du använder en välkänd persons bild (och röst). Människor gör bedömningar om information som delvis baseras på den person som levererar den, oavsett om de gör det medvetet eller omedvetet. Ett avslöjande kan till exempel göras med en vattenstämpel, till exempel "Rösten och bilden i den här videon är AI-genererade", i text eller verbalt delat i början av en video. Mer information finns i informationsmönster.
  • Överväg att lämna ut information till föräldrar eller andra parter med användningsfall som är utformade för eller kan användas i situationer där minderåriga och barn är inblandade. Om ditt användningsfall är avsett för minderåriga eller barn måste du se till att ditt avslöjande är tydligt och transparent så att föräldrar eller vårdnadshavare kan förstå syntetiska mediers roll och fatta ett välgrundat beslut på uppdrag av minderåriga eller barn om huruvida de ska använda upplevelsen.

Välj lämpliga rösttyper för ditt scenario

Tänk noga på användningskontexten och de potentiella skador som är förknippade med att använda text till talröster eller avatarer. Till exempel är syntetiska röster med hög återgivning kanske inte lämpliga i högriskscenarier, till exempel för personliga meddelanden, finansiella transaktioner eller komplexa situationer som kräver mänsklig anpassningsförmåga eller empati.

Användare kan också ha olika förväntningar på rösttyper och avataruttryck eller gester, beroende på kontexten. När du till exempel lyssnar på känsliga nyheter som läss av en syntetisk röst föredrar vissa användare en mer empatisk och mänsklig ton, medan andra föredrar en neutral röst. Överväg att testa ditt program för att bättre förstå användarinställningar.

Var transparent om funktioner och begränsningar

Användare är mer benägna att ha högre förväntningar när de interagerar med syntetiska röstagenter med hög återgivning. När systemfunktionerna inte uppfyller dessa förväntningar kan förtroendet bli lidande och leda till obehagliga eller till och med skadliga upplevelser.

Ge valfritt mänskligt stöd

I tvetydiga transaktionsscenarier (till exempel ett kundtjänstcenter) litar användarna inte alltid på att en datoragent svarar korrekt på sina begäranden. Mänskligt stöd kan vara nödvändigt i dessa situationer, oavsett den realistiska kvaliteten på systemets röst eller förmåga.

Överväganden för rösttalanger

När kunder arbetar med rösttalanger för att skapa anpassad neural röst gäller riktlinjerna nedan.

  • Rösttalanger bör ha kontroll över sin röstmodell (hur och var den ska användas) och kompenseras för dess användning. Microsoft kräver att kunder som använder anpassade neurala röster skaffar uttryckligt skriftligt tillstånd från rösttalanger för att skapa en syntetisk röst och säkerställer att avtalet med varje individ omfattar varaktigheten, användningen och eventuella innehållsbegränsningar. Om du skapar en syntetisk röst för en välkänd person bör du ge rösttalangen ett sätt att redigera eller godkänna innehållet i de utdata som du planerar att generera med röstmodellen.
  • Vissa rösttalanger kanske inte känner till potentiell skadlig användning av teknik och bör utbildas av systemägare om teknikens funktioner. Microsoft kräver att kunder delar Microsofts Disclosure for voice and avatar talent med rösttalanger direkt eller via rösttalangens auktoriserade representant för att beskriva hur syntetiska röster utvecklas och fungerar tillsammans med text till taltjänster.

Överväganden för avatar-talanger

När kunder arbetar med avatartalanger för att skapa anpassade avatarer gäller riktlinjerna nedan.

  • Avatar talang bör ha kontroll över sin avatar modell (hur och var den kommer att användas) och kompenseras för dess användning. Microsoft kräver att kunder med anpassade avatarer skaffar explicit skriftligt tillstånd från sin avatarstalang för att skapa en syntetisk text-till-tal-avatar och se till att kundens avtal med varje individ tar hänsyn till varaktighet, användning och några innehållsbegränsningar. Om du skapar en anpassad avatar av en välkänd person bör du tillhandahålla ett sätt för avatartalangen att redigera eller godkänna innehållet i de utdata som du planerar att generera med röstmodellen.
  • Vissa avatartalanger kanske inte känner till potentiell skadlig användning av teknik och bör utbildas av systemägare om teknikens funktioner. Microsoft kräver att kunder delar Microsofts Avslöjande för röst- och avatartalanger med avatartalanger direkt eller via avatartalangens auktoriserade representant för att beskriva hur syntetiska avatarvideor skapas och fungerar i samspel med tal-till-text-tjänster.

Överväganden för personer med talstörningar

När du arbetar med personer med talstörningar för att skapa eller distribuera syntetisk röstteknik gäller följande riktlinjer.

Ge riktlinjer för kontrakt med talanger i tillgänglighetsscenarier

Kunder bör utveckla riktlinjer för att upprätta kontrakt med personer som använder syntetiska röster för att få hjälp med att tala. Kunder bör överväga att i sina kontrakt med enskilda användare ange varaktigheten för användning, ägarskapsöverföring och/eller licenskriterier, procedurer för att ta bort röstmodellen och hur du förhindrar obehörig åtkomst.

Ta hänsyn till inkonsekvenser i talmönster

För personer med talstörningar som spelar in sina egna röstteckensnitt kan inkonsekvenser i deras talmönster (sluddring eller oförmåga att uttala vissa ord) komplicera inspelningsprocessen. I dessa fall bör syntetisk röstteknik och inspelningssessioner planeras med lämpliga anpassningar som bestäms av kunden (till exempel tillhandahålla pauser eller ytterligare inspelningssessioner).

Tillåt ändringar över tid

Personer med talstörningar kan vilja uppdatera sin syntetiska röst för att återspegla förändringar på grund av åldrande eller andra faktorer. Individer kan också ha stilistiska inställningar som ändras över tid och kanske vill göra ändringar i tonhöjd, accent eller andra röstegenskaper.

Läs mer om ansvarsfull AI

Läs mer om Azure Speech