Redigera

Share via


Vanliga frågor och svar om tal till text

Den här artikeln besvarar vanliga frågor om tal till text-tjänsten. Om du inte hittar svar på dina frågor här kan du läsa andra supportalternativ.

Allmänt

Vad är skillnaden mellan en basmodell och en anpassad tal till textmodell?

Ett baslinjetal till textmodell tränas med Microsoft-ägda data och har redan distribuerats i molnet. Du kan skapa och använda en anpassad modell för att bättre passa en miljö som har specifikt omgivande brus eller språk. Fabriksgolv, bilar eller bullriga gator skulle kräva en anpassad akustisk modell. Ämnen som biologi, fysik, radiologi, produktnamn och anpassade förkortningar skulle kräva en anpassad språkmodell. Om du vill träna en anpassad modell bör du börja med relaterad text för att förbättra igenkänningen av särskilda termer och fraser.

Var börjar jag om jag vill använda en basmodell?

Hämta först en Speech-resursnyckel och -region i Azure-portalen. Om du vill göra REST-anrop till en fördistribuerad basmodell kan du läsa dokumentationen om REST-API:er . Om du vill använda WebSockets laddar du ned Speech SDK.

Behöver jag alltid skapa en anpassad talmodell?

Nej. Om ditt program använder ett allmänt, dagligt språk behöver du inte anpassa en modell. Om ditt program används i en miljö där det finns lite eller inget bakgrundsbrus behöver du inte anpassa en modell.

Du kan distribuera baslinjemodeller och anpassade modeller i portalen och sedan köra noggrannhetstester mot dem. Du kan använda den här funktionen för att mäta noggrannheten för en basmodell jämfört med en anpassad modell.

Hur gör jag för att vet när bearbetningen av min datauppsättning eller modell är klar?

För närvarande är det enda sättet att veta att visa status för modellen eller datamängden i tabellen. När bearbetningen är klar är statusen Lyckades.

Kan jag skapa fler än en modell?

Det finns ingen gräns för hur många modeller du kan ha i samlingen.

Jag insåg att jag gjorde ett misstag. Hur gör jag för att avbryta en dataimport eller modellskapande som pågår?

För närvarande kan du inte återställa en akustisk eller språkanpassad process. Du kan ta bort importerade data och modeller när de är i ett terminaltillstånd.

Jag får flera resultat för varje fras med det detaljerade utdataformatet. Vilken ska jag använda?

Ta alltid det första resultatet, även om ett annat resultat ("N-Best") kan ha ett högre konfidensvärde. Speech Service anser att det första resultatet är det bästa. Resultatet kan också vara en tom sträng om inget tal kändes igen.

De andra resultaten är sannolikt sämre och kanske inte har full versaler och skiljetecken tillämpat. Dessa resultat är mest användbara i särskilda scenarier, till exempel att ge användarna möjlighet att välja korrigeringar från en lista eller hantera felaktigt identifierade kommandon.

Varför finns det flera basmodeller?

Du kan välja mellan mer än en basmodell i Speech Service. Varje modellnamn innehåller datumet då det lades till. När du börjar träna en anpassad modell använder du den senaste modellen för att få bästa noggrannhet. Äldre basmodeller är fortfarande tillgängliga under en tid efter att en ny modell har gjorts tillgänglig. Du kan fortsätta att använda den modell som du arbetade med tills den har dragits tillbaka (se Livscykel för modell och slutpunkt). Vi rekommenderar fortfarande att du byter till den senaste basmodellen för bättre noggrannhet.

Kan jag uppdatera min befintliga modell (modellstapling)?

Du kan inte uppdatera en befintlig modell. Som en lösning kombinerar du den gamla datamängden med den nya datauppsättningen och readapt.

Den gamla datamängden och den nya datamängden måste kombineras i en enda .zip fil (för akustiska data) eller i en .txt fil (för språkdata). När anpassningen är klar distribuerar du om den nya uppdaterade modellen för att hämta en ny slutpunkt.

Uppdateras min distribution automatiskt när en ny version av en basmodell är tillgänglig?

Distributioner uppdateras inte automatiskt.

Om du har anpassat och distribuerat en modell förblir den befintliga distributionen som den är. Du kan inaktivera den distribuerade modellen, läsa den med hjälp av den nyare versionen av basmodellen och distribuera den igen för bättre noggrannhet.

Både basmodeller och anpassade modeller dras tillbaka efter en tid (se Livscykel för modell och slutpunkt).

Kan jag ladda ned min modell och köra den lokalt?

Du kan köra en anpassad modell lokalt i en Docker-container.

Kan jag kopiera eller flytta mina datauppsättningar, modeller och distributioner till en annan region eller prenumeration?

Du kan använda rest-API:et Models_Copy för att kopiera en anpassad modell till en annan region eller prenumeration. Det går inte att kopiera datauppsättningar och distributioner. Du kan importera en datauppsättning igen i en annan prenumeration och skapa slutpunkter där med hjälp av modellkopior.

Loggas mina begäranden?

Som standard loggas inte begäranden (varken ljud eller transkription). Om det behövs kan du välja alternativet Logga innehåll från den här slutpunkten när du skapar en anpassad slutpunkt. Du kan också aktivera ljudloggning i Speech SDK per begäran, utan att behöva skapa en anpassad slutpunkt. I båda fallen lagras ljud- och igenkänningsresultat för begäranden i säker lagring. Prenumerationer som använder Microsoft-ägd lagring är tillgängliga i 30 dagar.

Du kan exportera de loggade filerna på distributionssidan i Speech Studio om du använder en anpassad slutpunkt med Logginnehåll från den här slutpunkten aktiverat. Om ljudloggning är aktiverat via SDK anropar du API:et för att komma åt filerna. Du kan också använda API för att ta bort loggarna när som helst.

Begränsas mina begäranden?

Mer information finns i Speech Service-kvoter och -gränser.

Hur debiteras jag för ljud med dubbla kanaler?

Om du skickar varje kanal separat i en egen fil debiteras du för ljudvaraktigheten för varje fil. Om du skickar en enda fil med kanalerna multiplexerade tillsammans debiteras du under hela den enskilda filen. Mer information om priser finns på prissättningssidan för Azure AI-tjänster.

Viktigt!

Om du har ytterligare sekretessproblem som hindrar dig från att använda den anpassade taltjänsten kontaktar du någon av supportkanalerna.

Öka samtidigheten

Mer information finns i Speech Service-kvoter och -gränser.

Importera data

Vad är gränsen för storleken på en datamängd och varför är den gränsen?

Gränsen beror på begränsningen av storleken på filer för HTTP-uppladdning. Den faktiska gränsen finns i Speech Service-kvoter och -gränser. Du kan dela upp dina data i flera datauppsättningar och välja alla för att träna modellen.

Kan jag zippa (komprimera) mina textfiler så att jag kan ladda upp en större textfil?

Nej. För närvarande tillåts endast okomprimerade textfiler.

Datarapporten säger att det fanns misslyckade yttranden. Vad är problemet?

Det går inte att ladda upp 100 procent av yttrandena i en fil. Om de flesta yttrandena i en akustisk datauppsättning eller språkdatauppsättning (till exempel mer än 95 procent) har importerats kan datamängden användas. Vi rekommenderar dock fortfarande att du försöker förstå varför yttrandena misslyckades och sedan åtgärda problemet. De vanligaste problemen, till exempel formateringsfel, är enkla att åtgärda.

Skapa en akustisk modell

Hur mycket akustiska data behöver jag?

Vi rekommenderar att du börjar med akustiska data från 30 minuter till 1 timme.

Vilka data ska jag samla in?

Samla in data som är så nära programscenariot och användningsfallet som möjligt. Datainsamlingen ska matcha målprogrammet och användarna när det gäller enheter, miljöer och typer av talare. I allmänhet bör du samla in data från så många talare som möjligt.

Hur ska jag samla in akustiska data?

Du kan skapa ett fristående program för datainsamling eller använda programvara för ljudinspelning utanför hyllan. Du kan också skapa en version av ditt program som loggar ljuddata och sedan använder data.

Behöver jag själv transkribera anpassningsdata?

Ja. Du kan transkribera den själv eller använda en professionell transkriptionstjänst. Vissa användare föredrar professionella transkriberare, och andra använder crowdsourcing eller transkriberar själva data.

Hur lång tid tar det att träna en anpassad modell med ljuddata?

Att träna en modell med ljuddata kan vara en lång process. Beroende på mängden data kan det ta flera dagar att skapa en anpassad modell. Om den inte kan avslutas inom en vecka kan tjänsten avbryta träningsåtgärden och rapportera modellen som misslyckad.

I allmänhet bearbetar Speech Service cirka 10 timmars ljuddata per dag i regioner som har dedikerad maskinvara. Den kan bara bearbeta cirka 1 timmes ljuddata per dag i andra regioner. Det går snabbare att träna med text och avslutas vanligtvis inom några minuter.

Använd en av de regioner där dedikerad maskinvara är tillgänglig för träning. Speech-tjänsten använder upp till 20 timmars ljud för träning i dessa regioner. I andra regioner använder Speech-tjänsten upp till 8 timmar.

Noggrannhetstestning

Vad är ordfelfrekvens (WER) och hur beräknas det?

WER är utvärderingsmåttet för taligenkänning. WER beräknas som det totala antalet fel (infogningar, borttagningar och ersättningar), dividerat med det totala antalet ord i referensavskriften. Mer information finns i Testa modell kvantitativt.

Hur gör jag för att avgöra om resultatet av ett noggrannhetstest är bra?

Resultaten visar en jämförelse mellan basmodellen och den modell som du anpassade. Om du vill göra anpassningen värdefull bör du sträva efter att slå basmodellen.

Hur gör jag för att fastställa WER för en basmodell så att jag kan se om den har förbättrats?

Resultaten från offlinetestet visar baslinjeprecisionen för den anpassade modellen och förbättringen jämfört med baslinjen.

Skapa en språkmodell

Hur mycket textdata behöver jag ladda upp?

Det beror på hur olika ordförråd och fraser som används i ditt program är från startspråkmodellerna. För alla nya ord är det användbart att tillhandahålla så många exempel som möjligt på användningen av dessa ord. För vanliga fraser som används i ditt program, inklusive fraser i språkdata, är det användbart att tillhandahålla många exempel eftersom det talar om för systemet att lyssna efter dessa termer också. Det är vanligt att ha minst 100 och vanligtvis flera hundra eller fler yttranden i språkdatauppsättningen. Om vissa typer av frågor förväntas vara vanligare än andra kan du också infoga flera kopior av de vanliga frågorna i datauppsättningen.

Kan jag bara ladda upp en lista med ord?

När du laddar upp en lista med ord läggs de till i vokabulären, men det lär inte systemet hur orden normalt används. Genom att tillhandahålla fullständiga eller partiella yttranden (meningar eller fraser av saker som användarna sannolikt kommer att säga) kan språkmodellen lära sig de nya orden och hur de används. Den anpassade språkmodellen är bra inte bara för att lägga till nya ord i systemet, utan även för att justera sannolikheten för kända ord för ditt program. Genom att tillhandahålla fullständiga yttranden kan systemet lära sig bättre.