Q: Uppdateras min distribution automatiskt när en ny version av en basmodell är tillgänglig?

Distributioner uppdateras inte automatiskt. Om du har anpassat och distribuerat en modell förblir den befintliga distributionen som den är. Du kan inaktivera den distribuerade modellen, läsa den med hjälp av den nyare versionen av basmodellen och distribuera den igen för bättre noggrannhet. Både basmodeller och anpassade modeller dras tillbaka efter en tid (se Livscykel för modell och slutpunkt).

Question 1

Vad är skillnaden mellan en basmodell och en anpassad tal till textmodell?

Accepted Answer

Ett baslinjetal till textmodell tränas med Microsoft-ägda data och har redan distribuerats i molnet. Du kan skapa och använda en anpassad modell för att bättre passa en miljö som har specifikt omgivande brus eller språk. Fabriksgolv, bilar eller bullriga gator skulle kräva en anpassad akustisk modell. Ämnen som biologi, fysik, radiologi, produktnamn och anpassade förkortningar skulle kräva en anpassad språkmodell. Om du vill träna en anpassad modell bör du börja med relaterad text för att förbättra igenkänningen av särskilda termer och fraser.

Question 2

Var börjar jag om jag vill använda en basmodell?

Accepted Answer

Hämta först en Speech-resursnyckel och -region i Azure-portalen. Om du vill göra REST-anrop till en fördistribuerad basmodell kan du läsa dokumentationen om REST-API:er . Om du vill använda WebSockets laddar du ned Speech SDK.

Question 3

Behöver jag alltid skapa en anpassad talmodell?

Accepted Answer

Nej. Om ditt program använder ett allmänt, dagligt språk behöver du inte anpassa en modell. Om ditt program används i en miljö där det finns lite eller inget bakgrundsbrus behöver du inte anpassa en modell.

Du kan distribuera baslinjemodeller och anpassade modeller i portalen och sedan köra noggrannhetstester mot dem. Du kan använda den här funktionen för att mäta noggrannheten för en basmodell jämfört med en anpassad modell.

Question 4

Hur gör jag för att vet när bearbetningen av min datauppsättning eller modell är klar?

Accepted Answer

För närvarande är det enda sättet att veta att visa status för modellen eller datamängden i tabellen. När bearbetningen är klar är statusen Lyckades.

Question 5

Kan jag skapa fler än en modell?

Accepted Answer

Det finns ingen gräns för hur många modeller du kan ha i samlingen.

Question 6

Jag insåg att jag gjorde ett misstag. Hur gör jag för att avbryta en dataimport eller modellskapande som pågår?

Accepted Answer

För närvarande kan du inte återställa en akustisk eller språkanpassad process. Du kan ta bort importerade data och modeller när de är i ett terminaltillstånd.

Question 7

Jag får flera resultat för varje fras med det detaljerade utdataformatet. Vilken ska jag använda?

Accepted Answer

Ta alltid det första resultatet, även om ett annat resultat ("N-Best") kan ha ett högre konfidensvärde. Speech Service anser att det första resultatet är det bästa. Resultatet kan också vara en tom sträng om inget tal kändes igen.

De andra resultaten är sannolikt sämre och kanske inte har full versaler och skiljetecken tillämpat. Dessa resultat är mest användbara i särskilda scenarier, till exempel att ge användarna möjlighet att välja korrigeringar från en lista eller hantera felaktigt identifierade kommandon.

Question 8

Varför finns det flera basmodeller?

Accepted Answer

Du kan välja mellan mer än en basmodell i Speech Service. Varje modellnamn innehåller datumet då det lades till. När du börjar träna en anpassad modell använder du den senaste modellen för att få bästa noggrannhet. Äldre basmodeller är fortfarande tillgängliga under en tid efter att en ny modell har gjorts tillgänglig. Du kan fortsätta att använda den modell som du arbetade med tills den har dragits tillbaka (se Livscykel för modell och slutpunkt). Vi rekommenderar fortfarande att du byter till den senaste basmodellen för bättre noggrannhet.

Question 9

Kan jag uppdatera min befintliga modell (modellstapling)?

Accepted Answer

Du kan inte uppdatera en befintlig modell. Som en lösning kombinerar du den gamla datamängden med den nya datauppsättningen och readapt.

Den gamla datamängden och den nya datamängden måste kombineras i en enda .zip fil (för akustiska data) eller i en .txt fil (för språkdata). När anpassningen är klar distribuerar du om den nya uppdaterade modellen för att hämta en ny slutpunkt.

Question 10

Uppdateras min distribution automatiskt när en ny version av en basmodell är tillgänglig?

Accepted Answer

Distributioner uppdateras inte automatiskt.

Om du har anpassat och distribuerat en modell förblir den befintliga distributionen som den är. Du kan inaktivera den distribuerade modellen, läsa den med hjälp av den nyare versionen av basmodellen och distribuera den igen för bättre noggrannhet.

Både basmodeller och anpassade modeller dras tillbaka efter en tid (se Livscykel för modell och slutpunkt).

Question 11

Kan jag ladda ned min modell och köra den lokalt?

Accepted Answer

Du kan köra en anpassad modell lokalt i en Docker-container.

Question 12

Kan jag kopiera eller flytta mina datauppsättningar, modeller och distributioner till en annan region eller prenumeration?

Accepted Answer

Du kan använda rest-API:et Models_Copy för att kopiera en anpassad modell till en annan region eller prenumeration. Det går inte att kopiera datauppsättningar och distributioner. Du kan importera en datauppsättning igen i en annan prenumeration och skapa slutpunkter där med hjälp av modellkopior.

Question 13

Loggas mina begäranden?

Accepted Answer

Som standard loggas inte begäranden (varken ljud eller transkription). Om det behövs kan du välja alternativet Logga innehåll från den här slutpunkten när du skapar en anpassad slutpunkt. Du kan också aktivera ljudloggning i Speech SDK per begäran, utan att behöva skapa en anpassad slutpunkt. I båda fallen lagras ljud- och igenkänningsresultat för begäranden i säker lagring. Prenumerationer som använder Microsoft-ägd lagring är tillgängliga i 30 dagar.

Du kan exportera de loggade filerna på distributionssidan i Speech Studio om du använder en anpassad slutpunkt med Logginnehåll från den här slutpunkten aktiverat. Om ljudloggning är aktiverat via SDK anropar du API:et för att komma åt filerna. Du kan också använda API för att ta bort loggarna när som helst.

Question 14

Begränsas mina begäranden?

Accepted Answer

Mer information finns i Speech Service-kvoter och -gränser.

Question 15

Hur debiteras jag för ljud med dubbla kanaler?

Accepted Answer

Om du skickar varje kanal separat i en egen fil debiteras du för ljudvaraktigheten för varje fil. Om du skickar en enda fil med kanalerna multiplexerade tillsammans debiteras du under hela den enskilda filen. Mer information om priser finns på prissättningssidan för Azure AI-tjänster.

Viktigt!

Om du har ytterligare sekretessproblem som hindrar dig från att använda den anpassade taltjänsten kontaktar du någon av supportkanalerna.

Öka samtidigheten

Mer information finns i Speech Service-kvoter och -gränser.

Question 16

Vad är gränsen för storleken på en datamängd och varför är den gränsen?

Accepted Answer

Gränsen beror på begränsningen av storleken på filer för HTTP-uppladdning. Den faktiska gränsen finns i Speech Service-kvoter och -gränser. Du kan dela upp dina data i flera datauppsättningar och välja alla för att träna modellen.

Question 17

Kan jag zippa (komprimera) mina textfiler så att jag kan ladda upp en större textfil?

Accepted Answer

Nej. För närvarande tillåts endast okomprimerade textfiler.

Question 18

Datarapporten säger att det fanns misslyckade yttranden. Vad är problemet?

Accepted Answer

Det går inte att ladda upp 100 procent av yttrandena i en fil. Om de flesta yttrandena i en akustisk datauppsättning eller språkdatauppsättning (till exempel mer än 95 procent) har importerats kan datamängden användas. Vi rekommenderar dock fortfarande att du försöker förstå varför yttrandena misslyckades och sedan åtgärda problemet. De vanligaste problemen, till exempel formateringsfel, är enkla att åtgärda.

Question 19

Hur mycket akustiska data behöver jag?

Accepted Answer

Vi rekommenderar att du börjar med akustiska data från 30 minuter till 1 timme.

Question 20

Vilka data ska jag samla in?

Accepted Answer

Samla in data som är så nära programscenariot och användningsfallet som möjligt. Datainsamlingen ska matcha målprogrammet och användarna när det gäller enheter, miljöer och typer av talare. I allmänhet bör du samla in data från så många talare som möjligt.

Question 21

Hur ska jag samla in akustiska data?

Accepted Answer

Du kan skapa ett fristående program för datainsamling eller använda programvara för ljudinspelning utanför hyllan. Du kan också skapa en version av ditt program som loggar ljuddata och sedan använder data.

Question 22

Behöver jag själv transkribera anpassningsdata?

Accepted Answer

Ja. Du kan transkribera den själv eller använda en professionell transkriptionstjänst. Vissa användare föredrar professionella transkriberare, och andra använder crowdsourcing eller transkriberar själva data.

Question 23

Hur lång tid tar det att träna en anpassad modell med ljuddata?

Accepted Answer

Att träna en modell med ljuddata kan vara en lång process. Beroende på mängden data kan det ta flera dagar att skapa en anpassad modell. Om den inte kan avslutas inom en vecka kan tjänsten avbryta träningsåtgärden och rapportera modellen som misslyckad.

I allmänhet bearbetar Speech Service cirka 10 timmars ljuddata per dag i regioner som har dedikerad maskinvara. Den kan bara bearbeta cirka 1 timmes ljuddata per dag i andra regioner. Det går snabbare att träna med text och avslutas vanligtvis inom några minuter.

Använd en av de regioner där dedikerad maskinvara är tillgänglig för träning. Speech-tjänsten använder upp till 20 timmars ljud för träning i dessa regioner. I andra regioner använder Speech-tjänsten upp till 8 timmar.

Question 24

Vad är ordfelfrekvens (WER) och hur beräknas det?

Accepted Answer

WER är utvärderingsmåttet för taligenkänning. WER beräknas som det totala antalet fel (infogningar, borttagningar och ersättningar), dividerat med det totala antalet ord i referensavskriften. Mer information finns i Testa modell kvantitativt.

Question 25

Hur gör jag för att avgöra om resultatet av ett noggrannhetstest är bra?

Accepted Answer

Resultaten visar en jämförelse mellan basmodellen och den modell som du anpassade. Om du vill göra anpassningen värdefull bör du sträva efter att slå basmodellen.

Question 26

Hur gör jag för att fastställa WER för en basmodell så att jag kan se om den har förbättrats?

Accepted Answer

Resultaten från offlinetestet visar baslinjeprecisionen för den anpassade modellen och förbättringen jämfört med baslinjen.

Question 27

Hur mycket textdata behöver jag ladda upp?

Accepted Answer

Det beror på hur olika ordförråd och fraser som används i ditt program är från startspråkmodellerna. För alla nya ord är det användbart att tillhandahålla så många exempel som möjligt på användningen av dessa ord. För vanliga fraser som används i ditt program, inklusive fraser i språkdata, är det användbart att tillhandahålla många exempel eftersom det talar om för systemet att lyssna efter dessa termer också. Det är vanligt att ha minst 100 och vanligtvis flera hundra eller fler yttranden i språkdatauppsättningen. Om vissa typer av frågor förväntas vara vanligare än andra kan du också infoga flera kopior av de vanliga frågorna i datauppsättningen.

Question 28

Kan jag bara ladda upp en lista med ord?

Accepted Answer

När du laddar upp en lista med ord läggs de till i vokabulären, men det lär inte systemet hur orden normalt används. Genom att tillhandahålla fullständiga eller partiella yttranden (meningar eller fraser av saker som användarna sannolikt kommer att säga) kan språkmodellen lära sig de nya orden och hur de används. Den anpassade språkmodellen är bra inte bara för att lägga till nya ord i systemet, utan även för att justera sannolikheten för kända ord för ditt program. Genom att tillhandahålla fullständiga yttranden kan systemet lära sig bättre.

Dela via

Vanliga frågor och svar om tal till text

Allmänt