Speech Service-kvoter och -gränser

Artikel
09/27/2024

Den här artikeln innehåller en snabbreferens och en detaljerad beskrivning av kvoterna och gränserna för Speech-tjänsten i Azure AI-tjänster. Informationen gäller för alla prisnivåer för tjänsten. Den innehåller också några metodtips för att undvika begränsning av begäranden.

För den kostnadsfria prisnivån (F0) kan du även se de månatliga traktamentena på prissidan.

Referens för kvoter och gränser

I följande avsnitt får du en snabbguide till de kvoter och gränser som gäller för Speech-tjänsten.

Information om justerbara kvoter för Standard(S0) Speech-resurser finns i fler förklaringar, metodtips och justeringsinstruktioner. Kvoterna och gränserna för kostnadsfria (F0) Speech-resurser kan inte justeras.

Viktigt!

Om du byter en Speech-resurs från prisnivån Kostnadsfri (F0) till Standard (S0) kan det ta upp till flera timmar att ändra motsvarande kvoter.

Tal till textkvoter och -gränser per resurs

I det här avsnittet beskrivs tal till textkvoter och gränser per Speech-resurs. Om inget annat anges kan gränserna inte justeras.

Tal till text och talöversättning i realtid

Du kan använda tal till text i realtid med Speech SDK eller REST API för tal till text för kort ljud.

Viktigt!

Dessa gränser gäller för samtidiga realtidstal för textbegäranden och talöversättningsbegäranden tillsammans. Om du till exempel har 60 samtidiga tal till textbegäranden och 40 samtidiga talöversättningsbegäranden når du gränsen på 100 samtidiga begäranden.

Kvot	Kostnadsfritt (F0)	Standard (S0)
Gräns för samtidig begäran – basmodellslutpunkt	1 Den här gränsen kan inte justeras.	100 (standardvärde) Hastigheten kan justeras för Standard-resurser (S0). Se fler förklaringar, metodtips och justeringsinstruktioner.
Gräns för samtidig begäran – anpassad slutpunkt	1 Den här gränsen kan inte justeras.	100 (standardvärde) Hastigheten kan justeras för Standard-resurser (S0). Se fler förklaringar, metodtips och justeringsinstruktioner.
Maximal ljudlängd för diarisering i realtid.	Ej tillämpligt	240 minuter per fil

Snabb transkription

Kvot	Kostnadsfritt (F0)	Standard (S0)
Maximal filstorlek för ljudindata	Ej tillämpligt	200 MB
Maximal ljudlängd	Ej tillämpligt	120 minuter per fil
Maximalt antal begäranden per minut	Ej tillämpligt	300

Batch-transkription

Kvot	Kostnadsfritt (F0)	Standard (S0)
Rest API-gräns för tal till text	Inte tillgängligt för F0	100 begäranden per 10 sekunder (600 begäranden per minut)
Maximal filstorlek för ljudinmatning	Saknas	1 GB
Maximalt antal blobar per container	Ej tillämpligt	10000
Maximalt antal filer per transkriptionsbegäran (när du använder flera innehålls-URL:er som indata).	Ej tillämpligt	1000
Maximal ljudlängd för transkriptioner med diarisering aktiverat.	Ej tillämpligt	240 minuter per fil

Modellanpassning

Gränserna i den här tabellen gäller per Speech-resurs när du skapar en anpassad talmodell.

Kvot	Kostnadsfritt (F0)	Standard (S0)
REST API-gräns	100 begäranden per 10 sekunder (600 begäranden per minut)	100 begäranden per 10 sekunder (600 begäranden per minut)
Maximalt antal taldatauppsättningar	2	500
Maximal filstorlek för akustisk datauppsättning för dataimport	2 GB	2 GB
Maximal filstorlek för språkdatauppsättning för dataimport	200 MB	1.5 GB
Maximal uttalsdatauppsättningsfilstorlek för dataimport	1 kB	1 MB
Maximal textstorlek när du använder parametern `text` i Models_Create API-begäran	200 KB	500 kB

Text till tal-kvoter och -gränser per resurs

I det här avsnittet beskrivs text till talkvoter och -gränser per Speech-resurs.

Text till tal i realtid

Du kan använda text i realtid till tal med Speech SDK eller REST API för text till tal. Om inget annat anges kan gränserna inte justeras.

Kvot	Kostnadsfritt (F0)	Standard (S0)
Maximalt antal transaktioner per tidsperiod för fördefinierade neurala röster och anpassade neurala röster.	20 transaktioner per 60 sekunder Den här gränsen kan inte justeras.	200 transaktioner per sekund (TPS) (standardvärde) Hastigheten kan justeras upp till 1 000 TPS för standardresurser (S0). Se fler förklaringar, metodtips och justeringsinstruktioner.
Maximal ljudlängd per begäran	10 min	10 min
Maximalt totalt antal distinkta `<voice>` taggar och `<audio>` taggar i SSML	50	50
Maximal SSML-meddelandestorlek per tur för websocket	64 KB	64 KB

Batchsyntes

Dessa gränser kan inte justeras. Mer information om svarstid för batchsyntes finns i svarstid och metodtips för batchsyntes.

Kvot	Kostnadsfritt (F0)	Standard (S0)
REST API-gräns	Inte tillgängligt för F0	100 begäranden per 10 sekunder
Maximal JSON-nyttolaststorlek för att skapa ett syntesjobb	Ej tillämpligt	2 megabyte
Samtidiga aktiva syntesjobb	Ej tillämpligt	Ingen begränsning
Maximalt antal textindata per syntesjobb	Ej tillämpligt	10000
Maximal tid att leva för ett syntesjobb eftersom det är i det slutliga tillståndet	Ej tillämpligt	Upp till 31 dagar (anges med egenskaper)

Anpassad neural röst – professionell

Gränserna i den här tabellen gäller per Speech-resurs när du skapar en professionell anpassad neural röstmodell.

Kvot	Kostnadsfritt (F0)	Standard (S0)
Maximalt antal transaktioner per sekund (TPS)	Inte tillgängligt för F0	200 transaktioner per sekund (TPS) (standardvärde)
Maximalt antal datamängder	Ej tillämpligt	500
Maximalt antal samtidiga uppladdningar av datamängder	Ej tillämpligt	5
Maximal datafilstorlek för dataimport per datauppsättning	Ej tillämpligt	2 GB
Uppladdning av långt ljud eller ljud utan skript	Ej tillämpligt	Ja
Maximalt antal samtidiga modellträningar	Ej tillämpligt	4
Maximalt antal anpassade slutpunkter	Ej tillämpligt	50

Anpassad neural röst – personlig röst

Gränserna i den här tabellen gäller per Speech-resurs när du skapar en personlig röst.

Kvot	Kostnadsfritt (F0)	Standard (S0)
REST API-gräns (exklusive talsyntes)	Inte tillgängligt för F0	50 begäranden per 10 sekunder
Maximalt antal transaktioner per sekund (TPS) för talsyntes	Inte tillgängligt för F0	200 transaktioner per sekund (TPS) (standardvärde)

Batchtext till tal-avatar

Kvot	Kostnadsfritt (F0)	Standard (S0)
REST API-gräns	Inte tillgängligt för F0	2 begäranden per 1 minut

Text till tal-avatar i realtid

Kvot	Kostnadsfritt (F0)	Standard (S0)
Nya anslutningar per minut	Inte tillgängligt för F0	2 nya anslutningar per minut
Maximal anslutningstid med tal	Inte tillgängligt för F0	10 minuter¹
Maximal anslutningstid med inaktivt tillstånd	Inte tillgängligt för F0	5 minuter

¹ För att säkerställa kontinuerlig drift av realtids-avataren i mer än 10 minuter kan du aktivera automatisk återanslutning. Information om hur du konfigurerar automatisk återanslutning finns i den här exempelkoden (sök "automatisk återanslutning").

Verktyg för att skapa ljudinnehåll

Kvot	Kostnadsfritt (F0)	Standard (S0)
Filstorlek (oformaterad text i SSML)¹	3 000 tecken per fil	20 000 tecken per fil
Filstorlek (lexikonfil)²	30 KB per fil	100 KB per fil
Fakturerbara tecken i SSML	15 000 tecken per fil	100 000 tecken per fil
Exportera till ljudbibliotek	1 samtidig aktivitet	Ej tillämpligt

¹ Gränsen gäller endast oformaterad text i SSML och innehåller inte taggar.

² Tecknen i lexikonfilen debiteras inte. Endast lexikonelementen i SSML räknas som fakturerbara tecken. Mer information finns i fakturerbara tecken.

Kvoter och gränser för talarigenkänning per resurs

Talarigenkänning är begränsad till 20 transaktioner per sekund (TPS).

Detaljerad beskrivning, kvotjustering och metodtips

Vissa av kvoterna för Speech-tjänsten kan justeras. Det här avsnittet innehåller fler förklaringar, metodtips och justeringsinstruktioner.

Följande kvoter kan justeras för Standard-resurser (S0). Gränserna för kostnadsfria begäranden (F0) kan inte justeras.

Gräns för samtidiga begäranden för tal till text för basmodellslutpunkten och den anpassade slutpunkten
Text till tal maximalt antal transaktioner per tidsperiod för fördefinierade neurala röster och anpassade neurala röster
Gräns för samtidiga begäranden för talöversättning

Innan du begär en kvotökning (i förekommande fall) kontrollerar du din aktuella TPS (transaktioner per sekund) och ser till att det är nödvändigt att öka kvoten. Speech Service använder teknik för automatisk skalning för att föra de nödvändiga beräkningsresurserna i läget på begäran. Samtidigt försöker Speech-tjänsten hålla dina kostnader låga genom att inte upprätthålla en alltför stor mängd maskinvarukapacitet.

Låt oss ta en titt på ett exempel. Anta att ditt program tar emot svarskod 429, vilket indikerar att det finns för många begäranden. Ditt program får det här svaret även om din arbetsbelastning ligger inom de gränser som definieras av referensen Kvoter och gränser. Den mest sannolika förklaringen är att Speech-tjänsten skalas upp till din efterfrågan och inte når den nödvändiga skalan ännu. Därför har tjänsten inte omedelbart tillräckligt med resurser för att hantera begäran. I sådana fall hjälper det inte att öka kvoten. I de flesta fall kommer Speech-tjänsten att skalas upp snart och problemet som orsakar svarskoden 429 kommer att lösas.

Allmänna metodtips för att minska begränsningen vid automatisk skalning

För att minimera problem som rör begränsning är det en bra idé att använda följande tekniker:

Implementera logik för omprövning i ditt program.
Undvik stora plötsliga ändringar i arbetsbelastningen. Öka arbetsbelastningen gradvis. Anta till exempel att ditt program använder text till tal och att din aktuella arbetsbelastning är 5 TPS. Nästa sekund ökar du belastningen till 20 TPS (alltså fyra gånger mer). Speech Service börjar omedelbart skala upp för att uppfylla den nya belastningen, men kan inte skala efter behov inom en sekund. Vissa begäranden får svarskod 429 (för många begäranden).
Testa olika mönster för att öka belastningen. Mer information finns i exemplet på arbetsbelastningsmönster.
Skapa fler Speech-tjänstresurser i olika regioner och distribuera arbetsbelastningen mellan dem. (Om du skapar flera Speech-tjänstresurser i samma region påverkas inte prestandan eftersom alla resurser hanteras av samma serverdelskluster).

I nästa avsnitt beskrivs specifika fall av justering av kvoter.

Tal till text: öka gränsen för samtidiga förfrågningar i realtid till text

Som standard är antalet samtidiga förfrågningar om tal till text och talöversättning i realtid begränsade till 100 per resurs i basmodellen och 100 per anpassad slutpunkt i den anpassade modellen. För standardprisnivån kan du öka det här beloppet. Innan du skickar begäran ska du se till att du är bekant med det material som beskrivs tidigare i den här artikeln, till exempel metodtipsen för att minska begränsningen.

Kommentar

Begränsningar för samtidiga begäranden för bas- och anpassade modeller måste justeras separat. Du kan ha en Speech-tjänstresurs som är associerad med många anpassade slutpunkter som är värdar för många distributioner av anpassade modeller. Vid behov måste gränsjusteringarna per anpassad slutpunkt begäras separat.

Att öka gränsen för samtidiga begäranden påverkar inte dina kostnader direkt. Speech-tjänsten använder en betalningsmodell som kräver att du endast betalar för det du använder. Gränsen definierar hur högt tjänsten kan skalas innan den börjar begränsa dina begäranden.

Du kan inte se det befintliga värdet för parametern för samtidig gräns för begäranden i Azure Portal, kommandoradsverktygen eller API-begäranden. Om du vill verifiera det befintliga värdet skapar du en Azure Support begäran.

Kommentar

Talcontainrar kräver inte ökningar av gränsen för samtidiga begäranden, eftersom containrar endast begränsas av processorerna för den maskinvara som de finns på. Talcontainrar har dock sina egna kapacitetsbegränsningar som bör beaktas. Mer information finns i Vanliga frågor och svar om Talcontainrar.

Ha den information som krävs klar

För basmodellen:
- Talresurs-ID
- Region
För den anpassade modellen:
- Region
- Anpassat slutpunkts-ID

Så här hämtar du information för basmodellen:

Gå till Azure-portalen.
Välj den Speech Service-resurs som du vill öka gränsen för samtidighetsbegäran för.
I gruppen Resurshantering väljer du Egenskaper.
Kopiera och spara värdena för följande fält:
- Resurs-ID
- Plats (din slutpunktsregion)

Så här hämtar du information om den anpassade modellen:

Gå till Speech Studio-portalen .
Logga in om det behövs och gå till Anpassat tal.
Välj projektet och gå till Distribution.
Välj den slutpunkt som krävs.
Kopiera och spara värdena för följande fält:
- Tjänstregion (din slutpunktsregion)
- Slutpunkts-ID

Skapa och skicka en supportbegäran

Initiera ökningen av gränsen för samtidiga begäranden för din resurs, eller kontrollera den aktuella gränsen vid behov genom att skicka en supportbegäran. Så här gör du:

Se till att du har den information som krävs i föregående avsnitt.
Gå till Azure-portalen.
Välj den Taltjänstresurs som du vill öka (eller kontrollera) gränsen för samtidighetsbegäran för.
I gruppen Support + felsökning väljer du Ny supportbegäran. Ett nytt fönster visas med automatiskt ifylld information om din Azure-prenumeration och Azure-resurs.
I Sammanfattning beskriver du vad du vill ha (till exempel "Öka gränsen för samtidighetsbegäran för tal till text").
I Problemtyp väljer du Kvot- eller prenumerationsproblem.
I Problemundertyp väljer du antingen:
- Kvot- eller samtidiga begäranden ökar för en ökningsbegäran.
- Validering av kvot eller användning för att kontrollera den befintliga gränsen.
Välj Nästa: Lösningar. Fortsätt med att skapa begäran.
På fliken Information går du till fältet Beskrivning och anger följande:
- Observera att begäran handlar om tal till text-kvoten.
- Välj antingen basmodellen eller den anpassade modellen.
- Den Azure-resursinformation som du samlade in tidigare.
- All annan nödvändig information.
På fliken Granska + skapa väljer du Skapa.
Anteckna numret för supportbegäran i Azure Portal-meddelanden. Du kontaktas snart om din begäran.

Exempel på metodtips för arbetsbelastningsmönster

Här är ett allmänt exempel på ett bra tillvägagångssätt. Det är endast avsett som en mall som du kan justera efter behov för din egen användning.

Anta att en Speech-tjänstresurs har gränsen för samtidig begäran inställd på 300. Starta arbetsbelastningen från 20 samtidiga anslutningar och öka belastningen med 20 samtidiga anslutningar var 90–120:e sekund. Kontrollera tjänstsvaren och implementera logiken som faller tillbaka (minskar belastningen) om du får för många begäranden (svarskod 429). Försök sedan att öka belastningen igen på en minut, och om det fortfarande inte fungerar kan du försöka igen om två minuter. Använd ett mönster på 1-2-4-4 minuter för intervallen.

I allmänhet är det en bra idé att testa arbetsbelastningen och arbetsbelastningsmönstren innan du går till produktion.

Text till tal: öka gränsen för samtidiga begäranden

För standardprisnivån kan du öka det här beloppet. Innan du skickar begäran ska du se till att du är bekant med det material som beskrivs tidigare i den här artikeln, till exempel metodtipsen för att minska begränsningen.

Att öka gränsen för samtidiga begäranden påverkar inte dina kostnader direkt. Speech Service använder en betalningsmodell som kräver att du bara betalar för det du använder. Gränsen definierar hur högt tjänsten kan skalas innan den börjar begränsa dina begäranden.

Kommentar

Talcontainrar kräver inte ökningar av gränsen för samtidiga begäranden, eftersom containrar endast begränsas av processorerna för den maskinvara som de finns på.

Förbereda nödvändig information

Om du vill skapa en begäran om ökning måste du ange din information.

För den fördefinierade rösten:
- Talresurs-ID
- Region
För den anpassade rösten:
- Distributionsregion
- Anpassat slutpunkts-ID

Så här hämtar du information för den fördefinierade rösten:

Gå till Azure-portalen.
Välj den Speech Service-resurs som du vill öka gränsen för samtidighetsbegäran för.
I gruppen Resurshantering väljer du Egenskaper.
Kopiera och spara värdena för följande fält:
- Resurs-ID
- Plats (din slutpunktsregion)

Så här hämtar du information för den anpassade rösten:

Gå till Speech Studio-portalen .
Logga in om det behövs och gå till Anpassad röst.
Välj projektet och gå till Distribuera modell.
Välj den slutpunkt som krävs.
Kopiera och spara värdena för följande fält:
- Tjänstregion (din slutpunktsregion)
- Slutpunkts-ID

Skapa och skicka en supportbegäran

Initiera ökningen av gränsen för samtidiga begäranden för din resurs, eller kontrollera den aktuella gränsen vid behov genom att skicka en supportbegäran. Så här gör du:

Se till att du har den information som krävs i föregående avsnitt.
Gå till Azure-portalen.
Välj den Taltjänstresurs som du vill öka (eller kontrollera) gränsen för samtidighetsbegäran för.
I gruppen Support + felsökning väljer du Ny supportbegäran. Ett nytt fönster visas med automatiskt ifylld information om din Azure-prenumeration och Azure-resurs.
I Sammanfattning beskriver du vad du vill ha (till exempel "Öka gränsen för text till talkonkurrensbegäran").
I Problemtyp väljer du Kvot- eller prenumerationsproblem.
I Problemundertyp väljer du antingen:
- Kvot- eller samtidiga begäranden ökar för en ökningsbegäran.
- Validering av kvot eller användning för att kontrollera den befintliga gränsen.
På fliken Rekommenderad lösning väljer du Nästa.
På fliken Ytterligare information fyller du i alla nödvändiga objekt. I fältet Information anger du följande:
- Observera att begäran handlar om text till tal-kvoten.
- Välj antingen den fördefinierade rösten eller den anpassade rösten.
- Den Azure-resursinformation som du samlade in tidigare.
- All annan nödvändig information.
På fliken Granska + skapa väljer du Skapa.
Anteckna numret för supportbegäran i Azure Portal-meddelanden. Du kontaktas snart om din begäran.

Text till tal-avatar: öka gränsen för nya anslutningar

Om du vill öka gränsen för nya anslutningar per minut för text till tal-avatar kontaktar du din säljare för att skapa ett ärende med följande information:

Talresurs-URI
Begärd ny begränsning att öka till
Motivering för ökningen
Startdatum för ökningen
Slutdatum för ökningen
Fördefinierad avatar eller anpassad avatar

Dela via

Speech Service-kvoter och -gränser

Referens för kvoter och gränser

Tal till textkvoter och -gränser per resurs

Tal till text och talöversättning i realtid

Snabb transkription

Batch-transkription

Modellanpassning

Text till tal-kvoter och -gränser per resurs

Text till tal i realtid

Batchsyntes

Anpassad neural röst – professionell

Anpassad neural röst – personlig röst

Batchtext till tal-avatar

Text till tal-avatar i realtid

Verktyg för att skapa ljudinnehåll

Kvoter och gränser för talarigenkänning per resurs

Detaljerad beskrivning, kvotjustering och metodtips

Allmänna metodtips för att minska begränsningen vid automatisk skalning

Tal till text: öka gränsen för samtidiga förfrågningar i realtid till text

Ha den information som krävs klar

Skapa och skicka en supportbegäran

Exempel på metodtips för arbetsbelastningsmönster

Text till tal: öka gränsen för samtidiga begäranden

Förbereda nödvändig information

Skapa och skicka en supportbegäran

Text till tal-avatar: öka gränsen för nya anslutningar

Feedback

Ytterligare resurser