Autoskalning av AI-tjänster

Den här artikeln innehåller vägledning för hur kunder kan komma åt högre hastighetsgränser för sina Azure AI-tjänstresurser.

Översikt

Varje Azure AI-tjänstresurs har en förkonfigurerad statisk samtalsfrekvens (transaktioner per sekund) som begränsar antalet samtidiga anrop som kunder kan göra till serverdelstjänsten inom en viss tidsram. Autoskalningsfunktionen ökar/minskar automatiskt en kunds resurs hastighetsgränser baserat på resursanvändningsmått i nära realtid och kapacitetsmått för serverdelstjänsten.

Kom igång med autoskalningsfunktionen

Den här funktionen är inaktiverad som standard för varje ny resurs. Följ de här anvisningarna för att aktivera den.

Gå till resurssidan i Azure-portalen och välj fliken Översikt i det vänstra fönstret. Under avsnittet Essentials letar du upp raden Autoskalning och väljer länken för att visa fönstret Autoskalning Inställningar och aktivera funktionen.

Screenshot of the Azure portal with the autoscale pane on right.

Vanliga frågor och svar

Innebär aktivering av autoskalningsfunktionen att min resurs aldrig kommer att begränsas igen?

Nej, du kan fortfarande få 429 fel för hastighetsbegränsningsöverskott. Om ditt program utlöser en topp och resursen rapporterar ett 429 svar, kontrollerar autoskalning avsnittet tillgänglig kapacitetsprojektion för att se om den aktuella kapaciteten kan hantera en ökning av hastighetsgränsen och svara inom fem minuter.

Om den tillgängliga kapaciteten räcker för en ökning ökar autoskalningen gradvis resursens hastighetsgräns. Om du fortsätter att anropa din resurs med en hög hastighet som resulterar i mer 429 begränsning fortsätter TPS-hastigheten att öka med tiden. Om den här åtgärden fortsätter i en timme eller mer bör du nå den maximala hastighet (upp till 1 000 TPS) som för närvarande är tillgänglig för den resursen.

Om den tillgängliga kapaciteten inte räcker för en ökning väntar funktionen för autoskalning fem minuter och kontrollerar igen.

Vad händer om jag behöver en högre standardfrekvensgräns?

Som standard har Azure AI-tjänstresurser en standardfrekvensgräns på 10 TPS. Om du behöver en högre standard-TPS skickar du ett ärende genom att följa länken Ny supportbegäran på resurssidan i Azure-portalen. Kom ihåg att inkludera en affärsmotivering i begäran.

Kommer den här funktionen att öka mina Azure-utgifter?

Prissättningen för Azure AI-tjänster har inte ändrats och kan nås här. Vi fakturerar endast för lyckade anrop till API:er för Azure AI-tjänster. Ökade samtalsfrekvensgränser innebär dock att fler transaktioner slutförs och du kan få en högre faktura.

Var medveten om potentiella fel och deras konsekvenser. Om en bugg i klientprogrammet gör att den anropar tjänsten hundratals gånger per sekund skulle det sannolikt leda till en mycket högre faktura, medan kostnaden skulle vara mycket mer begränsad under en fast hastighetsgräns. Fel av det här slaget är ditt ansvar. Vi rekommenderar starkt att du utför utvecklings- och klientuppdateringstester mot en resurs med en fast hastighetsgräns innan du använder funktionen autoskalning.

Kan jag inaktivera den här funktionen om jag hellre begränsar priset än har oförutsägbara utgifter?

Ja, du kan inaktivera funktionen autoskalning via Azure-portalen eller CLI och återgå till standardinställningen för anropsfrekvens. Om din resurs tidigare har godkänts för en högre standard-TPS går den tillbaka till den kursen. Det kan ta upp till fem minuter innan ändringarna börjar gälla.

Vilka tjänster stöder autoskalningsfunktionen?

Autoskalningsfunktionen är tillgänglig för följande tjänster:

Kan jag testa den här funktionen med en kostnadsfri prenumeration?

Nej, autoskalningsfunktionen är inte tillgänglig för prenumerationer på den kostnadsfria nivån.

Nästa steg