Hantera och öka kvoter för resurser med Azure AI Foundry
Viktigt
Objekt markerade (förhandsversion) i den här artikeln är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.
Kvoten ger flexibiliteten att aktivt hantera allokering av hastighetsgränser mellan distributionerna i din prenumeration. Den här artikeln går igenom processen för att hantera kvoter för dina virtuella Azure AI Foundry-datorer och Azure OpenAI-modeller.
Azure använder gränser och kvoter för att förhindra budgetöverskridanden på grund av bedrägerier och för att respektera Azures kapacitetsbegränsningar. Det är också ett bra sätt att kontrollera kostnaderna för administratörer. Överväg dessa begränsningar när du skalar för produktionsarbetsbelastningar.
I den här artikeln lär du dig mer om:
- Standardgränser för Azure-resurser
- Skapa kvoter på Azure AI Foundry-hubbnivå.
- Visa dina kvoter och gränser
- Begära kvot- och gränsökningar
Kvoter tillämpas på varje prenumeration i ditt konto. Om du har flera prenumerationer måste du begära en kvotökning för varje prenumeration.
En kvot är en kreditgräns för Azure-resurser, inte en kapacitetsgaranti. Om du behöver mycket kapacitet kan du kontakta Azure-supporten för att öka kvoten.
Anteckning
Azure AI Foundry-beräkning har en separat kvot från kärnberäkningens kvot.
Standardgränserna varierar beroende på erbjudandets kategorityp, t.ex. kostnadsfri utvärderingsversion, betala per användning och VM-serie (t.ex. Dv2, F eller G).
Följande åtgärder i Azure AI Foundry-portalen förbrukar kvot:
- Skapa en beräkningsinstans.
- Skapa ett vektorindex.
- Distribuera öppna modeller från modellkatalogen.
Azure AI Foundry Compute har en standardkvotgräns för både antalet kärnor och antalet unika beräkningsresurser som tillåts per region i en prenumeration.
- Kvoten för antalet kärnor delas upp av varje VM-familj och kumulativa totala kärnor.
- Kvoten för antalet unika beräkningsresurser per region är separat från den virtuella datorns kärnkvot, eftersom den endast gäller för de hanterade beräkningsresurserna
Om du vill höja gränserna för beräkning kan du begära en kvotökning i Azure AI Foundry.
Tillgängliga resurser är:
- Dedikerade kärnor per region har en standardgräns på 24 till 300, beroende på vilken typ av prenumerationserbjudande du har. Du kan öka antalet dedikerade kärnor per prenumeration för varje VM-familj. Specialiserade VM-familjer som NCv2, NCv3 eller ND-serien börjar med ett standardvärde på noll kärnor. Även GPU:er har som standard noll kärnor.
- Den totala beräkningsgränsen per region har en standardgränspå 500 per region inom en viss prenumeration och kan ökas till ett maximalt värde på 2 500 per region. Den här gränsen delas mellan beräkningsinstanser och hanterade onlineslutpunktsdistributioner. En beräkningsinstans anses vara ett kluster med en nod i kvotsyfte. För att öka den totala beräkningsgränsen öppnar du en kundsupportbegäran online.
När du öppnar supportbegäran för att öka den totala beräkningsgränsen anger du följande information:
Välj Teknisk för problemtypen.
Välj den prenumeration som du vill öka kvoten för.
Välj Machine Learning som tjänsttyp.
Välj den resurs som du vill öka kvoten för.
I fältet Sammanfattning anger du "Öka de totala beräkningsgränserna"
Välj Beräkningsinstans som problemtyp och Kvot som problemundertyp.
Välj Nästa.
På sidan Ytterligare information anger du prenumerations-ID, region, ny gräns (mellan 500 och 2 500) och affärsmotivering för att öka de totala beräkningsgränserna för regionen.
Välj Skapa för att skicka supportbegäran.
Azure AI Foundry tillhandahåller en pool med delad kvot som är tillgänglig för olika användare i olika regioner att använda samtidigt. Beroende på tillgänglighet kan användarna tillfälligt komma åt kvoten från den delade poolen och använda kvoten för att utföra testning under en begränsad tid. Den specifika tidsperioden beror på användningsfallet. Genom att tillfälligt använda kvoten från kvotpoolen behöver du inte längre skicka in ett supportärende för en kortsiktig kvotökning eller vänta tills din kvotbegäran har godkänts innan du kan fortsätta med din arbetsbelastning.
Användning av den delade kvotpoolen är tillgänglig för testning av slutsatsdragning för Llama-2-, Phi-, Nemotron-, Mistral-, Dolly- och Deci-DeciLM-modeller från modellkatalogen. Du bör endast använda den delade kvoten för att skapa tillfälliga testslutpunkter, inte produktionsslutpunkter. För slutpunkter i produktion bör du begära dedikerad kvot. Fakturering för delad kvot är användningsbaserad, precis som fakturering för dedikerade virtuella datorfamiljer.
Mer information finns i Begränsningar för containerinstanser.
Azure Storage har en gräns på 250 lagringskonton per region, per prenumeration. Den här gränsen omfattar både Standard- och Premium-lagringskonton.
Använd kvoter för att hantera beräkningsmålallokering mellan flera Azure AI Foundry-hubbar i samma prenumeration.
Som standard delar alla hubbar samma kvot som kvoten på prenumerationsnivå för VM-familjer. Du kan dock ange en maximal kvot för enskilda VM-familjer för mer detaljerad kostnadskontroll och styrning på hubbar i en prenumeration. Med kvoter för enskilda VM-familjer kan du dela kapacitet och undvika problem med resurskonkurrering.
I Azure AI Foundry-portalen väljer du Hanteringscenter på den vänstra menyn.
Välj Kvot på den vänstra menyn.
Från kvotvyn kan du se kvoten för modellerna i den valda Azure-regionen. Om du vill begära mer kvot väljer du modellen och väljer sedan Begär kvot.
- Använd växlingsknappen Visa alla kvoter om du vill visa all kvot eller endast den allokerade kvoten.
- Använd listrutan Gruppera efter för att gruppera listan efter kvottyp, Region & modell, Kvottyp, Modell och region eller Ingen. Grupperingen Ingen visar en lista över modelldistributioner.
- Expandera grupperingarna för att visa information om specifika modelldistributioner. När du visar en modelldistribution väljer du pennikonen i kolumnen Kvotallokering för att redigera kvotallokeringen för modelldistributionen.
- Använd diagrammen längs sidan om du vill visa mer information om kvotanvändning. Diagrammen är interaktiva. om du hovrar över ett avsnitt i diagrammet visas mer information och om du väljer diagrammet filtreras listan över modeller. Om du väljer diagramförklaringen filtreras de data som visas i diagrammet.
- Använd länken Azure OpenAI Provisioned för att visa information om etablerade modeller, inklusive en kapacitetskalkylator.
När du väljer länken vm-kvot kan du visa kvoten och användningen för de virtuella datorfamiljerna i den valda Azure-regionen. Om du vill begära mer kvot väljer du VM-familjen och väljer sedan Begär kvot.