Gränser och regioner för modellservering
Den här artikeln sammanfattar begränsningarna och regiontillgängligheten för Databricks-modellservern och slutpunktstyper som stöds.
Begränsningar
Databricks Model Serving tillämpar standardgränser för att säkerställa tillförlitliga prestanda. Om du har feedback om dessa gränser kontaktar du ditt Databricks-kontoteam.
I följande tabell sammanfattas resurs- och nyttolastbegränsningar för modell som betjänar slutpunkter.
Funktion | Precision | Gräns |
---|---|---|
Nyttolaststorlek | Per förfrågan | 16 MB |
Frågor per sekund (QPS) | Per arbetsyta | 200, men kan ökas till 3 000 eller mer genom att kontakta ditt Databricks-konto |
Varaktighet för modellkörning | Per förfrågan | 120 sekunder |
Minnesanvändning för cpu-slutpunktsmodell | Per slutpunkt | 4 GB |
Minnesanvändning för GPU-slutpunktsmodell | Per slutpunkt | Större än eller lika med tilldelat GPU-minne beror på GPU-arbetsbelastningens storlek |
Etablerad samtidighet | Per arbetsyta | 200 samtidighet. Kan ökas genom att kontakta ditt Databricks-konto. |
Svarstid för omkostnader | Per förfrågan | Mindre än 50 millisekunder |
Hastighetsbegränsningar för Foundation Model-API:er (betala per token) | Per arbetsyta | Kontakta ditt Databricks-kontoteam för att öka följande gränser. * DBRX Instruct-modellen har en gräns på 1 fråga per sekund. * Andra chatt- och slutförandemodeller har en standardfrekvensgräns på 2 frågor per sekund. * Inbäddningsmodeller har standardinbäddningsindata för 300 per sekund. |
Hastighetsbegränsningar för Foundation Model API:er (etablerat dataflöde) | Per arbetsyta | Samma som QPS-gränsen för modellservern som anges ovan. |
Modellserverslutpunkter skyddas av åtkomstkontroll och respekterar nätverksrelaterade ingressregler som konfigurerats på arbetsytan, till exempel IP-tillåtna listor och Private Link.
Ytterligare begränsningar finns också:
- Det är möjligt att en arbetsyta distribueras i en region som stöds, men hanteras av ett kontrollplan i en annan region. Dessa arbetsytor stöder inte modellhantering och resulterar i ett felmeddelande om att din arbetsyta inte stöds. Kontakta ditt Azure Databricks-kontoteam för mer information.
- Modellservern stöder inte init-skript.
- Modellservern stöder som standard inte Private Link till externa slutpunkter (till exempel Azure OpenAI). Stöd för den här funktionen utvärderas och implementeras per region. Kontakta ditt Azure Databricks-kontoteam för mer information.
Gränser för API:er för grundmodell
Kommentar
Som en del av att tillhandahålla FOUNDATION Model-API:er kan Databricks bearbeta dina data utanför den region där dina data har sitt ursprung, men inte utanför den relevanta geografiska platsen.
Följande är begränsningar som är relevanta för arbetsbelastningar för Foundation Model-API:er:
- Etablerat dataflöde stöder HIPAA-efterlevnadsprofilen och bör användas för arbetsbelastningar som kräver efterlevnadscertifieringar. Betala per token-arbetsbelastningar är inte HIPAA- eller efterlevnadssäkerhetsprofilkompatibla.
- För Foundation Model-API:er kan endast arbetsyteadministratörer ändra styrningsinställningarna, till exempel hastighetsgränserna. Om du vill ändra hastighetsbegränsningar använder du följande steg:
- Öppna användargränssnittet för servering på din arbetsyta för att se dina serveringsslutpunkter.
- Välj Visa information på menyn kebab på slutpunkten för Foundation Model-API:er som du vill redigera.
- Välj Ändra hastighetsgräns i menyn kebab längst upp till höger på sidan med slutpunkter.
- Om du vill använda DBRX-modellarkitekturen för en etablerad dataflödesarbetsbelastning måste serverdelsslutpunkten finnas i någon av följande regioner:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
Regiontillgänglighet
Kommentar
Om du behöver en slutpunkt i en region som inte stöds kontaktar du ditt Azure Databricks-kontoteam.
Information om etablerade dataflödesarbetsbelastningar som använder DBRX-modeller finns i Foundation Model API:ers gränser för regionstillgänglighet.
Region | Plats | Funktion för servering av kärnmodell * | Foundation Model-API:er (etablerade i hela) ** | API:er för foundation-modell (betala per token) | Externa modeller |
---|---|---|---|---|---|
australiacentral |
Australien, centrala | ||||
australiacentral2 |
Australien, centrala 2 | ||||
australiaeast |
Australien, östra | X | X | X | |
australiasoutheast |
Australien, sydöstra | ||||
brazilsouth |
Brasilien, södra | X | X | X | |
canadacentral |
Kanada, centrala | X | X | X | |
canadaeast |
Kanada, östra | ||||
centralindia |
Indien, centrala | X | X | X | |
centralus |
Centrala USA | X | X | X | X |
chinaeast2 |
Östra Kina 2 | ||||
chinaeast3 |
Östra Kina 3 | ||||
chinanorth2 |
Kina, norra 2 | ||||
chinanorth3 |
Kina, norra 3 | ||||
eastasia |
Asien, östra | ||||
eastus |
East US | X | X | X | X |
eastus2 |
USA, östra 2 | X | X | X | X |
eastus2euap |
USA, östra 2 (EUAP) | ||||
francecentral |
Frankrike, centrala | ||||
germanywestcentral |
Tyskland, västra centrala | ||||
japaneast |
Japan, östra | ||||
japanwest |
Japan, västra | ||||
koreacentral |
Sydkorea, centrala | ||||
northcentralus |
USA, norra centrala | X | X | X | |
northeurope |
Europa, norra | X | X | X | |
norwayeast |
Norge, östra | ||||
qatarcentral |
Qatar, centrala | ||||
southafricanorth |
Sydafrika, norra | ||||
southcentralus |
USA, södra centrala | ||||
southeastasia |
Sydostasien | X | X | ||
southindia |
Södra Indien | ||||
swedencentral |
Sverige, centrala | ||||
switzerlandnorth |
Schweiz, norra | ||||
switzerlandwest |
Schweiz, västra | ||||
uaenorth |
Förenade Arabemiraten, norra | ||||
uksouth |
Storbritannien, södra | ||||
ukwest |
Storbritannien, västra | ||||
westcentralus |
USA, västra centrala | ||||
westeurope |
Europa, västra | X | X | X | |
westindia |
Indien, västra | ||||
westus |
USA, västra | X | X | X | X |
westus2 |
Västra USA 2 | X | |||
westus3 |
Västra USA 3 |
- endast cpu-beräkning
** innehåller gpu-stöd
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för