Share via


Gränser och regioner för modellservering

Den här artikeln sammanfattar begränsningarna och regiontillgängligheten för Databricks-modellservern och slutpunktstyper som stöds.

Begränsningar

Databricks Model Serving tillämpar standardgränser för att säkerställa tillförlitliga prestanda. Om du har feedback om dessa gränser kontaktar du ditt Databricks-kontoteam.

I följande tabell sammanfattas resurs- och nyttolastbegränsningar för modell som betjänar slutpunkter.

Funktion Precision Gräns
Nyttolaststorlek Per förfrågan 16 MB
Frågor per sekund (QPS) Per arbetsyta 200, men kan ökas till 3 000 eller mer genom att kontakta ditt Databricks-konto
Varaktighet för modellkörning Per förfrågan 120 sekunder
Minnesanvändning för cpu-slutpunktsmodell Per slutpunkt 4 GB
Minnesanvändning för GPU-slutpunktsmodell Per slutpunkt Större än eller lika med tilldelat GPU-minne beror på GPU-arbetsbelastningens storlek
Etablerad samtidighet Per arbetsyta 200 samtidighet. Kan ökas genom att kontakta ditt Databricks-konto.
Svarstid för omkostnader Per förfrågan Mindre än 50 millisekunder
Hastighetsbegränsningar för Foundation Model-API:er (betala per token) Per arbetsyta Kontakta ditt Databricks-kontoteam för att öka följande gränser.

* DBRX Instruct-modellen har en gräns på 1 fråga per sekund.
* Andra chatt- och slutförandemodeller har en standardfrekvensgräns på 2 frågor per sekund.
* Inbäddningsmodeller har standardinbäddningsindata för 300 per sekund.
Hastighetsbegränsningar för Foundation Model API:er (etablerat dataflöde) Per arbetsyta Samma som QPS-gränsen för modellservern som anges ovan.

Modellserverslutpunkter skyddas av åtkomstkontroll och respekterar nätverksrelaterade ingressregler som konfigurerats på arbetsytan, till exempel IP-tillåtna listor och Private Link.

Ytterligare begränsningar finns också:

  • Det är möjligt att en arbetsyta distribueras i en region som stöds, men hanteras av ett kontrollplan i en annan region. Dessa arbetsytor stöder inte modellhantering och resulterar i ett felmeddelande om att din arbetsyta inte stöds. Kontakta ditt Azure Databricks-kontoteam för mer information.
  • Modellservern stöder inte init-skript.
  • Modellservern stöder som standard inte Private Link till externa slutpunkter (till exempel Azure OpenAI). Stöd för den här funktionen utvärderas och implementeras per region. Kontakta ditt Azure Databricks-kontoteam för mer information.

Gränser för API:er för grundmodell

Kommentar

Som en del av att tillhandahålla FOUNDATION Model-API:er kan Databricks bearbeta dina data utanför den region där dina data har sitt ursprung, men inte utanför den relevanta geografiska platsen.

Följande är begränsningar som är relevanta för arbetsbelastningar för Foundation Model-API:er:

  • Etablerat dataflöde stöder HIPAA-efterlevnadsprofilen och bör användas för arbetsbelastningar som kräver efterlevnadscertifieringar. Betala per token-arbetsbelastningar är inte HIPAA- eller efterlevnadssäkerhetsprofilkompatibla.
  • För Foundation Model-API:er kan endast arbetsyteadministratörer ändra styrningsinställningarna, till exempel hastighetsgränserna. Om du vill ändra hastighetsbegränsningar använder du följande steg:
    1. Öppna användargränssnittet för servering på din arbetsyta för att se dina serveringsslutpunkter.
    2. Välj Visa information på menyn kebab på slutpunkten för Foundation Model-API:er som du vill redigera.
    3. Välj Ändra hastighetsgräns i menyn kebab längst upp till höger på sidan med slutpunkter.
  • Om du vill använda DBRX-modellarkitekturen för en etablerad dataflödesarbetsbelastning måste serverdelsslutpunkten finnas i någon av följande regioner:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth

Regiontillgänglighet

Kommentar

Om du behöver en slutpunkt i en region som inte stöds kontaktar du ditt Azure Databricks-kontoteam.

Information om etablerade dataflödesarbetsbelastningar som använder DBRX-modeller finns i Foundation Model API:ers gränser för regionstillgänglighet.

Region Plats Funktion för servering av kärnmodell * Foundation Model-API:er (etablerade i hela) ** API:er för foundation-modell (betala per token) Externa modeller
australiacentral Australien, centrala
australiacentral2 Australien, centrala 2
australiaeast Australien, östra X X X
australiasoutheast Australien, sydöstra
brazilsouth Brasilien, södra X X X
canadacentral Kanada, centrala X X X
canadaeast Kanada, östra
centralindia Indien, centrala X X X
centralus Centrala USA X X X X
chinaeast2 Östra Kina 2
chinaeast3 Östra Kina 3
chinanorth2 Kina, norra 2
chinanorth3 Kina, norra 3
eastasia Asien, östra
eastus East US X X X X
eastus2 USA, östra 2 X X X X
eastus2euap USA, östra 2 (EUAP)
francecentral Frankrike, centrala
germanywestcentral Tyskland, västra centrala
japaneast Japan, östra
japanwest Japan, västra
koreacentral Sydkorea, centrala
northcentralus USA, norra centrala X X X
northeurope Europa, norra X X X
norwayeast Norge, östra
qatarcentral Qatar, centrala
southafricanorth Sydafrika, norra
southcentralus USA, södra centrala
southeastasia Sydostasien X X
southindia Södra Indien
swedencentral Sverige, centrala
switzerlandnorth Schweiz, norra
switzerlandwest Schweiz, västra
uaenorth Förenade Arabemiraten, norra
uksouth Storbritannien, södra
ukwest Storbritannien, västra
westcentralus USA, västra centrala
westeurope Europa, västra X X X
westindia Indien, västra
westus USA, västra X X X X
westus2 Västra USA 2 X
westus3 Västra USA 3
  • endast cpu-beräkning

** innehåller gpu-stöd