Dela via


Gränser och regioner för modellservering

Den här artikeln sammanfattar begränsningarna och regionens tillgänglighet för Mosaic AI Model Serving och slutpunktstyper som stöds.

Begränsningar

Mosaic AI Model Serving inför standardgränser för att säkerställa tillförlitliga prestanda. Om du har feedback om dessa gränser kontaktar du ditt Databricks-kontoteam.

I följande tabell sammanfattas resurs- och nyttolastbegränsningar för modell som betjänar slutpunkter.

Funktion Precision Gräns
Nyttolaststorlek Per förfrågan 16 MB. För slutpunkter som betjänar grundmodeller eller externa modeller är gränsen 4 MB.
Frågor per sekund (QPS) Per arbetsyta 200 QPS. Kan ökas till 3 000 eller mer genom att kontakta ditt Databricks-kontoteam.
Varaktighet för modellkörning Per förfrågan 120 sekunder
Minnesanvändning för cpu-slutpunktsmodell Per slutpunkt 4 GB
Minnesanvändning för GPU-slutpunktsmodell Per slutpunkt Större än eller lika med tilldelat GPU-minne beror på GPU-arbetsbelastningens storlek
Etablerad samtidighet Per arbetsyta 200 samtidighet. Kan ökas genom att kontakta ditt Databricks-konto.
Svarstid för omkostnader Per förfrågan Mindre än 50 millisekunder
Hastighetsbegränsningar för Foundation Model-API:er (betala per token) Per arbetsyta Om följande gränser inte är tillräckliga för ditt användningsfall rekommenderar Databricks att du använder etablerat dataflöde.

– Llama 3.1 70B Instruct har en gräns på 2 frågor per sekund och 1 200 frågor per timme.
– Llama 3.1 405B Instruct har en gräns på 1 fråga per sekund och 1 200 frågor per timme.
– DBRX Instruct-modellen har en gräns på 1 fråga per sekund.
- Llama 2 70B Chat och Mixtral-8x 7B Instruera har en standardfrekvensgräns på 2 frågor per sekund.
– GTE Large (En) har en hastighetsgräns på 150 frågor per sekund
– BGE Large (En) har en hastighetsgräns på 600 frågor per sekund.
Hastighetsbegränsningar för Foundation Model API:er (etablerat dataflöde) Per arbetsyta Samma som QPS-gränsen för modellservern som anges ovan.

Modellserverslutpunkter skyddas av åtkomstkontroll och respekterar nätverksrelaterade ingressregler som konfigurerats på arbetsytan, till exempel IP-tillåtna listor och Private Link.

Ytterligare begränsningar finns också:

  • Det är möjligt att en arbetsyta distribueras i en region som stöds, men hanteras av ett kontrollplan i en annan region. Dessa arbetsytor stöder inte modellhantering och resulterar i ett felmeddelande om att din arbetsyta inte stöds. Kontakta ditt Azure Databricks-kontoteam för mer information.
  • Modellservern stöder inte init-skript.
  • Modellservern stöder som standard inte Private Link till externa slutpunkter (till exempel Azure OpenAI). Stöd för den här funktionen utvärderas och implementeras per region. Kontakta ditt Azure Databricks-kontoteam för mer information.

Gränser för API:er för grundmodell

Kommentar

Som en del av att tillhandahålla FOUNDATION Model-API:er kan Databricks bearbeta dina data utanför den region där dina data har sitt ursprung, men inte utanför den relevanta geografiska platsen.

Följande är begränsningar som är relevanta för arbetsbelastningar för Foundation Model-API:er:

  • Etablerat dataflöde stöder HIPAA-efterlevnadsprofilen och bör användas för arbetsbelastningar som kräver efterlevnadscertifieringar.
  • Betala per token-arbetsbelastningar är inte HIPAA- eller efterlevnadssäkerhetsprofilkompatibla.
  • För Foundation Model-API:er kan endast arbetsyteadministratörer ändra styrningsinställningarna, till exempel hastighetsgränserna. Om du vill ändra hastighetsbegränsningar använder du följande steg:
    1. Öppna användargränssnittet för servering på din arbetsyta för att se dina serveringsslutpunkter.
    2. Välj Visa information på menyn kebab på slutpunkten för Foundation Model-API:er som du vill redigera.
    3. Välj Ändra hastighetsgräns i menyn kebab längst upp till höger på sidan med slutpunkter.
  • Om du vill använda DBRX-modellarkitekturen för en etablerad dataflödesarbetsbelastning måste serverdelsslutpunkten finnas i någon av följande regioner:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth
  • Endast modellerna GTE Large (En) och Meta Llama 3.1 70B Instruct är tillgängliga i regioner som stöds av EU och USA med betalning per token.
  • Följande modeller för betala per token stöds endast i API:erna för foundation-modell som betalar per token som stöds i USA:s regioner:
    • Meta Llama 3.1 405B Instruera
    • DBRX-instruktioner
    • Mixtral-8x7B Instruct
    • Stor BGE (En)
    • Llama 2 70B Chatt

Regiontillgänglighet

Kommentar

Om du behöver en slutpunkt i en region som inte stöds kontaktar du ditt Azure Databricks-kontoteam.

Mer information om regional tillgänglighet för funktioner finns i Modell som betjänar regional tillgänglighet.