Limieten en regio's voor modelbediening

In dit artikel vindt u een overzicht van de beperkingen en beschikbaarheid van regio's voor Databricks Model Serving en ondersteunde eindpunttypen.

Beperkingen

Databricks Model Serving legt standaardlimieten op om betrouwbare prestaties te garanderen. Als u feedback hebt over deze limieten, neemt u contact op met uw Databricks-accountteam.

De volgende tabel bevat een overzicht van resource- en nettoladingbeperkingen voor het leveren van eindpunten voor modellen.

Functie Granulariteit Grenswaarde
Grootte van nettolading Op aanvraag 16 MB
Query's per seconde (QPS) Per werkruimte 200, maar kan worden verhoogd tot 3000 of meer door contact op te halen met uw Databricks-account
Duur van modeluitvoering Op aanvraag 120 seconden
Geheugengebruik van CPU-eindpuntmodel Per eindpunt 4 GB
Geheugengebruik gpu-eindpuntmodel Per eindpunt Groter dan of gelijk aan toegewezen GPU-geheugen, is afhankelijk van de grootte van de GPU-werkbelasting
Ingerichte gelijktijdigheid Per werkruimte Gelijktijdigheid van 200. Kan worden verhoogd door contact op te halen met uw Databricks-account.
Overheadlatentie Op aanvraag Minder dan 50 milliseconden
Frequentielimieten voor basismodel-API's (betalen per token) Per werkruimte Neem contact op met uw Databricks-accountteam om de volgende limieten te verhogen.

* Het DBRX Instruct-model heeft een limiet van 1 query per seconde.
* Andere chat- en voltooiingsmodellen hebben een standaardfrequentielimiet van 2 query's per seconde.
* Insluitmodellen hebben standaard 300 invoer voor insluiten per seconde.
Frequentielimieten voor foundationmodel-API's (ingerichte doorvoer) Per werkruimte Hetzelfde als de hierboven vermelde QPS-limiet voor modelservers.

Modelservereindpunten worden beveiligd door toegangsbeheer en respecteren netwerkgerelateerde toegangsbeheerregels die zijn geconfigureerd in de werkruimte, zoals IP-acceptatielijsten en Private Link.

Er zijn ook aanvullende beperkingen:

  • Het is mogelijk dat een werkruimte wordt geïmplementeerd in een ondersteunde regio, maar wordt geleverd door een besturingsvlak in een andere regio. Deze werkruimten bieden geen ondersteuning voor Model serving en resulteren in een foutbericht waarin wordt aangegeven dat uw werkruimte niet wordt ondersteund. Neem contact op met uw Azure Databricks-accountteam voor meer informatie.
  • Model serving biedt geen ondersteuning voor init-scripts.
  • Model serving biedt standaard geen ondersteuning voor Private Link naar externe eindpunten (zoals Azure OpenAI). Ondersteuning voor deze functionaliteit wordt per regio geëvalueerd en geïmplementeerd. Neem contact op met uw Azure Databricks-accountteam voor meer informatie.

Limieten voor FOUNDATION-model-API's

Notitie

Als onderdeel van het leveren van de Foundation Model-API's kan Databricks uw gegevens verwerken buiten de regio waar uw gegevens afkomstig zijn, maar niet buiten de relevante geografische locatie.

Hier volgen limieten die relevant zijn voor workloads van Foundation Model-API's:

  • Ingerichte doorvoer ondersteunt het HIPAA-nalevingsprofiel en moet worden gebruikt voor workloads waarvoor nalevingscertificeringen zijn vereist. Workloads met betalen per token voldoen niet aan HIPAA of nalevingsbeveiligingsprofiel.
  • Voor Eindpunten van Foundation-model-API's kunnen alleen werkruimtebeheerders de beheerinstellingen wijzigen, zoals de frequentielimieten. Gebruik de volgende stappen om frequentielimieten te wijzigen:
    1. Open de gebruikersinterface van de server in uw werkruimte om uw eindpunten te zien.
    2. Selecteer Details weergeven in het menu voor het api-eindpunt van het Foundation-model dat u wilt bewerken.
    3. Selecteer de frequentielimiet wijzigen in het menu van de resource in de rechterbovenhoek van de detailpagina van de eindpunten.
  • Als u de DBRX-modelarchitectuur wilt gebruiken voor een ingerichte doorvoerworkload, moet uw eindpunt zich in een van de volgende regio's bevinden:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth

Beschikbaarheid van regio's

Notitie

Als u een eindpunt in een niet-ondersteunde regio nodig hebt, neemt u contact op met uw Azure Databricks-accountteam.

Zie Basismodel-API's voor beschikbaarheid van regio's voor ingerichte doorvoerworkloads die gebruikmaken van DBRX-modellen.

Regio Locatie Core Model Serving-mogelijkheid * Foundation Model-API's (overal ingericht) ** Foundation Model-API's (betalen per token) Externe modellen
australiacentral Australië - centraal
australiacentral2 Australië - centraal 2
australiaeast Australië - oost X X X
australiasoutheast Australië - zuidoost
brazilsouth Brazilië - zuid X X X
canadacentral Canada - midden X X X
canadaeast Canada - oost
centralindia India - centraal X X X
centralus Central US X X X X
chinaeast2 China - oost 2
chinaeast3 China - oost 3
chinanorth2 China - noord 2
chinanorth3 China - noord 3
eastasia Azië - oost
eastus VS - oost X X X X
eastus2 VS - oost 2 X X X X
eastus2euap VS - oost 2 EUAP
francecentral Frankrijk - centraal
germanywestcentral Duitsland - west-centraal
japaneast Japan - oost
japanwest Japan - west
koreacentral Korea - centraal
northcentralus VS - noord-centraal X X X
northeurope Europa - noord X X X
norwayeast Noorwegen - oost
qatarcentral Qatar - centraal
southafricanorth Zuid-Afrika - noord
southcentralus VS - zuid-centraal
southeastasia Azië - zuidoost X X
southindia India - zuid
swedencentral Zweden - centraal
switzerlandnorth Zwitserland - noord
switzerlandwest Zwitserland - west
uaenorth VAE - noord
uksouth Verenigd Koninkrijk Zuid
ukwest Verenigd Koninkrijk West
westcentralus VS - west-centraal
westeurope Europa -west X X X
westindia India - west
westus VS - west X X X X
westus2 VS - west 2 X
westus3 US - west 3
  • alleen cpu-rekenkracht

** bevat gpu-ondersteuning