Limieten en regio's voor modelbediening
In dit artikel vindt u een overzicht van de beperkingen en beschikbaarheid van regio's voor Databricks Model Serving en ondersteunde eindpunttypen.
Beperkingen
Databricks Model Serving legt standaardlimieten op om betrouwbare prestaties te garanderen. Als u feedback hebt over deze limieten, neemt u contact op met uw Databricks-accountteam.
De volgende tabel bevat een overzicht van resource- en nettoladingbeperkingen voor het leveren van eindpunten voor modellen.
Functie | Granulariteit | Grenswaarde |
---|---|---|
Grootte van nettolading | Op aanvraag | 16 MB |
Query's per seconde (QPS) | Per werkruimte | 200, maar kan worden verhoogd tot 3000 of meer door contact op te halen met uw Databricks-account |
Duur van modeluitvoering | Op aanvraag | 120 seconden |
Geheugengebruik van CPU-eindpuntmodel | Per eindpunt | 4 GB |
Geheugengebruik gpu-eindpuntmodel | Per eindpunt | Groter dan of gelijk aan toegewezen GPU-geheugen, is afhankelijk van de grootte van de GPU-werkbelasting |
Ingerichte gelijktijdigheid | Per werkruimte | Gelijktijdigheid van 200. Kan worden verhoogd door contact op te halen met uw Databricks-account. |
Overheadlatentie | Op aanvraag | Minder dan 50 milliseconden |
Frequentielimieten voor basismodel-API's (betalen per token) | Per werkruimte | Neem contact op met uw Databricks-accountteam om de volgende limieten te verhogen. * Het DBRX Instruct-model heeft een limiet van 1 query per seconde. * Andere chat- en voltooiingsmodellen hebben een standaardfrequentielimiet van 2 query's per seconde. * Insluitmodellen hebben standaard 300 invoer voor insluiten per seconde. |
Frequentielimieten voor foundationmodel-API's (ingerichte doorvoer) | Per werkruimte | Hetzelfde als de hierboven vermelde QPS-limiet voor modelservers. |
Modelservereindpunten worden beveiligd door toegangsbeheer en respecteren netwerkgerelateerde toegangsbeheerregels die zijn geconfigureerd in de werkruimte, zoals IP-acceptatielijsten en Private Link.
Er zijn ook aanvullende beperkingen:
- Het is mogelijk dat een werkruimte wordt geïmplementeerd in een ondersteunde regio, maar wordt geleverd door een besturingsvlak in een andere regio. Deze werkruimten bieden geen ondersteuning voor Model serving en resulteren in een foutbericht waarin wordt aangegeven dat uw werkruimte niet wordt ondersteund. Neem contact op met uw Azure Databricks-accountteam voor meer informatie.
- Model serving biedt geen ondersteuning voor init-scripts.
- Model serving biedt standaard geen ondersteuning voor Private Link naar externe eindpunten (zoals Azure OpenAI). Ondersteuning voor deze functionaliteit wordt per regio geëvalueerd en geïmplementeerd. Neem contact op met uw Azure Databricks-accountteam voor meer informatie.
Limieten voor FOUNDATION-model-API's
Notitie
Als onderdeel van het leveren van de Foundation Model-API's kan Databricks uw gegevens verwerken buiten de regio waar uw gegevens afkomstig zijn, maar niet buiten de relevante geografische locatie.
Hier volgen limieten die relevant zijn voor workloads van Foundation Model-API's:
- Ingerichte doorvoer ondersteunt het HIPAA-nalevingsprofiel en moet worden gebruikt voor workloads waarvoor nalevingscertificeringen zijn vereist. Workloads met betalen per token voldoen niet aan HIPAA of nalevingsbeveiligingsprofiel.
- Voor Eindpunten van Foundation-model-API's kunnen alleen werkruimtebeheerders de beheerinstellingen wijzigen, zoals de frequentielimieten. Gebruik de volgende stappen om frequentielimieten te wijzigen:
- Open de gebruikersinterface van de server in uw werkruimte om uw eindpunten te zien.
- Selecteer Details weergeven in het menu voor het api-eindpunt van het Foundation-model dat u wilt bewerken.
- Selecteer de frequentielimiet wijzigen in het menu van de resource in de rechterbovenhoek van de detailpagina van de eindpunten.
- Als u de DBRX-modelarchitectuur wilt gebruiken voor een ingerichte doorvoerworkload, moet uw eindpunt zich in een van de volgende regio's bevinden:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
Beschikbaarheid van regio's
Notitie
Als u een eindpunt in een niet-ondersteunde regio nodig hebt, neemt u contact op met uw Azure Databricks-accountteam.
Zie Basismodel-API's voor beschikbaarheid van regio's voor ingerichte doorvoerworkloads die gebruikmaken van DBRX-modellen.
Regio | Locatie | Core Model Serving-mogelijkheid * | Foundation Model-API's (overal ingericht) ** | Foundation Model-API's (betalen per token) | Externe modellen |
---|---|---|---|---|---|
australiacentral |
Australië - centraal | ||||
australiacentral2 |
Australië - centraal 2 | ||||
australiaeast |
Australië - oost | X | X | X | |
australiasoutheast |
Australië - zuidoost | ||||
brazilsouth |
Brazilië - zuid | X | X | X | |
canadacentral |
Canada - midden | X | X | X | |
canadaeast |
Canada - oost | ||||
centralindia |
India - centraal | X | X | X | |
centralus |
Central US | X | X | X | X |
chinaeast2 |
China - oost 2 | ||||
chinaeast3 |
China - oost 3 | ||||
chinanorth2 |
China - noord 2 | ||||
chinanorth3 |
China - noord 3 | ||||
eastasia |
Azië - oost | ||||
eastus |
VS - oost | X | X | X | X |
eastus2 |
VS - oost 2 | X | X | X | X |
eastus2euap |
VS - oost 2 EUAP | ||||
francecentral |
Frankrijk - centraal | ||||
germanywestcentral |
Duitsland - west-centraal | ||||
japaneast |
Japan - oost | ||||
japanwest |
Japan - west | ||||
koreacentral |
Korea - centraal | ||||
northcentralus |
VS - noord-centraal | X | X | X | |
northeurope |
Europa - noord | X | X | X | |
norwayeast |
Noorwegen - oost | ||||
qatarcentral |
Qatar - centraal | ||||
southafricanorth |
Zuid-Afrika - noord | ||||
southcentralus |
VS - zuid-centraal | ||||
southeastasia |
Azië - zuidoost | X | X | ||
southindia |
India - zuid | ||||
swedencentral |
Zweden - centraal | ||||
switzerlandnorth |
Zwitserland - noord | ||||
switzerlandwest |
Zwitserland - west | ||||
uaenorth |
VAE - noord | ||||
uksouth |
Verenigd Koninkrijk Zuid | ||||
ukwest |
Verenigd Koninkrijk West | ||||
westcentralus |
VS - west-centraal | ||||
westeurope |
Europa -west | X | X | X | |
westindia |
India - west | ||||
westus |
VS - west | X | X | X | X |
westus2 |
VS - west 2 | X | |||
westus3 |
US - west 3 |
- alleen cpu-rekenkracht
** bevat gpu-ondersteuning
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor