Limieten en regio's voor modelbediening
In dit artikel vindt u een overzicht van de beperkingen en beschikbaarheid van regio's voor Mozaïek AI Model Serving en ondersteunde eindpunttypen.
Limieten voor resources en nettoladingen
Mozaïek AI Model Serving legt standaardlimieten op om betrouwbare prestaties te garanderen. Als u feedback hebt over deze limieten, neemt u contact op met uw Databricks-accountteam.
De volgende tabel bevat een overzicht van resource- en nettoladingbeperkingen voor het leveren van eindpunten voor modellen.
Functie | Granulariteit | Grenswaarde |
---|---|---|
Grootte van nettolading | Op aanvraag | 16 MB. Voor eindpunten die basismodellen of externe modellen bedienen, is de limiet 4 MB. |
Query's per seconde (QPS) | Per werkruimte | 200, maar kan worden verhoogd tot 25.000 of meer door contact op te halen met uw Databricks-accountteam. |
Duur van modeluitvoering | Op aanvraag | 120 seconden |
Geheugengebruik van CPU-eindpuntmodel | Per eindpunt | 4 GB |
Geheugengebruik gpu-eindpuntmodel | Per eindpunt | Groter dan of gelijk aan toegewezen GPU-geheugen, is afhankelijk van de grootte van de GPU-werkbelasting |
Ingerichte gelijktijdigheid | Per model en per werkruimte | Gelijktijdigheid van 200. Kan worden verhoogd door contact op te halen met uw Databricks-accountteam. |
Overheadlatentie | Op aanvraag | Minder dan 50 milliseconden |
Init-scripts | Init-scripts worden niet ondersteund. | |
Frequentielimieten voor basismodel-API's (betalen per token) | Per werkruimte | Als de volgende limieten onvoldoende zijn voor uw use-case, raadt Databricks aan om ingerichte doorvoer te gebruiken. - Llama 3.1 70B Instruct heeft een limiet van 2 query's per seconde en 1200 query's per uur. - Llama 3.1 405B Instruct heeft een limiet van 1 query per seconde en 1200 query's per uur. - Het DBRX Instruct-model heeft een limiet van 1 query per seconde. - Mixtral-8x 7B Instruct heeft een standaardfrequentielimiet van 2 query's per seconde. - GTE Large (En) heeft een frequentielimiet van 150 query's per seconde - BGE Large (En) heeft een frequentielimiet van 600 query's per seconde. |
Frequentielimieten voor foundationmodel-API's (ingerichte doorvoer) | Per werkruimte | 200 |
Er zijn extra beperkingen:
- Als uw werkruimte wordt geïmplementeerd in een regio die ondersteuning biedt voor modelservice, maar wordt geleverd door een besturingsvlak in een niet-ondersteunde regio, biedt de werkruimte geen ondersteuning voor modelservice. Als u het model in een dergelijke werkruimte probeert te gebruiken, ziet u een foutbericht waarin wordt aangegeven dat uw werkruimte niet wordt ondersteund. Neem contact op met uw Azure Databricks-accountteam voor meer informatie.
- Model serving biedt geen ondersteuning voor init-scripts.
- Model serving biedt standaard geen ondersteuning voor PrivateLink naar externe eindpunten. Ondersteuning voor deze functionaliteit wordt per regio geëvalueerd en geïmplementeerd. Neem contact op met uw Azure Databricks-accountteam voor meer informatie.
- Model Serving biedt geen beveiligingspatches voor bestaande modelinstallatiekopieën vanwege het risico dat de productie-implementaties worden gedestabiliseerd. Een nieuwe modelinstallatiekopieën die zijn gemaakt op basis van een nieuwe modelversie, bevatten de meest recente patches. Neem contact op met uw Databricks-accountteam voor meer informatie.
Functie | Granulariteit | Grenswaarde |
---|---|---|
Grootte van nettolading | Op aanvraag | 16 MB. Voor eindpunten die basismodellen of externe modellen bedienen, is de limiet 4 MB. |
Query's per seconde (QPS) | Per werkruimte | 200 QPS. Kan worden verhoogd tot 3000 of meer door contact op te halen met uw Databricks-accountteam. |
Duur van modeluitvoering | Op aanvraag | 120 seconden |
Geheugengebruik van CPU-eindpuntmodel | Per eindpunt | 4 GB |
Geheugengebruik gpu-eindpuntmodel | Per eindpunt | Groter dan of gelijk aan toegewezen GPU-geheugen, is afhankelijk van de grootte van de GPU-werkbelasting |
Ingerichte gelijktijdigheid | Per model en per werkruimte | Gelijktijdigheid van 200. Kan worden verhoogd door contact op te halen met uw Databricks-account. |
Overheadlatentie | Op aanvraag | Minder dan 50 milliseconden |
Frequentielimieten voor basismodel-API's (betalen per token) | Per werkruimte | Als de volgende limieten onvoldoende zijn voor uw use-case, raadt Databricks aan om ingerichte doorvoer te gebruiken. - Llama 3.1 70B Instruct heeft een limiet van 2 query's per seconde en 1200 query's per uur. - Llama 3.1 405B Instruct heeft een limiet van 1 query per seconde en 1200 query's per uur. - Het DBRX Instruct-model heeft een limiet van 1 query per seconde. - Mixtral-8x 7B Instruct heeft een standaardfrequentielimiet van 2 query's per seconde. - GTE Large (En) heeft een frequentielimiet van 150 query's per seconde - BGE Large (En) heeft een frequentielimiet van 600 query's per seconde. |
Frequentielimieten voor foundationmodel-API's (ingerichte doorvoer) | Per werkruimte | Hetzelfde als de hierboven vermelde QPS-limiet voor modelservers. |
Modelservereindpunten worden beveiligd door toegangsbeheer en respecteren netwerkgerelateerde toegangsbeheerregels die zijn geconfigureerd in de werkruimte, zoals IP-acceptatielijsten en Private Link.
Azure Private Link wordt alleen ondersteund voor modellen die eindpunten leveren die gebruikmaken van ingerichte doorvoer of eindpunten die aangepaste modellen leveren.
Er zijn ook aanvullende beperkingen:
- Het is mogelijk dat een werkruimte wordt geïmplementeerd in een ondersteunde regio, maar wordt geleverd door een besturingsvlak in een andere regio. Deze werkruimten bieden geen ondersteuning voor Model serving en resulteren in een foutbericht waarin wordt aangegeven dat uw werkruimte niet wordt ondersteund. Neem contact op met uw Azure Databricks-accountteam voor meer informatie.
- Model serving biedt geen ondersteuning voor init-scripts.
Netwerk- en beveiligingsbeperkingen
- Modelservereindpunten worden beveiligd door toegangsbeheer en respecteren netwerkgerelateerde toegangsbeheerregels die zijn geconfigureerd in de werkruimte, zoals IP-acceptatielijsten en Private Link.
- Privéconnectiviteit (zoals Azure Private Link) wordt alleen ondersteund voor modelservereindpunten die gebruikmaken van ingerichte doorvoer of eindpunten die aangepaste modellen leveren.
- Model serving biedt standaard geen ondersteuning voor Private Link naar externe eindpunten (zoals Azure OpenAI). Ondersteuning voor deze functionaliteit wordt geëvalueerd en geïmplementeerd per regio. Neem contact op met uw Azure Databricks-accountteam voor meer informatie.
- Model Serving biedt geen beveiligingspatches voor bestaande modelinstallatiekopieën vanwege het risico dat de productie-implementaties worden gedestabiliseerd. Een nieuwe modelinstallatiekopieën die zijn gemaakt op basis van een nieuwe modelversie, bevatten de meest recente patches. Neem contact op met uw Databricks-accountteam voor meer informatie.
Limieten voor FOUNDATION-model-API's
Notitie
Als onderdeel van het leveren van de Foundation Model-API's kan Databricks uw gegevens verwerken buiten de regio waar uw gegevens afkomstig zijn, maar niet buiten de relevante geografische locatie.
Voor workloads voor betalen per token en ingerichte doorvoerworkloads :
- Alleen werkruimtebeheerders kunnen de beheerinstellingen wijzigen, zoals frequentielimieten voor Foundation Model-API-eindpunten. Gebruik de volgende stappen om frequentielimieten te wijzigen:
- Open de gebruikersinterface van de server in uw werkruimte om uw eindpunten te zien.
- Selecteer Details weergeven in het menu voor het api-eindpunt van het Foundation-model dat u wilt bewerken.
- Selecteer de frequentielimiet wijzigen in het menu van de resource in de rechterbovenhoek van de detailpagina van de eindpunten.
- Bij het insluiten van modellen met GTE Large (En) worden geen genormaliseerde insluitingen gegenereerd.
Limieten voor betalen per token
Hier volgen limieten die relevant zijn voor de workloads voor betalen per token van Foundation Model- API's:
- Workloads met betalen per token voldoen niet aan HIPAA of nalevingsbeveiligingsprofiel.
- GTE Large (En) en Meta Llama 3.1 70B Instruct-modellen zijn beschikbaar in regio's die worden ondersteund voor betalen per token.
- De volgende pay-per-token-modellen worden alleen ondersteund in de Foundation Model-API's die worden ondersteund voor betalen per token in de Verenigde Staten:
- Meta Llama 3.1 405B Instruct
- DBRX Instruct
- Mixtral-8x7B Instruct
- BGE Large (En)
- Als uw werkruimte zich in een regio voor modelverdiening bevindt, maar niet in een Amerikaanse of EU-regio, moet uw werkruimte zijn ingeschakeld voor cross-geo-gegevensverwerking. Wanneer deze optie is ingeschakeld, wordt uw workload voor betalen per token doorgestuurd naar de Vs. Databricks Geo. Zie Databricks Designated Services om te zien welke geografische regio's betalen per tokenworkload verwerken.
Ingerichte doorvoerlimieten
Hier volgen limieten die relevant zijn voor de ingerichte doorvoerworkloads van Foundation Model-API's:
- Ingerichte doorvoer ondersteunt het HIPAA-nalevingsprofiel en wordt aanbevolen voor workloads waarvoor nalevingscertificeringen zijn vereist.
- Als u de DBRX-modelarchitectuur wilt gebruiken voor een ingerichte doorvoerworkload , moet uw eindpunt zich in een van de volgende regio's bevinden:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
- In de volgende tabel ziet u de beschikbaarheid van de regio's van de ondersteunde Meta Llama 3.1- en 3.2-modellen. Zie Basismodellen implementeren voor hulp bij het implementeren van nauwkeurig afgestemde modellen.
Meta Llama-modelvariant | Regio's |
---|---|
meta-llama/Llama-3.1-8B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-8B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-70B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-70B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-405B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-405B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.2-1B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.2-1B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.2-3B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.2-3B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
Beschikbaarheid van regio's
Notitie
Als u een eindpunt in een niet-ondersteunde regio nodig hebt, neemt u contact op met uw Azure Databricks-accountteam.
Als uw werkruimte wordt geïmplementeerd in een regio die ondersteuning biedt voor modelservice, maar wordt geleverd door een besturingsvlak in een niet-ondersteunde regio, biedt de werkruimte geen ondersteuning voor modelservice. Als u het model in een dergelijke werkruimte probeert te gebruiken, ziet u een foutbericht waarin wordt aangegeven dat uw werkruimte niet wordt ondersteund. Neem contact op met uw Azure Databricks-accountteam voor meer informatie.