Modellbereitstellungsgrenzwerte und Regionen
In diesem Artikel werden die Einschränkungen und die Regionsverfügbarkeit für die Mosaic AI Model Serving und die unterstützten Endpunkttypen zusammengefasst.
Begrenzungen
Mosaic AI Model Serving legt Standardgrenzwerte fest, um eine zuverlässige Leistung sicherzustellen. Wenden Sie sich bitte an Ihr Databricks-Kontoteam, wenn Sie Feedback zu diesen Einschränkungen haben.
In der folgenden Tabelle finden Sie eine Übersicht über die Grenzwerte für Ressourcen und Payloads für Modellbereitstellungsendpunkte.
Funktion | Granularität | Begrenzung |
---|---|---|
Größe der Nutzdaten | Pro Anforderung | 16 MB |
Abfragen pro Sekunde (QPS) | Pro Arbeitsbereich | 200, kann aber auf 3000 oder mehr erhöht werden, indem Sie sich an Ihr Databricks-Kontoteam wenden |
Dauer der Modellausführung | Pro Anforderung | 120 Sekunden |
Arbeitsspeicherauslastung des CPU-Endpunktmodells | Pro Endpunkt | 4GB |
Arbeitsspeicherauslastung des GPU-Endpunktmodells | Pro Endpunkt | Größer oder gleich dem zugewiesenen GPU-Speicher, abhängig von der Größe der GPU-Workload |
Bereitgestellte Parallelität | Pro Arbeitsbereich | 200-Parallelität. Kann erhöht werden, indem Sie sich an Ihr Databricks-Kontoteam wenden. |
Overheadwartezeit | Pro Anforderung | Weniger als 50 Millisekunden |
Foundation-Modell-APIs (Pay-per-Token)-Ratenbegrenzungen | Pro Arbeitsbereich | Wenden Sie sich an Ihr Databricks-Kontoteam, um die folgenden Grenzwerte zu erhöhen. * Das DBRX Instruct-Modell weist eine Beschränkung von einer Abfrage pro Sekunde auf. * Andere Chat- und Vervollständigungsmodelle haben eine Standardrateneinschränkung von zwei Abfragen pro Sekunde. * Bei Einbettungsmodellen sind standardmäßig 300 Einbettungseingaben pro Sekunde zulässig. |
Foundation Model APIs (bereitgestellter Durchsatz)-Ratenbegrenzungen | Pro Arbeitsbereich | Identisch mit dem oben aufgeführten QPS-Grenzwert für die Modellbereitstellung. |
Modellbereitstellungsendpunkte werden durch die Zugriffssteuerung geschützt und berücksichtigen netzwerkbezogene Eingangsregeln, die im Arbeitsbereich konfiguriert sind, z. B. Listen zugelassener IP-Adressen und Private Link.
Es gibt zusätzliche Einschränkungen:
- Es ist möglich, dass ein Arbeitsbereich in einer unterstützten Region bereitgestellt wird, aber von einer Steuerungsebene in einer anderen Region gesteuert wird. Diese Arbeitsbereiche unterstützen die Modellbereitstellung nicht und führen zu einer Fehlermeldung, die besagt, dass Ihr Arbeitsbereich nicht unterstützt wird. Wenden Sie sich an Ihr Azure Databricks-Kontoteam, um weitere Informationen zu erfahren.
- Die Modellbereitstellung unterstützt keine Initskripts.
- Standardmäßig unterstützt die Modellbereitstellung keine private Verknüpfung mit externen Endpunkten (z. B. Azure OpenAI). Die Unterstützung für diese Funktionalität wird regionsweise ausgewertet und implementiert. Wenden Sie sich an Ihr Azure Databricks-Kontoteam, um weitere Informationen zu erfahren.
Foundation Model-APIs-Grenzwerte
Hinweis
Im Rahmen der Bereitstellung der Foundation Model APIs kann Databricks Ihre Daten außerhalb der Region verarbeiten, aus der Ihre Daten stammen, jedoch nicht außerhalb des jeweiligen geografischen Speicherorts.
Im Folgenden sind Grenzwerte für Foundation Model-APIs-Workloads relevant:
- Der bereitgestellte Durchsatz unterstützt das HIPAA-Complianceprofil und sollte für Workloads verwendet werden, die Compliancezertifizierungen erfordern. Workloads mit tokenbasierter Bezahlung sind nicht mit HIPAA oder Compliancesicherheitsprofilen konform.
- Bei Foundation Model APIs Endpunkten können nur Arbeitsbereichsadministratoren die Governance-Einstellungen, wie z. B. die Ratenbegrenzungen, ändern. Gehen Sie wie folgt vor, um die Ratenbegrenzungen zu ändern:
- Öffnen Sie die Serving-Benutzeroberfläche in Ihrem Arbeitsbereich, um Ihre Serving-Endpunkte zu sehen.
- Wählen Sie im Kebab-Menü auf dem Foundation Model-APIs-Endpunkt, den Sie bearbeiten möchten, die Option Details anzeigen aus.
- Wählen Sie im Kebab-Menü oben rechts auf der Detailseite der Endpunkte die Option Ratenbegrenzung ändern aus.
- Um die DBRX-Modellarchitektur für eine Workload für bereitgestellten Durchsatz zu verwenden, muss sich Ihr Bereitstellungsendpunkt in einer der folgenden Regionen befinden:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
Regionale Verfügbarkeit
Hinweis
Wenn Sie einen Endpunkt in einer nicht unterstützten Region benötigen, wenden Sie sich an Ihr Azure Databricks-Kundenteam.
Weitere Informationen zur regionalen Verfügbarkeit für Workloads für bereitgestellten Durchsatz, die die DBRX-Modelle verwenden, finden Sie im Artikel zu den Einschränkungen der Basismodell-APIs.
Region | Standort | Core Model Serving-Funktion * | Foundation Model-APIs (durchgängig bereitgestellt) ** | Foundation Model APIs (Pay-per-Token) | Externe Modelle |
---|---|---|---|---|---|
australiacentral |
Australien, Mitte | ||||
australiacentral2 |
Australien, Mitte 2 | ||||
australiaeast |
Australien (Osten) | X | X | X | |
australiasoutheast |
Australien, Südosten | ||||
brazilsouth |
Brasilien, Süden | X | X | X | |
canadacentral |
Kanada, Mitte | X | X | X | |
canadaeast |
Kanada, Osten | ||||
centralindia |
Indien, Mitte | X | X | X | |
centralus |
USA (Mitte) | X | X | X | X |
chinaeast2 |
China, Osten 2 | ||||
chinaeast3 |
China, Osten 3 | ||||
chinanorth2 |
China, Norden 2 | ||||
chinanorth3 |
China, Norden 3 | ||||
eastasia |
Asien, Osten | ||||
eastus |
East US | X | X | X | X |
eastus2 |
USA (Ost) 2 | X | X | X | X |
eastus2euap |
USA, Osten 2 (EUAP) | ||||
francecentral |
Frankreich, Mitte | ||||
germanywestcentral |
Deutschland, Westen-Mitte | ||||
japaneast |
Japan, Osten | ||||
japanwest |
Japan, Westen | ||||
koreacentral |
Korea, Mitte | ||||
northcentralus |
USA Nord Mitte | X | X | X | |
northeurope |
Nordeuropa | X | X | X | |
norwayeast |
Norwegen, Osten | ||||
qatarcentral |
Katar, Mitte | ||||
southafricanorth |
Südafrika, Norden | ||||
southcentralus |
USA Süd Mitte | ||||
southeastasia |
Asien, Südosten | X | X | ||
southindia |
Indien (Süden) | ||||
swedencentral |
Schweden, Mitte | ||||
switzerlandnorth |
Schweiz, Norden | ||||
switzerlandwest |
Schweiz, Westen | ||||
uaenorth |
Vereinigte Arabische Emirate, Norden | ||||
uksouth |
UK, Süden | ||||
ukwest |
UK, Westen | ||||
westcentralus |
USA, Westen-Mitte | ||||
westeurope |
Europa, Westen | X | X | X | |
westindia |
Indien, Westen | ||||
westus |
USA (Westen) | X | X | X | X |
westus2 |
USA, Westen 2 | X | X | ||
westus3 |
USA, Westen 3 | X | X |
- nur CPU-Compute
** umfasst GPU-Support
Feedback
https://aka.ms/ContentUserFeedback.
Bald verfügbar: Im Laufe des Jahres 2024 werden wir GitHub-Issues stufenweise als Feedbackmechanismus für Inhalte abbauen und durch ein neues Feedbacksystem ersetzen. Weitere Informationen finden Sie unterFeedback senden und anzeigen für