Freigeben über


Modellbereitstellungsgrenzwerte und Regionen

In diesem Artikel werden die Einschränkungen und die Regionsverfügbarkeit für die Mosaic AI Model Serving und die unterstützten Endpunkttypen zusammengefasst.

Begrenzungen

Mosaic AI Model Serving legt Standardgrenzwerte fest, um eine zuverlässige Leistung sicherzustellen. Wenden Sie sich bitte an Ihr Databricks-Kontoteam, wenn Sie Feedback zu diesen Einschränkungen haben.

In der folgenden Tabelle finden Sie eine Übersicht über die Grenzwerte für Ressourcen und Payloads für Modellbereitstellungsendpunkte.

Funktion Granularität Begrenzung
Größe der Nutzdaten Pro Anforderung 16 MB
Abfragen pro Sekunde (QPS) Pro Arbeitsbereich 200, kann aber auf 3000 oder mehr erhöht werden, indem Sie sich an Ihr Databricks-Kontoteam wenden
Dauer der Modellausführung Pro Anforderung 120 Sekunden
Arbeitsspeicherauslastung des CPU-Endpunktmodells Pro Endpunkt 4GB
Arbeitsspeicherauslastung des GPU-Endpunktmodells Pro Endpunkt Größer oder gleich dem zugewiesenen GPU-Speicher, abhängig von der Größe der GPU-Workload
Bereitgestellte Parallelität Pro Arbeitsbereich 200-Parallelität. Kann erhöht werden, indem Sie sich an Ihr Databricks-Kontoteam wenden.
Overheadwartezeit Pro Anforderung Weniger als 50 Millisekunden
Foundation-Modell-APIs (Pay-per-Token)-Ratenbegrenzungen Pro Arbeitsbereich Wenden Sie sich an Ihr Databricks-Kontoteam, um die folgenden Grenzwerte zu erhöhen.

* Das DBRX Instruct-Modell weist eine Beschränkung von einer Abfrage pro Sekunde auf.
* Andere Chat- und Vervollständigungsmodelle haben eine Standardrateneinschränkung von zwei Abfragen pro Sekunde.
* Bei Einbettungsmodellen sind standardmäßig 300 Einbettungseingaben pro Sekunde zulässig.
Foundation Model APIs (bereitgestellter Durchsatz)-Ratenbegrenzungen Pro Arbeitsbereich Identisch mit dem oben aufgeführten QPS-Grenzwert für die Modellbereitstellung.

Modellbereitstellungsendpunkte werden durch die Zugriffssteuerung geschützt und berücksichtigen netzwerkbezogene Eingangsregeln, die im Arbeitsbereich konfiguriert sind, z. B. Listen zugelassener IP-Adressen und Private Link.

Es gibt zusätzliche Einschränkungen:

  • Es ist möglich, dass ein Arbeitsbereich in einer unterstützten Region bereitgestellt wird, aber von einer Steuerungsebene in einer anderen Region gesteuert wird. Diese Arbeitsbereiche unterstützen die Modellbereitstellung nicht und führen zu einer Fehlermeldung, die besagt, dass Ihr Arbeitsbereich nicht unterstützt wird. Wenden Sie sich an Ihr Azure Databricks-Kontoteam, um weitere Informationen zu erfahren.
  • Die Modellbereitstellung unterstützt keine Initskripts.
  • Standardmäßig unterstützt die Modellbereitstellung keine private Verknüpfung mit externen Endpunkten (z. B. Azure OpenAI). Die Unterstützung für diese Funktionalität wird regionsweise ausgewertet und implementiert. Wenden Sie sich an Ihr Azure Databricks-Kontoteam, um weitere Informationen zu erfahren.

Foundation Model-APIs-Grenzwerte

Hinweis

Im Rahmen der Bereitstellung der Foundation Model APIs kann Databricks Ihre Daten außerhalb der Region verarbeiten, aus der Ihre Daten stammen, jedoch nicht außerhalb des jeweiligen geografischen Speicherorts.

Im Folgenden sind Grenzwerte für Foundation Model-APIs-Workloads relevant:

  • Der bereitgestellte Durchsatz unterstützt das HIPAA-Complianceprofil und sollte für Workloads verwendet werden, die Compliancezertifizierungen erfordern. Workloads mit tokenbasierter Bezahlung sind nicht mit HIPAA oder Compliancesicherheitsprofilen konform.
  • Bei Foundation Model APIs Endpunkten können nur Arbeitsbereichsadministratoren die Governance-Einstellungen, wie z. B. die Ratenbegrenzungen, ändern. Gehen Sie wie folgt vor, um die Ratenbegrenzungen zu ändern:
    1. Öffnen Sie die Serving-Benutzeroberfläche in Ihrem Arbeitsbereich, um Ihre Serving-Endpunkte zu sehen.
    2. Wählen Sie im Kebab-Menü auf dem Foundation Model-APIs-Endpunkt, den Sie bearbeiten möchten, die Option Details anzeigen aus.
    3. Wählen Sie im Kebab-Menü oben rechts auf der Detailseite der Endpunkte die Option Ratenbegrenzung ändern aus.
  • Um die DBRX-Modellarchitektur für eine Workload für bereitgestellten Durchsatz zu verwenden, muss sich Ihr Bereitstellungsendpunkt in einer der folgenden Regionen befinden:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth

Regionale Verfügbarkeit

Hinweis

Wenn Sie einen Endpunkt in einer nicht unterstützten Region benötigen, wenden Sie sich an Ihr Azure Databricks-Kundenteam.

Weitere Informationen zur regionalen Verfügbarkeit für Workloads für bereitgestellten Durchsatz, die die DBRX-Modelle verwenden, finden Sie im Artikel zu den Einschränkungen der Basismodell-APIs.

Region Standort Core Model Serving-Funktion * Foundation Model-APIs (durchgängig bereitgestellt) ** Foundation Model APIs (Pay-per-Token) Externe Modelle
australiacentral Australien, Mitte
australiacentral2 Australien, Mitte 2
australiaeast Australien (Osten) X X X
australiasoutheast Australien, Südosten
brazilsouth Brasilien, Süden X X X
canadacentral Kanada, Mitte X X X
canadaeast Kanada, Osten
centralindia Indien, Mitte X X X
centralus USA (Mitte) X X X X
chinaeast2 China, Osten 2
chinaeast3 China, Osten 3
chinanorth2 China, Norden 2
chinanorth3 China, Norden 3
eastasia Asien, Osten
eastus East US X X X X
eastus2 USA (Ost) 2 X X X X
eastus2euap USA, Osten 2 (EUAP)
francecentral Frankreich, Mitte
germanywestcentral Deutschland, Westen-Mitte
japaneast Japan, Osten
japanwest Japan, Westen
koreacentral Korea, Mitte
northcentralus USA Nord Mitte X X X
northeurope Nordeuropa X X X
norwayeast Norwegen, Osten
qatarcentral Katar, Mitte
southafricanorth Südafrika, Norden
southcentralus USA Süd Mitte
southeastasia Asien, Südosten X X
southindia Indien (Süden)
swedencentral Schweden, Mitte
switzerlandnorth Schweiz, Norden
switzerlandwest Schweiz, Westen
uaenorth Vereinigte Arabische Emirate, Norden
uksouth UK, Süden
ukwest UK, Westen
westcentralus USA, Westen-Mitte
westeurope Europa, Westen X X X
westindia Indien, Westen
westus USA (Westen) X X X X
westus2 USA, Westen 2 X X
westus3 USA, Westen 3 X X
  • nur CPU-Compute

** umfasst GPU-Support