Omezení a oblasti obsluhy modelů

Tento článek shrnuje omezení a dostupnost oblastí pro službu Databricks Model Serving a podporované typy koncových bodů.

Omezení

Služba Databricks Model Serving ukládá výchozí limity, které zajišťují spolehlivý výkon. Pokud máte k těmto limitům zpětnou vazbu, obraťte se prosím na svůj tým účtu Databricks.

Následující tabulka shrnuje omezení prostředků a datové části pro koncové body obsluhy modelu.

Funkce Členitost Limit
Velikost datové části Na požadavek 16 MB
Dotazy za sekundu (QPS) Na pracovní prostor 200, ale můžete ho zvýšit na 3000 nebo více tím, že se dostanete ke svému účtu Databricks.
Doba trvání provádění modelu Na požadavek 120 sekund
Využití paměti modelu koncového bodu procesoru Na koncový bod 4 GB
Využití paměti modelu koncového bodu GPU Na koncový bod Větší než nebo rovno přiřazené paměti GPU závisí na velikosti úlohy GPU.
Zřízená souběžnost Na pracovní prostor 200 souběžnosti. Můžete ho zvýšit kontaktováním účtu Databricks.
Režijní latence Na požadavek Méně než 50 milisekund
Omezení sazeb rozhraní API základního modelu (pay-per-token) Na pracovní prostor Pokud chcete zvýšit následující limity, obraťte se na svůj tým účtu Databricks.

* Model DBRX Instruct má limit 1 dotazu za sekundu.
* Jiné modely chatu a dokončování mají výchozí limit rychlosti 2 dotazů za sekundu.
* Modely vkládání mají výchozí 300 vstupů vkládání za sekundu.
Omezení rychlosti rozhraní API základního modelu (zřízená propustnost) Na pracovní prostor Stejné jako výše uvedený limit služby QPS obsluhující model.

Koncové body obsluhy modelů jsou chráněné řízením přístupu a respektují pravidla příchozího přenosu dat související se sítí nakonfigurovaná v pracovním prostoru, jako jsou seznamy povolených IP adres a Private Link.

Existují i další omezení:

  • Pracovní prostor je možné nasadit v podporované oblasti, ale obsluhovat ho řídicí rovina v jiné oblasti. Tyto pracovní prostory nepodporují obsluhu modelů a výsledkem je chybová zpráva s informací, že váš pracovní prostor není podporovaný. Další informace získáte od týmu účtu Azure Databricks.
  • Obsluha modelů nepodporuje inicializační skripty.
  • Služba modelování ve výchozím nastavení nepodporuje službu Private Link k externím koncovým bodům (jako je Azure OpenAI). Podpora této funkce se vyhodnocuje a implementuje v jednotlivých oblastech. Další informace získáte od týmu účtu Azure Databricks.

Omezení rozhraní API základního modelu

Poznámka:

V rámci poskytování rozhraní API základního modelu může Databricks zpracovávat vaše data mimo oblast, kde vaše data pocházejí, ale ne mimo příslušné geografické umístění.

Pro úlohy rozhraní API základního modelu platí následující omezení:

  • Zřízená propustnost podporuje profil dodržování předpisů HIPAA a měl by se používat pro úlohy vyžadující certifikace dodržování předpisů. Úlohy s platbami za tokeny nejsou kompatibilní se standardem HIPAA ani s dodržováním předpisů.
  • U koncových bodů rozhraní API modelu Foundation Model můžou měnit nastavení zásad správného řízení, jako jsou limity četnosti, jenom správci pracovního prostoru. Pokud chcete změnit limity četnosti, postupujte takto:
    1. Otevřete uživatelské rozhraní obsluhy v pracovním prostoru a zobrazte koncové body obsluhy.
    2. V nabídce kebab v koncovém bodu rozhraní API základního modelu, který chcete upravit, vyberte Zobrazit podrobnosti.
    3. V nabídce kebab na pravé horní straně stránky podrobností koncových bodů vyberte Změnit limit rychlosti.
  • Pokud chcete pro zřízenou úlohu propustnosti použít architekturu modelu DBRX, musí být váš koncový bod obsluhy v jedné z následujících oblastí:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth

Dostupnost oblastí

Poznámka:

Pokud potřebujete koncový bod v nepodporované oblasti, obraťte se na svůj tým účtů Azure Databricks.

Úlohy zřízené propustnosti, které používají modely DBRX, najdete v tématu Omezení rozhraní API základních modelů pro dostupnost oblastí.

Oblast Umístění Základní funkce obsluhy modelů * Rozhraní API základního modelu (zřízená v celém systému) ** Rozhraní API základního modelu (platba za token) Externí modely
australiacentral Austrálie – střed
australiacentral2 Austrálie – střed 2
australiaeast Austrálie – východ X X X
australiasoutheast Austrálie – jihovýchod
brazilsouth Brazílie – jih X X X
canadacentral Střední Kanada X X X
canadaeast Kanada – východ
centralindia Indie – střed X X X
centralus USA – střed X X X X
chinaeast2 Čína – východ 2
chinaeast3 Čína – východ 3
chinanorth2 Čína – sever 2
chinanorth3 Čína – sever 3
eastasia Východní Asie
eastus East US X X X X
eastus2 USA – východ 2 X X X X
eastus2euap USA – východ 2 (EUAP)
francecentral Francie – střed
germanywestcentral Německo – středozápad
japaneast Japonsko – východ
japanwest Japonsko – západ
koreacentral Jižní Korea – střed
northcentralus USA – středosever X X X
northeurope Severní Evropa X X X
norwayeast Norsko – východ
qatarcentral Střední Katar
southafricanorth Jižní Afrika – sever
southcentralus Středojižní USA
southeastasia Southeast Asia X X
southindia Indie – jih
swedencentral Švédsko – střed
switzerlandnorth Švýcarsko – sever
switzerlandwest Švýcarsko – západ
uaenorth Spojené arabské emiráty – sever
uksouth Spojené království – jih
ukwest Spojené království – západ
westcentralus USA – středozápad
westeurope West Europe X X X
westindia Západ Indie
westus USA – západ X X X X
westus2 Západní USA 2 X
westus3 USA – západ 3
  • Pouze výpočetní prostředky procesoru

** zahrnuje podporu gpu.