Omezení a oblasti obsluhy modelů
Tento článek shrnuje omezení a dostupnost oblastí pro obsluhu modelu Mosaic AI a podporované typy koncových bodů.
Omezení
Služba obsluhy modelu AI v systému Mosaic ukládá výchozí limity pro zajištění spolehlivého výkonu. Pokud máte k těmto limitům zpětnou vazbu, obraťte se prosím na svůj tým účtu Databricks.
Následující tabulka shrnuje omezení prostředků a datové části pro koncové body obsluhy modelu.
Funkce | Členitost | Limit |
---|---|---|
Velikost datové části | Na požadavek | 16 MB. U koncových bodů, které obsluhují základní modely nebo externí modely, je limit 4 MB. |
Dotazy za sekundu (QPS) | Na pracovní prostor | 200 QPS. Můžete ho zvýšit na 3000 nebo více tím, že se obraťte na svůj tým účtů Databricks. |
Doba trvání provádění modelu | Na požadavek | 120 sekund |
Využití paměti modelu koncového bodu procesoru | Na koncový bod | 4 GB |
Využití paměti modelu koncového bodu GPU | Na koncový bod | Větší než nebo rovno přiřazené paměti GPU závisí na velikosti úlohy GPU. |
Zřízená souběžnost | Na model a na pracovní prostor | 200 souběžnosti. Můžete ho zvýšit kontaktováním účtu Databricks. |
Režijní latence | Na požadavek | Méně než 50 milisekund |
Omezení sazeb rozhraní API základního modelu (pay-per-token) | Na pracovní prostor | Pokud pro váš případ použití nejsou dostatečná následující omezení, databricks doporučuje používat zřízenou propustnost. - Llama 3.1 70B Pokyn má limit 2 dotazy za sekundu a 1200 dotazů za hodinu. - Llama 3.1 405B Instruct má limit 1 dotaz za sekundu a 1200 dotazů za hodinu. – Model DBRX Instruct má limit 1 dotazu za sekundu. - Llama 2 70B Chat a Mixtral-8x 7B Pokyn mají výchozí limit rychlosti 2 dotazy za sekundu. - GTE Large (En) má limit rychlosti 150 dotazů za sekundu. – BGE Large (En) má limit rychlosti 600 dotazů za sekundu. |
Omezení rychlosti rozhraní API základního modelu (zřízená propustnost) | Na pracovní prostor | Stejné jako výše uvedený limit služby QPS obsluhující model. |
Koncové body obsluhy modelů jsou chráněné řízením přístupu a respektují pravidla příchozího přenosu dat související se sítí nakonfigurovaná v pracovním prostoru, jako jsou seznamy povolených IP adres a Private Link.
Existují i další omezení:
- Pracovní prostor je možné nasadit v podporované oblasti, ale obsluhovat ho řídicí rovina v jiné oblasti. Tyto pracovní prostory nepodporují obsluhu modelů a výsledkem je chybová zpráva s informací, že váš pracovní prostor není podporovaný. Další informace získáte od týmu účtu Azure Databricks.
- Obsluha modelů nepodporuje inicializační skripty.
- Služba modelování ve výchozím nastavení nepodporuje službu Private Link k externím koncovým bodům (jako je Azure OpenAI). Podpora této funkce se vyhodnocuje a implementuje v jednotlivých oblastech. Další informace získáte od týmu účtu Azure Databricks.
Omezení rozhraní API základního modelu
Poznámka:
V rámci poskytování rozhraní API základního modelu může Databricks zpracovávat vaše data mimo oblast, kde vaše data pocházejí, ale ne mimo příslušné geografické umístění.
Pro úlohy rozhraní API základního modelu platí následující omezení:
- Zřízená propustnost podporuje profil dodržování předpisů HIPAA a měl by se používat pro úlohy vyžadující certifikace dodržování předpisů.
- Úlohy s platbami za tokeny nejsou kompatibilní se standardem HIPAA ani s dodržováním předpisů.
- U koncových bodů rozhraní API modelu Foundation Model můžou měnit nastavení zásad správného řízení, jako jsou limity četnosti, jenom správci pracovního prostoru. Pokud chcete změnit limity četnosti, postupujte takto:
- Otevřete uživatelské rozhraní obsluhy v pracovním prostoru a zobrazte koncové body obsluhy.
- V nabídce kebab v koncovém bodu rozhraní API základního modelu, který chcete upravit, vyberte Zobrazit podrobnosti.
- V nabídce kebab na pravé horní straně stránky podrobností koncových bodů vyberte Změnit limit rychlosti.
- Pokud chcete pro zřízenou úlohu propustnosti použít architekturu modelu DBRX, musí být váš koncový bod obsluhy v jedné z následujících oblastí:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
- V podporovaných oblastech EU a USA jsou k dispozici pouze modely GTE Large (En) a Meta Llama 3.1 70B Instruct.
- Následující modely s platbami za tokeny jsou podporovány pouze v oblastech USA podporovaných rozhraními API základního modelu:
- Meta Llama 3.1 405B Pokyn
- DbRX – pokyn
- Mixtral-8x7B – pokyn
- BGE Large (En)
- Llama 2 70B Chat
Dostupnost oblastí
Poznámka:
Pokud potřebujete koncový bod v nepodporované oblasti, obraťte se na svůj tým účtů Azure Databricks.