Obsluha modelů s využitím Azure Databricks
Tento článek popisuje obsluhu modelu Mosaic AI, včetně jejích výhod a omezení.
Co je služba modelu AI od společnosti Mosaic?
Služba rozhraní AI Model Batch poskytuje jednotné rozhraní pro nasazování, řízení a dotazování modelů AI pro odvozování v reálném čase a dávkové odvozování. Každý model, který používáte, je k dispozici jako rozhraní REST API, které můžete integrovat do webové nebo klientské aplikace.
Poskytování modelů poskytuje vysoce dostupnou službu s nízkou latencí pro nasazování modelů. Služba automaticky vertikálně navyšuje nebo snižuje kapacitu tak, aby splňovala změny poptávky, což šetří náklady na infrastrukturu při optimalizaci výkonu latence. Tato funkce využívá výpočetní prostředky bez serveru. Další podrobnosti najdete na stránce s cenami služby Model Service.
Obsluha modelu podporuje obsluhu:
- Vlastní modely. Jedná se o modely Pythonu zabalené ve formátu MLflow. Můžou být zaregistrované buď v katalogu Unity, nebo v registru modelu pracovního prostoru. Mezi příklady patří modely scikit-learn, XGBoost, PyTorch a Hugging Face Transformer.
- Služba agenta se podporuje jako vlastní model. Viz Nasazení agenta pro aplikaci generující AI.
- Nejmodernější otevřené modely, které zpřístupnilo rozhraní API základních modelů. Tyto modely jsou kurátorované základní architektury modelů, které podporují optimalizované odvozování. Základní modely, jako je Meta-Llama-3.1-70B-Instruct, GTE-Large a Mistral-7B, jsou k dispozici pro okamžité použití s cenami plateb za token a úlohy, které vyžadují záruky výkonu a jemně vyladěné varianty modelů, je možné nasadit se zřízenou propustností.
- Databricks doporučuje používat
ai_query
se službou Model Serving pro dávkové odvozování. K rychlému experimentováníai_query
je možné použít koncové body s platbami za token. Jakmile budete připraveni spustit dávkové odvozování velkých nebo produkčních dat, Databricks doporučuje používat zřízené koncové body propustnosti, aby se zrychlil výkon. Informace o vytvoření koncového bodu zřízené propustnosti najdete v tématu Rozhraní API základního modelu zřízené propustnosti.- Viz Provádění dávkových odvozování pomocí ai_query.
- Pokud chcete začít s dávkovým odvozováním s LLMs v tabulkách katalogu> Unity, podívejte se na příklady poznámkových bloků ve službě Batch inference pomocí rozhraní API základního modelu zřízené propustnosti.
- Databricks doporučuje používat
- Externí modely. Jedná se o generující modely AI hostované mimo Databricks. Mezi příklady patří modely, jako je GPT-4 OpenAI, Anthropic Clauda a další. Koncové body, které obsluhují externí modely, se dají centrálně řídit a zákazníci pro ně můžou stanovit omezení rychlosti a řízení přístupu.
Poznámka:
S podporovanými velkými jazykovými modely můžete pracovat pomocí AI Playgroundu. AI Playground je prostředí podobné chatu, ve kterém můžete testovat, zobrazovat výzvy a porovnávat LLM. Tato funkce je dostupná ve vašem pracovním prostoru Azure Databricks.
Obsluha modelu nabízí jednotné rozhraní REST API a rozhraní API pro nasazení MLflow pro úlohy CRUD a dotazování. Kromě toho poskytuje jedno uživatelské rozhraní pro správu všech vašich modelů a jejich příslušných koncových bodů obsluhy. K modelům můžete přistupovat také přímo z SQL pomocí funkcí AI pro snadnou integraci do analytických pracovních postupů.
Úvodní kurz, jak obsluhovat vlastní modely v Azure Databricks, najdete v tématu Kurz: Nasazení a dotazování vlastního modelu.
Úvodní kurz o dotazování základního modelu v Databricks najdete v tématu Začínáme s dotazováním LLM v Databricks.
Proč používat obsluhu modelů?
- Nasazení a dotazování libovolného modelu: Obsluha modelů poskytuje jednotné rozhraní, které umožňuje spravovat všechny modely na jednom místě a dotazovat se na ně jediným rozhraním API bez ohledu na to, jestli jsou hostované v Databricks nebo externě. Tento přístup zjednodušuje proces experimentování s modely, přizpůsobení a nasazování modelů v produkčním prostředí napříč různými cloudy a poskytovateli.
- Bezpečné přizpůsobení modelů s využitím privátních dat: Služba Model Serving na platformě Data Intelligence zjednodušuje integraci funkcí a vkládání do modelů prostřednictvím nativní integrace s úložištěm funkcí Databricks a vektorovým vyhledáváním v Prostředí pro architekturu Mosaic. Pro ještě lepší přesnost a kontextové porozumění je možné modely jemně doladit s proprietárními daty a snadno nasazovat na obsluhu modelů.
- Řízení a monitorování modelů: Obslužné uživatelské rozhraní umožňuje centrálně spravovat všechny koncové body modelu na jednom místě, včetně těch, které jsou externě hostované. Můžete spravovat oprávnění, sledovat a nastavit limity využití a monitorovat kvalitu všech typů modelů. To vám umožní demokratizovat přístup k SaaS a otevírat LLM ve vaší organizaci a zároveň zajistit, aby byly zavedeny vhodné mantinely.
- Snížení nákladů s optimalizovaným odvozováním a rychlým škálováním: Služba Databricks implementovala řadu optimalizací, abyste zajistili nejlepší propustnost a latenci pro velké modely. Koncové body se automaticky škálují nahoru nebo dolů, aby splňovaly změny poptávky, což šetří náklady na infrastrukturu při optimalizaci výkonu latence. Monitorujte model obsluhující náklady.
Poznámka:
U úloh, které jsou citlivé na latenci nebo zahrnují vysoký počet dotazů za sekundu, doporučuje Databricks použít optimalizaci tras u vlastních koncových bodů obsluhy modelu. Spojte se s týmem účtu Databricks a ujistěte se, že je váš pracovní prostor povolený pro zajištění vysoké škálovatelnosti.
- Zajištění spolehlivosti a zabezpečení do obsluhy modelů: Obsluha modelů je navržená pro použití v produkčním prostředí s vysokou dostupností, nízkou latencí a může podporovat více než 25 tisíc dotazů za sekundu s latencí režie menší než 50 ms. Obsluhované úlohy jsou chráněny několika vrstvami zabezpečení a zajišťují bezpečné a spolehlivé prostředí pro i nejcitlivější úlohy.
Poznámka:
Obsluha modelů neposkytuje opravy zabezpečení stávajícím imagím modelu kvůli riziku deaktivace produkčních nasazení. Nová image modelu vytvořená z nové verze modelu bude obsahovat nejnovější opravy. Další informace získáte od týmu účtu Databricks.
Požadavky
- Registrovaný model v katalogu Unity nebo registru modelů pracovního prostoru.
- Oprávnění k registrovaným modelům, jak je popsáno v seznamech ACL koncového bodu obsluhy
- MLflow 1,29 nebo vyšší
Povolení obsluhy modelů pro váš pracovní prostor
K povolení služby Model Serving ve vašem pracovním prostoru nejsou potřeba žádné další kroky.
Omezení a dostupnost oblastí
Služba obsluhy modelu AI v systému Mosaic ukládá výchozí limity pro zajištění spolehlivého výkonu. Viz Omezení a oblasti služby Model Serving. Pokud máte zpětnou vazbu k těmto limitům nebo koncovému bodu v nepodporované oblasti, obraťte se na svůj tým účtů Databricks.
Ochrana dat ve službě Model Serving
Databricks bere zabezpečení dat vážně. Databricks rozumí důležitosti dat, která analyzujete pomocí obsluhy modelu Mosaic AI, a implementuje následující bezpečnostní prvky, které chrání vaše data.
- Každá žádost zákazníka o poskytování modelu je logicky izolovaná, ověřená a autorizovaná.
- Služba rozhraní AI Model Mosaic šifruje všechna neaktivní uložená data (AES-256) a přenášená data (TLS 1.2+).
U všech placených účtů služba Mosaic AI Model Serving nepoužívá uživatelské vstupy odeslané do služby ani výstupy ze služby k trénování jakýchkoli modelů nebo ke zlepšení služeb Databricks.
Pro rozhraní API modelu Foundation Databricks, která jsou součástí poskytování služby, může Databricks dočasně zpracovávat a ukládat vstupy a výstupy za účelem prevence, zjišťování a zmírnění zneužití nebo škodlivého použití. Vaše vstupy a výstupy jsou izolované od těch ostatních zákazníků, které jsou uložené ve stejné oblasti jako váš pracovní prostor po dobu až třiceti (30) dnů a jsou přístupné pouze pro detekci a reakci na obavy z zabezpečení nebo zneužití.