Obsluha modelů s využitím Azure Databricks

Článek
03/08/2024

Tento článek popisuje službu Azure Databricks Model Serving, včetně jejích výhod a omezení.

Co je obsluha modelu?

Služba Databricks Model Serving poskytuje jednotné rozhraní pro nasazení, řízení a dotazování modelů AI. Každý model, který používáte, je k dispozici jako rozhraní REST API, které můžete integrovat do webové nebo klientské aplikace.

Poskytování modelů poskytuje vysoce dostupnou službu s nízkou latencí pro nasazování modelů. Služba automaticky vertikálně navyšuje nebo snižuje kapacitu tak, aby splňovala změny poptávky, což šetří náklady na infrastrukturu při optimalizaci výkonu latence. Tato funkce využívá výpočetní prostředky bez serveru. Další podrobnosti najdete na stránce s cenami služby Model Service.

Obsluha modelu podporuje obsluhu:

Vlastní modely. Jedná se o modely Pythonu zabalené ve formátu MLflow. Můžou být zaregistrované buď v katalogu Unity, nebo v registru modelu pracovního prostoru. Mezi příklady patří modely scikit-learn, XGBoost, PyTorch a Hugging Face Transformer.
Nejmodernější otevřené modely, které zpřístupnilo rozhraní API základních modelů. Tyto modely jsou kurátorované základní architektury modelů, které podporují optimalizované odvozování. Základní modely, jako je Llama-2-70B-chat, BGE-Large a Mistral-7B, jsou k dispozici pro okamžité použití s cenami plateb za tokeny a úlohy, které vyžadují záruky výkonu a jemně vyladěné varianty modelů, je možné nasadit se zřízenou propustností.
Externí modely. Jedná se o modely hostované mimo Databricks. Koncové body, které obsluhují externí modely, se dají centrálně řídit a zákazníci pro ně můžou stanovit omezení rychlosti a řízení přístupu. Mezi příklady patří základní modely, jako je GPT-4 OpenAI, Anthropic Clauda a další.

Poznámka:

S podporovanými velkými jazykovými modely můžete pracovat pomocí AI Playgroundu. AI Playground je prostředí podobné chatu, ve kterém můžete testovat, zobrazovat výzvy a porovnávat LLM. Tato funkce je dostupná ve vašem pracovním prostoru Azure Databricks.

Obsluha modelu nabízí jednotné rozhraní REST API a rozhraní API pro nasazení MLflow pro úlohy CRUD a dotazování. Kromě toho poskytuje jedno uživatelské rozhraní pro správu všech vašich modelů a jejich příslušných koncových bodů obsluhy. K modelům můžete přistupovat také přímo z SQL pomocí funkcí AI pro snadnou integraci do analytických pracovních postupů.

Úvodní kurz, jak obsluhovat vlastní modely v Azure Databricks, najdete v tématu Kurz: Nasazení a dotazování vlastního modelu.

Úvodní kurz o dotazování základního modelu v Databricks najdete v tématu Začínáme s dotazováním LLM v Databricks.

Proč používat obsluhu modelů?

Nasazení a dotazování libovolného modelu: Obsluha modelů poskytuje jednotné rozhraní, které umožňuje spravovat všechny modely na jednom místě a dotazovat se na ně jediným rozhraním API bez ohledu na to, jestli jsou hostované v Databricks nebo externě. Tento přístup zjednodušuje proces experimentování s modely, přizpůsobení a nasazování modelů v produkčním prostředí napříč různými cloudy a poskytovateli.
Bezpečné přizpůsobení modelů s využitím privátních dat: Služba Model Serving na platformě Data Intelligence zjednodušuje integraci funkcí a vkládání do modelů prostřednictvím nativní integrace s úložištěm funkcí Databricks a vektorovým vyhledáváním Databricks. Pro ještě lepší přesnost a kontextové porozumění je možné modely jemně doladit s proprietárními daty a snadno nasazovat na obsluhu modelů.
Řízení a monitorování modelů: Obslužné uživatelské rozhraní umožňuje centrálně spravovat všechny koncové body modelu na jednom místě, včetně těch, které jsou externě hostované. Můžete spravovat oprávnění, sledovat a nastavit limity využití a monitorovat kvalitu všech typů modelů. To vám umožní demokratizovat přístup k SaaS a otevírat LLM ve vaší organizaci a zároveň zajistit, aby byly zavedeny vhodné mantinely.
Snížení nákladů s optimalizovaným odvozováním a rychlým škálováním: Služba Databricks implementovala řadu optimalizací, abyste zajistili nejlepší propustnost a latenci pro velké modely. Koncové body se automaticky škálují nahoru nebo dolů, aby splňovaly změny poptávky, což šetří náklady na infrastrukturu při optimalizaci výkonu latence.
Zajištění spolehlivosti a zabezpečení do obsluhy modelů: Obsluha modelů je navržená pro použití v produkčním prostředí s vysokou dostupností, nízkou latencí a může podporovat více než 25 tisíc dotazů za sekundu s latencí režie menší než 50 ms. Obsluhované úlohy jsou chráněny několika vrstvami zabezpečení a zajišťují bezpečné a spolehlivé prostředí pro i nejcitlivější úlohy.

Požadavky

Registrovaný model v katalogu Unity nebo registru modelů pracovního prostoru.
Oprávnění k registrovaným modelům, jak je popsáno v řízení přístupu koncových bodů.
MLflow 1,29 nebo vyšší

Povolení obsluhy modelů pro váš pracovní prostor

K povolení služby Model Serving ve vašem pracovním prostoru nejsou potřeba žádné další kroky.

Omezení a dostupnost oblastí

Služba Databricks Model Serving ukládá výchozí limity, které zajišťují spolehlivý výkon. Viz Omezení a oblasti služby Model Serving. Pokud máte zpětnou vazbu k těmto limitům nebo koncovému bodu v nepodporované oblasti, obraťte se na svůj tým účtů Databricks.

Ochrana dat ve službě Model Serving

Databricks bere zabezpečení dat vážně. Databricks rozumí důležitosti dat, která analyzujete pomocí služby Databricks Model Serving, a implementuje následující bezpečnostní prvky pro ochranu dat.

Každá žádost zákazníka o poskytování modelu je logicky izolovaná, ověřená a autorizovaná.
Služba Databricks Model Serving šifruje všechna neaktivní uložená data (AES-256) a přenášená data (TLS 1.2+).

Pro všechny placené účty služba Databricks Model Serving nepoužívá uživatelské vstupy odeslané do služby ani výstupy ze služby k trénování jakýchkoli modelů nebo ke zlepšení služeb Databricks.

Pro rozhraní API modelu Foundation Databricks, která jsou součástí poskytování služby, může Databricks dočasně zpracovávat a ukládat vstupy a výstupy za účelem prevence, zjišťování a zmírnění zneužití nebo škodlivého použití. Vaše vstupy a výstupy jsou izolované od těch ostatních zákazníků, které jsou uložené ve stejné oblasti jako váš pracovní prostor po dobu až třiceti (30) dnů a jsou přístupné pouze pro detekci a reakci na obavy z zabezpečení nebo zneužití.