Modellbetjäning med Azure Databricks

Artikel
04/11/2024

Den här artikeln beskriver Azure Databricks Model Serving, inklusive dess fördelar och begränsningar.

Vad är modellservering?

Databricks Model Serving tillhandahåller ett enhetligt gränssnitt för att distribuera, styra och fråga AI-modeller. Varje modell som du hanterar är tillgänglig som ett REST-API som du kan integrera i ditt webb- eller klientprogram.

Modellservering ger en tjänst med hög tillgänglighet och låg latens för att distribuera modeller. Tjänsten skalas automatiskt upp eller ned för att möta ändringar i efterfrågan, vilket sparar infrastrukturkostnader samtidigt som svarstidsprestandan optimeras. Den här funktionen använder serverlös beräkning. Mer information finns på prissättningssidan för modellservern.

Modellservering stöder servering:

Anpassade modeller. Det här är Python-modeller som paketeras i MLflow-format. De kan registreras antingen i Unity Catalog eller i arbetsytans modellregister. Exempel är scikit-learn, XGBoost, PyTorch och Hugging Ansiktstransformatormodeller.
Toppmoderna öppna modeller som görs tillgängliga av Foundation Model-API:er. Dessa modeller är utvalda grundmodellarkitekturer som stöder optimerad slutsatsdragning. Basmodeller som Llama-2-70B-chat, BGE-Large och Mistral-7B är tillgängliga för omedelbar användning med prissättning för betala per token och arbetsbelastningar som kräver prestandagarantier och finjusterade modellvarianter kan distribueras med etablerat dataflöde.
Externa modeller. Det här är modeller som finns utanför Databricks. Slutpunkter som hanterar externa modeller kan styras centralt och kunderna kan fastställa hastighetsbegränsningar och åtkomstkontroll för dem. Exempel är grundmodeller som OpenAI:s GPT-4, Anthropics Claude och andra.

Kommentar

Du kan interagera med stora språkmodeller som stöds med hjälp av AI Playground. AI Playground är en chattliknande miljö där du kan testa, fråga och jämföra LLM:er. Den här funktionen är tillgänglig på din Azure Databricks-arbetsyta.

Modellservern erbjuder ett enhetligt REST API och MLflow Deployment API för CRUD och frågeuppgifter. Dessutom finns det ett enda användargränssnitt för att hantera alla dina modeller och deras respektive serverslutpunkter. Du kan också komma åt modeller direkt från SQL med hjälp av AI-funktioner för enkel integrering i analysarbetsflöden.

En introduktionskurs om hur du hanterar anpassade modeller i Azure Databricks finns i Självstudie: Distribuera och fråga efter en anpassad modell.

En självstudie om hur du kör frågor mot en grundmodell i Databricks finns i Komma igång med frågor mot LLM:er på Databricks.

Varför ska vi använda modellservering?

Distribuera och fråga efter modeller: Modellservern tillhandahåller ett enhetligt gränssnitt som gör att du kan hantera alla modeller på en plats och köra frågor mot dem med ett enda API, oavsett om de finns på Databricks eller externt. Den här metoden förenklar processen att experimentera med, anpassa och distribuera modeller i produktion i olika moln och leverantörer.
Anpassa modeller på ett säkert sätt med dina privata data: Modellservern bygger på en datainformationsplattform och förenklar integreringen av funktioner och inbäddningar i modeller genom intern integrering med Databricks Feature Store och Databricks Vector Search. För ännu bättre noggrannhet och sammanhangsberoende förståelse kan modeller finjusteras med proprietära data och distribueras enkelt på modellservering.
Styra och övervaka modeller: Med användargränssnittet för servering kan du centralt hantera alla modellslutpunkter på ett ställe, inklusive de som finns externt. Du kan hantera behörigheter, spåra och ange användningsgränser och övervaka kvaliteten på alla typer av modeller. På så sätt kan du demokratisera åtkomsten till SaaS och öppna LLM:er i din organisation samtidigt som lämpliga skyddsräcken är på plats.
Minska kostnaderna med optimerad slutsatsdragning och snabb skalning: Databricks har implementerat en rad optimeringar för att säkerställa att du får bästa möjliga dataflöde och svarstid för stora modeller. Slutpunkterna skalas automatiskt upp eller ned för att möta efterfrågans ändringar, vilket sparar infrastrukturkostnader samtidigt som svarstidsprestandan optimeras.
Bring reliability and security to Model Serving:Model Serving is designed for high-availability, low-latency production use and can support over 25K queries per second with an overhead latency of less than 50 ms. De betjänande arbetsbelastningarna skyddas av flera säkerhetslager, vilket säkerställer en säker och tillförlitlig miljö för även de mest känsliga uppgifterna.

Krav

Registrerad modell i Unity Catalog eller Arbetsytans modellregister.
Behörigheter för de registrerade modellerna enligt beskrivningen i Serveringsslutpunkts-ACL:er.
MLflow 1.29 eller senare

Aktivera modellservering för din arbetsyta

Inga ytterligare steg krävs för att aktivera modellservering på din arbetsyta.

Begränsningar och regiontillgänglighet

Databricks Model Serving tillämpar standardgränser för att säkerställa tillförlitliga prestanda. Se Gränser och regioner för modellservering. Om du har feedback om dessa gränser eller en slutpunkt i en region som inte stöds kontaktar du ditt Databricks-kontoteam.

Dataskydd i modellservering

Databricks tar datasäkerhet på allvar. Databricks förstår vikten av de data som du analyserar med hjälp av Databricks Model Serving och implementerar följande säkerhetskontroller för att skydda dina data.

Varje kundbegäran till modellservern är logiskt isolerad, autentiserad och auktoriserad.
Databricks Model Serving krypterar alla vilande data (AES-256) och under överföring (TLS 1.2+).

För alla betalda konton använder Databricks Model Serving inte användarindata som skickas till tjänsten eller utdata från tjänsten för att träna modeller eller förbättra databricks-tjänster.

För Databricks Foundation-modell-API:er kan Databricks tillfälligt bearbeta och lagra indata och utdata i syfte att förhindra, identifiera och minimera missbruk eller skadliga användningsområden. Dina indata och utdata är isolerade från andra kunders, lagras i samma region som din arbetsyta i upp till trettio (30) dagar och är endast tillgängliga för att identifiera och svara på säkerhetsproblem eller missbruksproblem.