Model dat wordt geleverd met Azure Databricks

Artikel
04/11/2024

In dit artikel wordt Azure Databricks Model Serving beschreven, met inbegrip van de voordelen en beperkingen.

Wat is Model serveren?

Databricks Model Serving biedt een geïntegreerde interface voor het implementeren, beheren en opvragen van AI-modellen. Elk model dat u gebruikt, is beschikbaar als een REST API die u kunt integreren in uw web- of clienttoepassing.

Model Serving biedt een service met hoge beschikbaarheid en lage latentie voor het implementeren van modellen. De service wordt automatisch omhoog of omlaag geschaald om te voldoen aan de vraagwijzigingen, waardoor de infrastructuurkosten worden bespaard terwijl de latentieprestaties worden geoptimaliseerd. Deze functionaliteit maakt gebruik van serverloze berekeningen. Zie de pagina Met prijzen voor modelbediening voor meer informatie.

Het leveren van modellen biedt ondersteuning voor het leveren van services:

Aangepaste modellen. Dit zijn Python-modellen die zijn verpakt in de MLflow-indeling. Ze kunnen worden geregistreerd in Unity Catalog of in het register van het werkruimtemodel. Voorbeelden hiervan zijn scikit-learn-, XGBoost-, PyTorch- en Hugging Face-transformatiemodellen.
State-of-the-art open modellen die beschikbaar worden gesteld door Foundation Model-API's. Deze modellen zijn gecureerde basismodelarchitecturen die geoptimaliseerde deductie ondersteunen. Basismodellen, zoals Llama-2-70B-chat, BGE-Large en Mistral-7B, zijn beschikbaar voor direct gebruik met prijzen voor betalen per token en workloads waarvoor prestatiegaranties en verfijnde modelvarianten nodig zijn, kunnen worden geïmplementeerd met ingerichte doorvoer.
Externe modellen. Dit zijn modellen die buiten Databricks worden gehost. Eindpunten die externe modellen dienen, kunnen centraal worden beheerd en klanten kunnen frequentielimieten en toegangsbeheer voor hen vaststellen. Voorbeelden hiervan zijn basismodellen zoals GpT-4 van OpenAI, Claude van Antropic en andere.

Notitie

U kunt communiceren met ondersteunde modellen in grote talen met behulp van de AI Playground. De AI Playground is een chatachtige omgeving waar u LLM's kunt testen, vragen en vergelijken. Deze functionaliteit is beschikbaar in uw Azure Databricks-werkruimte.

Het leveren van modellen biedt een uniforme REST API en MLflow Deployment-API voor CRUD en het uitvoeren van query's op taken. Daarnaast biedt het één gebruikersinterface voor het beheren van al uw modellen en hun respectieve service-eindpunten. U kunt ook rechtstreeks vanuit SQL toegang krijgen tot modellen met behulp van AI-functies voor eenvoudige integratie in analysewerkstromen.

Zie zelfstudie: Een aangepast model implementeren en er query's op uitvoeren voor een inleidende zelfstudie over het leveren van aangepaste modellen in Azure Databricks.

Zie Aan de slag met het uitvoeren van query's op LLMs op Databricks in Databricks voor een aan de slag-zelfstudie over het uitvoeren van query's op een basismodel op Databricks.

Waarom model serveren gebruiken?

Alle modellen implementeren en er query's op uitvoeren: Model Serving biedt een geïntegreerde interface waarmee u alle modellen op één locatie kunt beheren en er query's op kunt uitvoeren met één API, ongeacht of ze worden gehost op Databricks of extern. Deze aanpak vereenvoudigt het proces van experimenteren met, aanpassen en implementeren van modellen in productie in verschillende clouds en providers.
Modellen veilig aanpassen met uw persoonlijke gegevens: Model Serving is gebouwd op een Data Intelligence-platform en vereenvoudigt de integratie van functies en insluitingen in modellen via systeemeigen integratie met de Databricks Feature Store en Databricks Vector Search. Voor nog meer verbeterde nauwkeurigheid en contextueel begrip kunnen modellen worden afgestemd met eigen gegevens en moeiteloos worden geïmplementeerd op Model Serving.
Modellen beheren en bewaken: met de gebruikersinterface van De server kunt u alle modeleindpunten centraal op één plaats beheren, inclusief de eindpunten die extern worden gehost. U kunt machtigingen beheren, gebruikslimieten bijhouden en instellen en de kwaliteit van alle typen modellen bewaken. Hierdoor kunt u de toegang tot SaaS democratiseren en LLM's binnen uw organisatie openen, terwijl u ervoor zorgt dat de juiste kaders aanwezig zijn.
Verlaag de kosten met geoptimaliseerde deductie en snelle schaalaanpassing: Databricks heeft een reeks optimalisaties geïmplementeerd om ervoor te zorgen dat u de beste doorvoer en latentie voor grote modellen krijgt. De eindpunten worden automatisch omhoog of omlaag geschaald om aan de vraagwijzigingen te voldoen, waardoor de infrastructuurkosten worden bespaard terwijl de latentieprestaties worden geoptimaliseerd.
Breng betrouwbaarheid en beveiliging naar Model Serving: Model Serving is ontworpen voor productiegebruik met hoge beschikbaarheid, lage latentie en kan meer dan 25.000 query's per seconde ondersteunen met een overheadlatentie van minder dan 50 ms. De serverworkloads worden beveiligd door meerdere beveiligingslagen en zorgen voor een veilige en betrouwbare omgeving voor zelfs de meest gevoelige taken.

Eisen

Geregistreerd model in Unity Catalog of het werkruimtemodelregister.
Machtigingen voor de geregistreerde modellen, zoals beschreven in ACL's voor het servereindpunt.
MLflow 1.29 of hoger

Modelbediening inschakelen voor uw werkruimte

Er zijn geen extra stappen vereist om Model serving in te schakelen in uw werkruimte.

Beperkingen en beschikbaarheid van regio's

Databricks Model Serving legt standaardlimieten op om betrouwbare prestaties te garanderen. Zie Limieten en regio's voor modelbediening. Als u feedback hebt over deze limieten of een eindpunt in een niet-ondersteunde regio, neemt u contact op met uw Databricks-accountteam.

Gegevensbeveiliging in modelbediening

Databricks neemt gegevensbeveiliging serieus. Databricks begrijpt het belang van de gegevens die u analyseert met behulp van Databricks Model Serving en implementeert de volgende beveiligingsmechanismen om uw gegevens te beveiligen.

Elke klantaanvraag bij Model Serving is logisch geïsoleerd, geverifieerd en geautoriseerd.
Databricks Model Serving versleutelt alle data-at-rest (AES-256) en in transit (TLS 1.2+).

Voor alle betaalde accounts gebruikt Databricks Model Serving geen gebruikersinvoer die is verzonden naar de service of uitvoer van de service om modellen te trainen of databricks-services te verbeteren.

Voor Databricks Foundation-model-API's kan Databricks, als onderdeel van het leveren van de service, tijdelijk invoer en uitvoer verwerken en opslaan voor het voorkomen, detecteren en beperken van misbruik of schadelijk gebruik. Uw invoer en uitvoer zijn geïsoleerd van die van andere klanten, opgeslagen in dezelfde regio als uw werkruimte gedurende maximaal dertig (30) dagen en zijn alleen toegankelijk voor het detecteren en reageren op beveiligings- of misbruikproblemen.