Model dat wordt geleverd met Azure Databricks
In dit artikel wordt het leveren van Mozaïek AI-modellen beschreven, met inbegrip van de voordelen en beperkingen.
Wat is Mosaic AI Model Serving?
Mozaïek AI Model Serving biedt een uniforme interface voor het implementeren, beheren en opvragen van AI-modellen voor realtime en batchdeductie. Elk model dat u gebruikt, is beschikbaar als een REST API die u kunt integreren in uw web- of clienttoepassing.
Model Serving biedt een service met hoge beschikbaarheid en lage latentie voor het implementeren van modellen. De service wordt automatisch omhoog of omlaag geschaald om te voldoen aan de vraagwijzigingen, waardoor de infrastructuurkosten worden bespaard terwijl de latentieprestaties worden geoptimaliseerd. Deze functionaliteit maakt gebruik van serverloze berekeningen. Zie de pagina Met prijzen voor modelbediening voor meer informatie.
Het leveren van modellen biedt ondersteuning voor het leveren van services:
- Aangepaste modellen. Dit zijn Python-modellen die zijn verpakt in de MLflow-indeling. Ze kunnen worden geregistreerd in Unity Catalog of in het register van het werkruimtemodel. Voorbeelden hiervan zijn scikit-learn-, XGBoost-, PyTorch- en Hugging Face-transformatiemodellen.
- Het leveren van agents wordt ondersteund als een aangepast model. Zie Een agent implementeren voor generatieve AI-toepassing
- State-of-the-art open modellen die beschikbaar worden gesteld door Foundation Model-API's. Deze modellen zijn gecureerde basismodelarchitecturen die geoptimaliseerde deductie ondersteunen. Basismodellen, zoals Meta-Llama-3.1-70B-Instruct, GTE-Large en Mistral-7B, zijn beschikbaar voor direct gebruik met prijzen voor betalen per token en workloads waarvoor prestatiegaranties en nauwkeurig afgestemde modelvarianten nodig zijn, kunnen worden geïmplementeerd met ingerichte doorvoer.
- Databricks raadt het gebruik aan
ai_query
met Model Serving voor batchdeductie. Voor snelle experimentenai_query
kan worden gebruikt met eindpunten voor betalen per token. Wanneer u klaar bent om batchdeductie uit te voeren op grote of productiegegevens, raadt Databricks aan om ingerichte doorvoereindpunten te gebruiken voor snellere prestaties. Zie Ingerichte doorvoer Foundation Model-API's voor het maken van een ingerichte doorvoereindpunt.- Zie Batchdeductie uitvoeren met behulp van ai_query.
- Als u aan de slag wilt gaan met batchdeductie met LLM's in Unity Catalog-tabellen> , raadpleegt u de notebookvoorbeelden in Batch-deductie met behulp van de ingerichte doorvoer van Foundation Model-API's.
- Databricks raadt het gebruik aan
- Externe modellen. Dit zijn generatieve AI-modellen die buiten Databricks worden gehost. Voorbeelden hiervan zijn modellen zoals De GPT-4 van OpenAI, Claude van Antropic en andere. Eindpunten die externe modellen dienen, kunnen centraal worden beheerd en klanten kunnen frequentielimieten en toegangsbeheer voor hen vaststellen.
Notitie
U kunt communiceren met ondersteunde modellen in grote talen met behulp van de AI Playground. De AI Playground is een chatachtige omgeving waar u LLM's kunt testen, vragen en vergelijken. Deze functionaliteit is beschikbaar in uw Azure Databricks-werkruimte.
Het leveren van modellen biedt een uniforme REST API en MLflow Deployment-API voor CRUD en het uitvoeren van query's op taken. Daarnaast biedt het één gebruikersinterface voor het beheren van al uw modellen en hun respectieve service-eindpunten. U kunt ook rechtstreeks vanuit SQL toegang krijgen tot modellen met behulp van AI-functies voor eenvoudige integratie in analysewerkstromen.
Zie zelfstudie: Een aangepast model implementeren en er query's op uitvoeren voor een inleidende zelfstudie over het leveren van aangepaste modellen in Azure Databricks.
Zie Aan de slag met het uitvoeren van query's op LLMs op Databricks in Databricks voor een aan de slag-zelfstudie over het uitvoeren van query's op een basismodel op Databricks.
Waarom model serveren gebruiken?
- Alle modellen implementeren en er query's op uitvoeren: Model Serving biedt een geïntegreerde interface waarmee u alle modellen op één locatie kunt beheren en er query's op kunt uitvoeren met één API, ongeacht of ze worden gehost op Databricks of extern. Deze aanpak vereenvoudigt het proces van experimenteren met, aanpassen en implementeren van modellen in productie in verschillende clouds en providers.
- Modellen veilig aanpassen met uw persoonlijke gegevens: Model Serving is gebouwd op een Data Intelligence Platform en vereenvoudigt de integratie van functies en insluitingen in modellen via systeemeigen integratie met de Databricks Feature Store en Mosaic AI Vector Search. Voor nog meer verbeterde nauwkeurigheid en contextueel begrip kunnen modellen worden afgestemd met eigen gegevens en moeiteloos worden geïmplementeerd op Model Serving.
- Modellen beheren en bewaken: met de gebruikersinterface van De server kunt u alle modeleindpunten centraal op één plaats beheren, inclusief de eindpunten die extern worden gehost. U kunt machtigingen beheren, gebruikslimieten bijhouden en instellen en de kwaliteit van alle typen modellen bewaken. Hierdoor kunt u de toegang tot SaaS democratiseren en LLM's binnen uw organisatie openen, terwijl u ervoor zorgt dat de juiste kaders aanwezig zijn.
- Verlaag de kosten met geoptimaliseerde deductie en snelle schaalaanpassing: Databricks heeft een reeks optimalisaties geïmplementeerd om ervoor te zorgen dat u de beste doorvoer en latentie voor grote modellen krijgt. De eindpunten worden automatisch omhoog of omlaag geschaald om aan de vraagwijzigingen te voldoen, waardoor de infrastructuurkosten worden bespaard terwijl de latentieprestaties worden geoptimaliseerd. Bewaak de kosten voor het leveren van modellen.
Notitie
Voor workloads die latentiegevoelig zijn of een groot aantal query's per seconde vereisen, raadt Databricks aan om routeoptimalisatie te gebruiken voor aangepaste modellen voor eindpunten. Neem contact op met uw Databricks-accountteam om ervoor te zorgen dat uw werkruimte is ingeschakeld voor hoge schaalbaarheid.
- Breng betrouwbaarheid en beveiliging naar Model Serving: Model Serving is ontworpen voor productiegebruik met hoge beschikbaarheid, lage latentie en kan meer dan 25.000 query's per seconde ondersteunen met een overheadlatentie van minder dan 50 ms. De serverworkloads worden beveiligd door meerdere beveiligingslagen en zorgen voor een veilige en betrouwbare omgeving voor zelfs de meest gevoelige taken.
Notitie
Model Serving biedt geen beveiligingspatches voor bestaande modelinstallatiekopieën vanwege het risico dat de productie-implementaties worden gedestabiliseerd. Een nieuwe modelinstallatiekopieën die zijn gemaakt op basis van een nieuwe modelversie, bevatten de meest recente patches. Neem contact op met uw Databricks-accountteam voor meer informatie.
Eisen
- Geregistreerd model in Unity Catalog of het werkruimtemodelregister.
- Machtigingen voor de geregistreerde modellen, zoals beschreven in ACL's voor het servereindpunt.
- MLflow 1,29 of hoger.
- Als u Azure Private Link gebruikt om netwerkgerelateerde toegangsregels te respecteren die zijn geconfigureerd in de werkruimte, wordt Azure Private Link alleen ondersteund voor modelservereindpunten die gebruikmaken van ingerichte doorvoer of eindpunten die aangepaste modellen leveren. Zie Privéconnectiviteit configureren vanuit serverloze berekeningen.
Modelbediening inschakelen voor uw werkruimte
Er zijn geen extra stappen vereist om Model serving in te schakelen in uw werkruimte.
Beperkingen en beschikbaarheid van regio's
Mozaïek AI Model Serving legt standaardlimieten op om betrouwbare prestaties te garanderen. Zie Limieten en regio's voor modelbediening. Als u feedback hebt over deze limieten of een eindpunt in een niet-ondersteunde regio, neemt u contact op met uw Databricks-accountteam.
Gegevensbeveiliging in modelbediening
Databricks neemt gegevensbeveiliging serieus. Databricks begrijpt het belang van de gegevens die u analyseert met behulp van Mosaic AI Model Serving en implementeert de volgende beveiligingsmechanismen om uw gegevens te beveiligen.
- Elke klantaanvraag bij Model Serving is logisch geïsoleerd, geverifieerd en geautoriseerd.
- Mozaïek AI Model Serving versleutelt alle data-at-rest (AES-256) en in transit (TLS 1.2+).
Voor alle betaalde accounts gebruikt Mosaic AI Model Serving geen gebruikersinvoer die is verzonden naar de service of uitvoer van de service om modellen te trainen of databricks-services te verbeteren.
Voor Databricks Foundation-model-API's kan Databricks, als onderdeel van het leveren van de service, tijdelijk invoer en uitvoer verwerken en opslaan voor het voorkomen, detecteren en beperken van misbruik of schadelijk gebruik. Uw invoer en uitvoer zijn geïsoleerd van die van andere klanten, opgeslagen in dezelfde regio als uw werkruimte gedurende maximaal dertig (30) dagen en zijn alleen toegankelijk voor het detecteren en reageren op beveiligings- of misbruikproblemen. Foundation Model-API's is een Databricks Designated Service, wat betekent dat deze voldoet aan de grenzen van gegevenslocatie, zoals geïmplementeerd door Databricks Geos.
Aanvullende bronnen
- Aan de slag met het uitvoeren van query's op LLM's in Databricks.
- Zelfstudie: Een aangepast model implementeren en er query's op uitvoeren
- Inleiding tot het bouwen van GEN AI-apps in Databricks
- Aangepaste modellen implementeren.
- Migreren naar Model Serving
- Geoptimaliseerde LLM-eindpunten migreren naar ingerichte doorvoer