Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
In dit artikel wordt beschreven hoe MLflow op Databricks wordt gebruikt om generatieve AI-agents en machine learning-modellen van hoge kwaliteit te ontwikkelen.
Notitie
Als u net aan de slag gaat met Azure Databricks, kunt u overwegen om MLflow uit te proberen op Databricks Free Edition.
Wat is MLflow?
MLflow is een opensource-platform voor het ontwikkelen van modellen en generatieve AI-toepassingen. Het bestaat uit de volgende hoofdcomponenten:
- Bijhouden: Hiermee kunt u experimenten bijhouden om parameters en resultaten vast te leggen en te vergelijken.
- Modellen: Hiermee kunt u modellen van verschillende ML-bibliotheken beheren en implementeren op verschillende model-server- en deductieplatforms.
- Modelregister: Hiermee kunt u het modelimplementatieproces beheren van fasering tot productie, met modelversiebeheer en annotatiemogelijkheden.
- Evaluatie en tracering van AI-agents: hiermee kunt u AI-agents van hoge kwaliteit ontwikkelen door agents te vergelijken, te evalueren en problemen op te lossen.
MLflow ondersteunt Java, Python, R en REST-API's.
MLflow 3
MLflow 3 op Azure Databricks biedt state-of-the-art experimenttracking, waarneembaarheid en prestatie-evaluatie voor machine learning-modellen, generatieve AI-toepassingen en agents in het Databricks Lakehouse. Met MLflow 3 in Azure Databricks kunt u het volgende doen:
Houd de prestaties van uw modellen, AI-toepassingen en agents centraal bij en analyseer deze in alle omgevingen, van interactieve query's in een ontwikkelnotitieblok via productiebatch of realtime service-implementaties.
Beheer evaluatie- en implementatiewerkstromen met behulp van Unity Catalog en krijg toegang tot uitgebreide statuslogboeken voor elke versie van uw model, AI-toepassing of agent.
Metrische gegevens en parameters van het model bekijken en openen vanaf de pagina met modelversies in Unity Catalog en vanuit de REST API.
Aantekeningen maken op aanvragen en antwoorden (traceringen) voor al uw gen AI-toepassingen en -agents, waardoor menselijke experts en geautomatiseerde technieken (zoals LLM-as-a-judge) uitgebreide feedback kunnen geven. U kunt deze feedback gebruiken om de prestaties van toepassingsversies te beoordelen en te vergelijken en gegevenssets te bouwen om de kwaliteit te verbeteren.
Deze mogelijkheden vereenvoudigen en stroomlijnen evaluatie, implementatie, foutopsporing en bewaking voor al uw AI-initiatieven.
MLflow 3 introduceert ook de concepten van vastgelegde modellen en implementatietaken.
-
Met vastgelegde modellen kunt u de voortgang van een model gedurende de gehele levenscyclus bijhouden. Wanneer u een model logt met
log_model()
, wordt er eenLoggedModel
gemaakt dat zich gedurende de levenscyclus van het model, in verschillende omgevingen en runs voorkomt en koppelingen naar artefacten bevat zoals metagegevens, metriek, parameters en de code die is gebruikt om het model te genereren. U kunt het vastgelegde model gebruiken om modellen met elkaar te vergelijken, het meest presterende model te vinden en informatie op te sporen tijdens foutopsporing. - Implementatietaken kunnen worden gebruikt om de levenscyclus van het model te beheren, inclusief stappen zoals evaluatie, goedkeuring en implementatie. Deze modelwerkstromen worden beheerd door Unity Catalog en alle gebeurtenissen worden opgeslagen in een activiteitenlogboek dat beschikbaar is op de pagina met modelversies in Unity Catalog.
Zie de volgende artikelen om MLflow 3 te installeren en aan de slag te gaan.
- Aan de slag met MLflow 3.
- Modellen bijhouden en vergelijken met MLflow Logged Models.
- Verbeteringen in het modelregister met MLflow 3.
- MLflow 3-implementatietaken.
Door Databricks beheerde MLflow
Databricks biedt een volledig beheerde en gehoste versie van MLflow, die voortbouwt op de opensource-ervaring om deze robuuster en schaalbaarder te maken voor zakelijk gebruik.
In het volgende diagram ziet u hoe Databricks kan worden geïntegreerd met MLflow om machine learning-modellen te trainen en te implementeren.
Door Databricks beheerde MLflow is gebouwd op Unity Catalog en de Cloud Data Lake om al uw gegevens en AI-assets in de ML-levenscyclus samen te voegen:
- Kenmerkenopslag: Databricks' geautomatiseerde kenmerkenopzoekingen vereenvoudigen de integratie en verminderen fouten.
- Modellen trainen: Mozaïek AI gebruiken om modellen te trainen of basismodellen af te stemmen.
- Bijhouden: MLflow houdt training bij door parameters, metrische gegevens en artefacten te registreren om modelprestaties te evalueren en te vergelijken.
- modelregister: MLflow Model Registry, geïntegreerd met Unity Catalog centraliseert AI-modellen en artefacten.
- Model serving: Mosaic AI Model Serving implementeert modellen in een REST API-eindpunt.
- Bewaking: Mosaic AI Model Serving legt automatisch aanvragen en antwoorden vast om modellen te bewaken en fouten op te sporen. MLflow vergroot deze gegevens met traceringsgegevens voor elke aanvraag.
Modeltraining
MLflow-modellen vormen de kern van AI- en ML-ontwikkeling op Databricks. MLflow-modellen zijn een gestandaardiseerde indeling voor het verpakken van machine learning-modellen en generatieve AI-agents. De gestandaardiseerde indeling zorgt ervoor dat modellen en agents kunnen worden gebruikt door downstreamhulpprogramma's en werkstromen op Databricks.
- MLflow-documentatie - Modellen.
Databricks biedt functies om u te helpen verschillende soorten ML-modellen te trainen.
Het volgen van experimenten
Databricks gebruikt MLflow-experimenten als organisatie-eenheden om uw werk bij te houden tijdens het ontwikkelen van modellen.
Met het bijhouden van experimenten kunt u parameters, metrische gegevens, artefacten en codeversies registreren en beheren tijdens het trainen van machine learning en het ontwikkelen van agents. Door logboeken in experimenten en uitvoeringen te organiseren, kunt u modellen vergelijken, prestaties analyseren en eenvoudiger herhalen.
- Experiment bijhouden met Databricks-.
- Zie de MLflow-documentatie voor algemene informatie over uitvoeringen en het bijhouden van experimenten.
Modelregister met Unity Catalog
MLflow Model Registry is een gecentraliseerde modelopslagplaats, gebruikersinterface en set API's voor het beheren van het modelimplementatieproces.
Databricks integreert modelregister met Unity Catalog om gecentraliseerd beheer voor modellen te bieden. Met Integratie van Unity Catalog hebt u toegang tot modellen in werkruimten, kunt u modelherkomst bijhouden en modellen ontdekken voor hergebruik.
- Modellen beheren met databricks Unity Catalog.
- Zie de MLflow-documentatie voor algemene informatie over modelregister.
Model serveren
Databricks Model Serving is nauw geïntegreerd met het MLflow-modelregister en biedt een uniforme, schaalbare interface voor het implementeren, beheren en opvragen van AI-modellen. Elk model dat u gebruikt, is beschikbaar als een REST API die u kunt integreren in web- of clienttoepassingen.
Hoewel het afzonderlijke onderdelen zijn, is Model Serving sterk afhankelijk van het MLflow-modelregister voor het afhandelen van modelversiebeheer, afhankelijkheidsbeheer, validatie en governance.
Ontwikkeling en evaluatie van AI-agent
Voor het ontwikkelen van AI-agents integreert Databricks met MLflow op dezelfde manier als ml-modelontwikkeling. Er zijn echter enkele belangrijke verschillen:
- Als u AI-agents wilt maken op Databricks, gebruikt u Mosaic AI Agent Framework, die afhankelijk is van MLflow om agentcode, prestatiemetrieken en agenttraceringen bij te houden.
- Als u agents op Databricks wilt evalueren, gebruikt u Mosaic AI Agent Evaluation, die afhankelijk is van MLflow om evaluatieresultaten bij te houden.
- MLflow-tracering voor agents omvat ook MLflow Tracing. Met MLflow Tracing kunt u gedetailleerde informatie bekijken over de uitvoering van de services van uw agent. Tracering registreert de invoer, uitvoer en metagegevens die zijn gekoppeld aan elke tussenliggende stap van een aanvraag, zodat u snel de bron van onverwacht gedrag in agents kunt vinden.
In het volgende diagram ziet u hoe Databricks kan worden geïntegreerd met MLflow om AI-agents te maken en te implementeren.
Door Databricks beheerde MLflow is gebouwd op Unity Catalog en de Cloud Data Lake om al uw gegevens en AI-assets in de levenscyclus van de gen AI-app te combineren:
- Vector & functiearchief: geautomatiseerde vector- en functiezoekacties van Databricks vereenvoudigen integratie en verminderen fouten.
- AI-agents maken en evalueren: Mosaic AI Agent Framework en Agent Evaluation helpen u bij het maken en evalueren van agents en het evalueren van hun uitvoer.
- Tracering & traceren: MLflow-tracering legt gedetailleerde informatie over agentuitvoering vast voor verbeterde generatieve AI-waarneembaarheid.
- modelregister: MLflow Model Registry, geïntegreerd met Unity Catalog centraliseert AI-modellen en artefacten.
- Model serving: Mosaic AI Model Serving implementeert modellen in een REST API-eindpunt.
- Bewaking: MLflow legt automatisch aanvragen en antwoorden vast voor het bewaken en opsporen van fouten in modellen.
Open source versus door Databricks beheerde MLflow-functies
Raadpleeg MLflow-documentatievoor algemene MLflow-concepten, API's en functies die worden gedeeld tussen open source- en Databricks-beheerde versies. Zie de Databricks-documentatie voor functies die exclusief zijn voor door Databricks beheerde MLflow.
In de volgende tabel worden de belangrijkste verschillen tussen open source MLflow en door Databricks beheerde MLflow gemarkeerd en vindt u documentatiekoppelingen voor meer informatie:
Kenmerk | Beschikbaarheid op open source MLflow | Beschikbaarheid op door Databricks beheerde MLflow |
---|---|---|
Veiligheid | De gebruiker moet een eigen beveiligingsgovernancelaag opgeven | Beveiliging op bedrijfsniveau van Databricks |
Noodherstel | Onbeschikbaar | Databricks-herstel na noodgevallen |
Het volgen van experimenten | MLflow Tracking-API | MLflow Tracking-API geïntegreerd met Databricks geavanceerd experimentvolgsysteem |
Modelregister | MLflow-modelregister | MLflow Model Registry geïntegreerd met Databricks Unity Catalog |
Integratie van Unity Catalog | Open source-integratie met Unity Catalog | Databricks Unity Catalog |
Modelimplementatie | Door de gebruiker geconfigureerde integraties met externe serveroplossingen (SageMaker, Kubernetes, containerservices, enzovoort) | Databricks-modelimplementatie en externe implementatieoplossingen |
AI-agenten | MLflow LLM-ontwikkeling | MLflow LLM-ontwikkeling geïntegreerd met Mosaic AI Agent Framework en Agent Evaluation |
Versleuteling | Onbeschikbaar | Versleuteling met door de klant beheerde sleutels |