AI en machine learning in Databricks
In dit artikel worden de hulpprogramma's beschreven die Mosaic AI (voorheen Databricks Machine Learning) biedt om u te helpen AI- en ML-systemen te bouwen. Het diagram laat zien hoe verschillende producten op het Databricks-platform u helpen bij het implementeren van uw end-to-end-werkstromen voor het bouwen en implementeren van AI- en ML-systemen
Generatieve AI op Databricks
Mozaïek AI unifieert de AI-levenscyclus van gegevensverzameling en -voorbereiding, tot modelontwikkeling en LLMOps, tot het leveren en bewaken van gegevens. De volgende functies zijn specifiek geoptimaliseerd om de ontwikkeling van generatieve AI-toepassingen te vergemakkelijken:
- Unity Catalog voor governance, detectie, versiebeheer en toegangsbeheer voor gegevens, functies, modellen en functies.
- MLflow voor het bijhouden van modelontwikkeling.
- Mozaïek AI Model Serving voor het implementeren van LLM's. U kunt een model voor eindpunten die specifiek dienen voor toegang tot generatieve AI-modellen configureren:
- Geavanceerde open LLM's met behulp van Foundation Model-API's.
- Externe modellen die buiten Databricks worden gehost. Zie externe modellen in Mosaic AI Model Serving.
- Mozaïek AI Vector Search biedt een doorzoekbare vectordatabase waarin insluitingsvectoren worden opgeslagen en kan worden geconfigureerd om automatisch te synchroniseren met uw knowledge base.
- Lakehouse Monitoring voor gegevensbewaking en traceringsmodelvoorspellingskwaliteit en drift met behulp van automatische payloadlogboekregistratie met deductietabellen.
- AI Playground voor het testen van generatieve AI-modellen vanuit uw Databricks-werkruimte. U kunt instellingen, zoals systeemprompt en deductieparameters, vragen, vergelijken en aanpassen.
- Mozaïek AI-modeltraining (voorheen Foundation Model Training ) voor het aanpassen van een basismodel met behulp van uw eigen gegevens om de prestaties voor uw specifieke toepassing te optimaliseren.
- Mozaïek AI Agent Framework voor het bouwen en implementeren van agents van productiekwaliteit, zoals RAG-toepassingen (Retrieval Augmented Generation).
- Mozaïek AI Agent Evaluation voor het evalueren van de kwaliteit, kosten en latentie van generatieve AI-toepassingen, waaronder RAG-toepassingen en ketens.
Wat is generatieve AI?
Generatieve AI is een soort kunstmatige intelligentie die is gericht op de mogelijkheid van computers om modellen te gebruiken om inhoud zoals afbeeldingen, tekst, code en synthetische gegevens te maken.
Generatieve AI-toepassingen zijn gebouwd op basis van generatieve AI-modellen: grote taalmodellen (LLM's) en basismodellen.
- LLM's zijn deep learning-modellen die enorme gegevenssets gebruiken en trainen om te excelleren in taalverwerkingstaken. Ze maken nieuwe combinaties van tekst die natuurlijke taal nabootsen op basis van hun trainingsgegevens.
- Basismodellen zijn grote ML-modellen die vooraf zijn getraind met de bedoeling dat ze worden afgestemd op specifiekere taalbegrip- en generatietaken. Deze modellen worden gebruikt om patronen in de invoergegevens te onderscheiden.
Nadat deze modellen hun leerprocessen hebben voltooid, genereren ze samen statistisch waarschijnlijke uitvoer wanneer daarom wordt gevraagd en kunnen ze worden gebruikt om verschillende taken uit te voeren, waaronder:
- Het genereren van afbeeldingen op basis van bestaande afbeeldingen of het gebruik van de stijl van één afbeelding om een nieuwe te wijzigen of te maken.
- Spraaktaken zoals transcriptie, vertaling, vraag/antwoord genereren en interpretatie van de intentie of betekenis van tekst.
Belangrijk
Hoewel veel LLM's of andere generatieve AI-modellen waarborgen hebben, kunnen ze nog steeds schadelijke of onnauwkeurige informatie genereren.
Generatieve AI heeft de volgende ontwerppatronen:
- Prompt Engineering: Gespecialiseerde prompts maken om LLM-gedrag te begeleiden
- Ophalen augmented generation (RAG): een LLM combineren met externe kennis ophalen
- Afstemmen: Een vooraf getrainde LLM aanpassen aan specifieke gegevenssets van domeinen
- Pretraining: Een LLM helemaal opnieuw trainen
Machine learning op Databricks
Met Mozaïek AI dient één platform elke stap van ML-ontwikkeling en -implementatie, van onbewerkte gegevens tot deductietabellen die elke aanvraag en reactie voor een geleverd model opslaan. Gegevenswetenschappers, data engineers, ML-technici en DevOps kunnen hun werk doen met behulp van dezelfde set hulpprogramma's en één bron van waarheid voor de gegevens.
Mozaïek AI unifieert de gegevenslaag en het ML-platform. Alle gegevensassets en artefacten, zoals modellen en functies, kunnen in één catalogus worden gedetecteerd en beheerd. Met één platform voor gegevens en modellen kunt u herkomst van de onbewerkte gegevens naar het productiemodel bijhouden. Ingebouwde gegevens- en modelbewaking slaat metrische gegevens van de kwaliteit op in tabellen die ook zijn opgeslagen in het platform, waardoor het gemakkelijker is om de hoofdoorzaak van prestatieproblemen van het model te identificeren. Zie MLOps-werkstromen in Azure Databricks en MLOps Stacks voor meer informatie over hoe Databricks de volledige ML-levenscyclus en MLOps-stacks ondersteunt: modelontwikkelingsproces als code.
Enkele van de belangrijkste onderdelen van het data intelligence-platform zijn:
Opdrachten | Onderdeel |
---|---|
Gegevens, functies, modellen en functies beheren en beheren. Ook detectie, versiebeheer en herkomst. | Unity-catalogus |
Wijzigingen in gegevens, gegevenskwaliteit en modelvoorspellingskwaliteit bijhouden | Lakehouse Monitoring, Deductietabellen |
Functieontwikkeling en -beheer | Functie-engineering en -dienst. |
Modellen trainen | Mozaïek AutoML, Databricks-notebooks |
Ontwikkeling van traceringsmodellen | MLflow-tracering |
Aangepaste modellen leveren | Mozaïek AI-model bedienen. |
Geautomatiseerde werkstromen en ETL-pijplijnen bouwen die gereed zijn voor productie | Databricks-taken |
Git-integratie | Git-mappen in Databricks |
Deep Learning op Databricks
Het configureren van infrastructuur voor Deep Learning-toepassingen kan lastig zijn. Databricks Runtime voor Machine Learning zorgt hiervoor voor u, met clusters met ingebouwde compatibele versies van de meest voorkomende Deep Learning-bibliotheken zoals TensorFlow, PyTorch en Keras.
Databricks Runtime ML-clusters bevatten ook vooraf geconfigureerde GPU-ondersteuning met stuurprogramma's en ondersteunende bibliotheken. Het biedt ook ondersteuning voor bibliotheken zoals Ray om rekenverwerking te parallelliseren voor het schalen van ML-werkstromen en ML-toepassingen.
Databricks Runtime ML-clusters bevatten ook vooraf geconfigureerde GPU-ondersteuning met stuurprogramma's en ondersteunende bibliotheken. Mozaïek AI Model Serving maakt het mogelijk om schaalbare GPU-eindpunten te maken voor deep learning-modellen zonder extra configuratie.
Voor machine learning-toepassingen raadt Databricks aan om een cluster met Databricks Runtime voor Machine Learning te gebruiken. Zie Een cluster maken met Databricks Runtime ML.
Als u aan de slag wilt gaan met Deep Learning op Databricks, raadpleegt u:
- Best practices voor deep learning in Azure Databricks
- Deep Learning op Databricks
- Referentieoplossingen voor Deep Learning
Volgende stappen
Om aan de slag te gaan, raadpleegt u:
Zie voor een aanbevolen MLOps-werkstroom op Databricks Mosaic AI:
Zie voor meer informatie over de belangrijkste AI-functies van Databricks Mosaic: