Generativ AI och stora språkmodeller på Azure Databricks
Den här artikeln innehåller en översikt över generativ AI på Databricks och innehåller länkar till exempel notebook-filer och demonstrationer.
Vad är generativ AI?
Generativ AI är en typ av artificiell intelligens som fokuserar på datorers förmåga att använda modeller för att skapa innehåll som bilder, text, kod och syntetiska data.
Generativa AI-program bygger på generativa AI-modeller: stora språkmodeller (LLM) och grundmodeller.
- LLM:er är djupinlärningsmodeller som använder och tränar på massiva datamängder för att utmärka sig i språkbearbetningsuppgifter. De skapar nya kombinationer av text som efterliknar naturligt språk baserat på dess träningsdata.
- Grundmodeller är stora ML-modeller som är förtränade med avsikten att de ska finjusteras för mer specifika språktolknings- och generationsuppgifter. Dessa modeller används för att urskilja mönster i indata.
När dessa modeller har slutfört sina inlärningsprocesser genererar de tillsammans statistiskt sannolika utdata när de uppmanas till det och de kan användas för att utföra olika uppgifter, inklusive:
- Bildgenerering baserat på befintliga eller med stilen för en bild för att ändra eller skapa en ny.
- Taluppgifter som transkription, översättning, fråge-/svarsgenerering och tolkning av avsikten eller innebörden av text.
Viktigt!
Även om många LLM:er eller andra generativa AI-modeller har skydd kan de fortfarande generera skadlig eller felaktig information.
Generativ AI har följande designmönster:
- Prompt Engineering: Skapa specialiserade uppmaningar för att vägleda LLM-beteende
- RAG (Retrieval Augmented Generation): Kombinera en LLM med extern kunskapshämtning
- Finjustering: Anpassa en förtränad LLM till specifika datauppsättningar med domäner
- Förträning: Träna en LLM från grunden
Utveckla generativ AI och LLM:er i Azure Databricks
Azure Databricks förenar AI-livscykeln från datainsamling och förberedelse till modellutveckling och LLMOps, till servering och övervakning. Följande funktioner är särskilt optimerade för att underlätta utvecklingen av generativa AI-program:
- Unity Catalog för styrning, identifiering, versionshantering och åtkomstkontroll för data, funktioner, modeller och funktioner.
- MLflow för modellutvecklingsspårning och LLM-utvärdering.
- Funktionsutveckling och servering.
- Mosaic AI Model Serving för distribution av LLM:er. Du kan konfigurera en modell som betjänar slutpunkten specifikt för åtkomst till generativa AI-modeller:
- Toppmoderna öppna LLM:er med foundation model-API:er.
- Modeller från tredje part som finns utanför Databricks. Se Externa modeller i Mosaic AI Model Serving.
- Mosaic AI Vector Search innehåller en frågebar vektordatabas som lagrar inbäddningsvektorer och kan konfigureras för att automatiskt synkronisera till din baza znanja.
- Lakehouse Monitoring for data monitoring and tracking model prediction quality and drift using automatic payload logging with inference tables .Lakehouse Monitoring for data monitoring and tracking model prediction quality and drift using automatic payload logging with inference tables (Lakehouse Monitoring for data monitoring and tracking model prediction quality and drift using automatic payload logging with inference tables).
- AI Playground för att testa generativa AI-modeller från din Databricks-arbetsyta. Du kan fråga, jämföra och justera inställningar som systemprompt och slutsatsdragningsparametrar.
- Mosaic AI Model Training (tidigare Foundation Model Training) för att anpassa en grundmodell med dina egna data för att optimera dess prestanda för ditt specifika program.
Ytterligare resurser
- Se Vad är Mosaic AI Agent Framework?.
- Information om hur du använder Hugging Face-modeller på Databricks finns i Krama ansiktstransformatorer.
- Lagringsplatsen databricks-ml-examples i Github innehåller exempelimplementeringar av sota-datorer (state-of-the-art).
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för