Vad är Azure Databricks?

Artikel
03/01/2024

Azure Databricks är en enhetlig, öppen analysplattform för att skapa, distribuera, dela och underhålla data, analyser och AI-lösningar i företagsklass i stor skala. Databricks Data Intelligence Platform integreras med molnlagring och säkerhet i ditt molnkonto och hanterar och distribuerar molninfrastruktur åt dig.

Hur fungerar en dataintelligensplattform?

Azure Databricks använder generativ AI med data lakehouse för att förstå de unika semantiken för dina data. Sedan optimerar den automatiskt prestanda och hanterar infrastruktur för att matcha dina affärsbehov.

Bearbetning av naturligt språk lär sig ditt företags språk, så att du kan söka efter och upptäcka data genom att ställa en fråga med egna ord. Hjälp med naturligt språk hjälper dig att skriva kod, felsöka fel och hitta svar i dokumentationen.

Slutligen kan dina data- och AI-program förlita sig på stark styrning och säkerhet. Du kan integrera API:er som OpenAI utan att äventyra datasekretessen och IP-kontrollen.

Vad används Azure Databricks för?

Azure Databricks innehåller verktyg som hjälper dig att ansluta dina datakällor till en plattform för att bearbeta, lagra, dela, analysera, modellera och tjäna pengar på datauppsättningar med lösningar från BI till generativ AI.

Azure Databricks-arbetsytan har ett enhetligt gränssnitt och verktyg för de flesta datauppgifter, inklusive:

Schemaläggning och hantering av databearbetning, särskilt ETL
Generera instrumentpaneler och visualiseringar
Hantera säkerhet, styrning, hög tillgänglighet och haveriberedskap
Dataidentifiering, anteckning och utforskning
Modellering, spårning och modellhantering för maskininlärning (ML)
Generativa AI-lösningar

Hanterad integrering med öppen källkod

Databricks har ett starkt engagemang för öppen källkod community. Databricks hanterar uppdateringar av öppen källkod integreringar i Databricks Runtime-versionerna. Följande tekniker är öppen källkod projekt som ursprungligen skapades av Databricks-anställda:

Delta Lake och deltadelning
MLflow
Apache Spark och strukturerad direktuppspelning
Redash

Verktyg och programmatisk åtkomst

Azure Databricks har ett antal proprietära verktyg som integrerar och utökar dessa tekniker för att lägga till optimerad prestanda och användarvänlighet, till exempel följande:

Förutom arbetsytans användargränssnitt kan du interagera med Azure Databricks programmatiskt med följande verktyg:

REST-API
CLI
Terraform

Hur fungerar Azure Databricks med Azure?

Azure Databricks-plattformsarkitekturen består av två primära delar:

Infrastrukturen som används av Azure Databricks för att distribuera, konfigurera och hantera plattformen och tjänsterna.
Den kundägda infrastrukturen som hanteras i samarbete med Azure Databricks och ditt företag.

Till skillnad från många företag med företagsdata tvingar Azure Databricks dig inte att migrera dina data till egna lagringssystem för att använda plattformen. I stället konfigurerar du en Azure Databricks-arbetsyta genom att konfigurera säkra integreringar mellan Azure Databricks-plattformen och ditt molnkonto, och sedan distribuerar Azure Databricks beräkningskluster med hjälp av molnresurser i ditt konto för att bearbeta och lagra data i objektlagring och andra integrerade tjänster som du styr.

Unity Catalog utökar den här relationen ytterligare, så att du kan hantera behörigheter för åtkomst till data med hjälp av välbekant SQL-syntax inifrån Azure Databricks.

Azure Databricks-arbetsytor uppfyller säkerhets- och nätverkskraven för några av världens största och mest säkerhetsinriktade företag. Azure Databricks gör det enkelt för nya användare att komma igång på plattformen. Det tar bort många av bördorna och problemen med att arbeta med molninfrastruktur, utan att begränsa anpassningar och kontroll av erfarna data, åtgärder och säkerhetsteam som krävs.

Vilka är vanliga användningsfall för Azure Databricks?

Användningsfallen i Azure Databricks varierar lika mycket som de data som bearbetas på plattformen och de många personer av anställda som arbetar med data som en central del av sitt jobb. Följande användningsfall belyser hur användare i hela organisationen kan använda Azure Databricks för att utföra uppgifter som är viktiga för bearbetning, lagring och analys av data som driver viktiga affärsfunktioner och beslut.

Skapa ett företagsdatasjöhus

Data lakehouse kombinerar styrkan i företagets informationslager och datasjöar för att påskynda, förenkla och förena företagsdatalösningar. Datatekniker, dataforskare, analytiker och produktionssystem kan alla använda data lakehouse som sin enda sanningskälla, vilket ger snabb åtkomst till konsekventa data och minskar komplexiteten i att skapa, underhålla och synkronisera många distribuerade datasystem. Se Vad är ett datasjöhus?.

ETL och datateknik

Oavsett om du genererar instrumentpaneler eller driver program för artificiell intelligens tillhandahåller datateknik ryggraden för datacentrerade företag genom att se till att data är tillgängliga, rena och lagrade i datamodeller som möjliggör effektiv identifiering och användning. Azure Databricks kombinerar kraften i Apache Spark med Delta Lake och anpassade verktyg för att ge en oöverträffad ETL-upplevelse (extrahera, transformera, läsa in). Du kan använda SQL, Python och Scala för att skapa ETL-logik och sedan dirigera schemalagd jobbdistribution med bara några få klick.

Delta Live Tables förenklar ETL ytterligare genom att intelligent hantera beroenden mellan datauppsättningar och automatiskt distribuera och skala produktionsinfrastrukturen för att säkerställa en korrekt leverans av data i rätt tid enligt dina specifikationer.

Azure Databricks tillhandahåller ett antal anpassade verktyg för datainmatning, inklusive Auto Loader, ett effektivt och skalbart verktyg för inkrementell och idempotent inläsning av data från molnobjektlagring och datasjöar till data lakehouse.

Maskininlärning, AI och datavetenskap

Azure Databricks-maskininlärning utökar plattformens kärnfunktioner med en uppsättning verktyg som är skräddarsydda för dataforskares och ML-teknikers behov, inklusive MLflow och Databricks Runtime for Machine Learning.

Stora språkmodeller och generativ AI

Databricks Runtime for Machine Learning innehåller bibliotek som Hugging Face Transformers som gör att du kan integrera befintliga förtränade modeller eller andra bibliotek med öppen källkod i arbetsflödet. Databricks MLflow-integreringen gör det enkelt att använda MLflow-spårningstjänsten med transformatorpipelines, modeller och bearbetningskomponenter. Dessutom kan du integrera OpenAI-modeller eller lösningar från partner som John Snow Labs i dina Databricks-arbetsflöden.

Med Azure Databricks kan du anpassa en LLM för dina data för din specifika uppgift. Med stöd av öppen källkod verktyg, till exempel Hugging Face och DeepSpeed, kan du effektivt ta en grundläggande LLM och börja träna med dina egna data för att få mer noggrannhet för din domän och arbetsbelastning.

Dessutom tillhandahåller Azure Databricks AI-funktioner som SQL-dataanalytiker kan använda för att komma åt LLM-modeller, inklusive från OpenAI, direkt i sina datapipelines och arbetsflöden. Se AI Functions på Azure Databricks.

Datalagerhantering, analys och BI

Azure Databricks kombinerar användarvänliga UIs med kostnadseffektiva beräkningsresurser och oändligt skalbar, prisvärd lagring för att ge en kraftfull plattform för att köra analysfrågor. Administratörer konfigurerar skalbara beräkningskluster som SQL-lager, så att slutanvändarna kan köra frågor utan att behöva oroa sig för komplexiteten i arbetet i molnet. SQL-användare kan köra frågor mot data i lakehouse med sql-frågeredigeraren eller i notebook-filer. Notebook-filer stöder Python, R och Scala utöver SQL och tillåter användare att bädda in samma visualiseringar som är tillgängliga på instrumentpaneler tillsammans med länkar, bilder och kommentarer som skrivits i markdown.

Unity Catalog tillhandahåller en enhetlig datastyrningsmodell för data lakehouse. Molnadministratörer konfigurerar och integrerar grova åtkomstkontrollbehörigheter för Unity Catalog och sedan kan Azure Databricks-administratörer hantera behörigheter för team och enskilda användare. Behörigheter hanteras med åtkomstkontrollistor (ACL: er) via antingen användarvänliga UIs eller SQL-syntax, vilket gör det enklare för databasadministratörer att skydda åtkomsten till data utan att behöva skala på molnbaserad identitetsåtkomsthantering (IAM) och nätverk.

Unity Catalog gör det enkelt att köra säker analys i molnet och ger en ansvarsfördelning som hjälper till att begränsa den kompetens som krävs för både administratörer och slutanvändare av plattformen. Se Vad är Unity Catalog?.

Lakehouse gör datadelning i din organisation så enkelt som att ge frågeåtkomst till en tabell eller vy. För delning utanför din säkra miljö har Unity Catalog en hanterad version av Delta-delning.

DevOps, CI/CD och uppgiftsorkestrering

Utvecklingslivscyklerna för ETL-pipelines, ML-modeller och analysinstrumentpaneler utgör var och en sina egna unika utmaningar. Med Azure Databricks kan alla dina användare utnyttja en enda datakälla, vilket minskar duplicerade insatser och rapportering utan synkronisering. Genom att dessutom tillhandahålla en uppsättning vanliga verktyg för versionshantering, automatisering, schemaläggning, distribution av kod och produktionsresurser kan du förenkla dina kostnader för övervakning, orkestrering och åtgärder. Arbetsflöden schemalägger Azure Databricks-notebook-filer, SQL-frågor och annan godtycklig kod. Med lagringsplatser kan du synkronisera Azure Databricks-projekt med ett antal populära git-leverantörer. En fullständig översikt över verktyg finns i Utvecklarverktyg och vägledning.

Realtids- och strömningsanalys

Azure Databricks utnyttjar Apache Spark Structured Streaming för att fungera med strömmande data och inkrementella dataändringar. Strukturerad direktuppspelning integreras tätt med Delta Lake, och dessa tekniker utgör grunden för både Delta Live Tables och Auto Loader. Se Direktuppspelning på Azure Databricks.