Vad är Azure Databricks?

Azure Databricks Lakehouse Platform tillhandahåller en enhetlig uppsättning verktyg för att skapa, distribuera, dela och underhålla datalösningar i företagsklass i stor skala. Azure Databricks integreras med molnlagring och säkerhet i ditt molnkonto och hanterar och distribuerar molninfrastruktur för din räkning.

Hanterad integrering med öppen källkod

Databricks har ett starkt engagemang för öppen källkod community. Databricks hanterar uppdateringar av öppen källkod integreringar i Databricks Runtime-versioner. Följande tekniker är öppen källkod projekt som grundas av Databricks-anställda:

Azure Databricks har ett antal egna verktyg som integrerar och utökar dessa tekniker för att ge optimerad prestanda och användarvänlighet, till exempel följande:

Hur fungerar Azure Databricks med Azure?

Azure Databricks-plattformsarkitekturen består av två primära delar: den infrastruktur som används av Azure Databricks för att distribuera, konfigurera och hantera plattformen och tjänsterna samt den kundägda infrastrukturen som hanteras i samarbete med Azure Databricks och ditt företag.

Till skillnad från många företagsdatabasföretag tvingar Azure Databricks dig inte att migrera dina data till egna lagringssystem för att använda plattformen. I stället konfigurerar du en Azure Databricks-arbetsyta genom att konfigurera säkra integreringar mellan Azure Databricks-plattformen och ditt molnkonto, och sedan distribuerar Azure Databricks tillfälliga beräkningskluster med hjälp av molnresurser i ditt konto för att bearbeta och lagra data i objektlagring och andra integrerade tjänster som du styr.

Unity Catalog utökar den här relationen ytterligare, så att du kan hantera behörigheter för åtkomst till data med hjälp av välbekant SQL-syntax inifrån Azure Databricks.

Azure Databricks har distribuerat arbetsytor som uppfyller säkerhets- och nätverkskraven för några av världens största och mest säkerhetsinriktade företag. Azure Databricks gör det enkelt för nya användare att komma igång på plattformen och tar bort många av belastningarna och problemen med att arbeta med molninfrastruktur från slutanvändare, men begränsar inte de anpassningar och kontroll som erfarna data, åtgärder och säkerhetsteam kräver.

Vad används Azure Databricks för?

Våra kunder använder Azure Databricks för att bearbeta, lagra, rensa, dela, analysera, modellera och tjäna pengar på sina datauppsättningar med lösningar från BI till maskininlärning. Du kan använda Azure Databricks-plattformen för att skapa många olika program som sträcker sig över datapersonas. Kunder som fullt ut omfamnar lakehouse drar nytta av vår enhetliga plattform för att skapa och distribuera datateknikarbetsflöden, maskininlärningsmodeller och analysinstrumentpaneler som driver innovationer och insikter i en organisation.

Azure Databricks-arbetsytan tillhandahåller användargränssnitt för många viktiga datauppgifter, inklusive verktyg för följande:

  • Interaktiva notebook-filer
  • Schemaläggare och ansvarig för arbetsflöden
  • SQL-redigerare och instrumentpaneler
  • Datainmatning och styrning
  • Dataidentifiering, anteckning och utforskning
  • Beräkningshantering
  • Spårning av maskininlärningsexperiment (ML)
  • ML-modell som betjänar
  • Ett funktionsarkiv
  • Källkontroll med Git

Förutom arbetsytans användargränssnitt kan du interagera med Azure Databricks programmatiskt med följande verktyg:

  • REST-API
  • CLI
  • Terraform

Vilka är vanliga användningsfall för Azure Databricks?

Användningsfallen i Azure Databricks är lika varierande som de data som bearbetas på plattformen och de många personer av anställda som arbetar med data som en central del av sitt jobb. Följande användningsfall belyser hur användare i hela organisationen kan använda Azure Databricks för att utföra uppgifter som är viktiga för bearbetning, lagring och analys av data som styr viktiga affärsfunktioner och beslut.

Skapa ett datasjöhus för företag

Data lakehouse kombinerar styrkor med informationslager och datasjöar för att påskynda, förenkla och förena företagsdatalösningar. Datatekniker, dataexperter, analytiker och produktionssystem kan utnyttja data lakehouse som en enda sanningskälla, vilket ger snabb åtkomst till konsekventa data och minskar komplexiteten i att skapa, underhålla och synkronisera många distribuerade datasystem. Se Vad är Databricks Lakehouse?.

ETL och datateknik

Oavsett om du genererar instrumentpaneler eller driver program för artificiell intelligens tillhandahåller datateknik ryggraden för datacentrerade företag genom att se till att data är tillgängliga, rena och lagrade i datamodeller som möjliggör effektiv identifiering och användning. Azure Databricks kombinerar kraften i Apache Spark med Delta Lake och anpassade verktyg för att ge en oöverträffad ETL-upplevelse (extrahera, transformera, läsa in). Du kan använda SQL, Python och Scala för att skapa ETL-logik och sedan dirigera schemalagd jobbdistribution med bara några få klick.

Delta Live Tables förenklar ETL ytterligare genom att intelligent hantera beroenden mellan datauppsättningar och automatiskt distribuera och skala produktionsinfrastrukturen för att säkerställa snabb och korrekt leverans av data enligt dina specifikationer.

Azure Databricks innehåller ett antal anpassade verktyg för datainmatning, inklusive Auto Loader, ett effektivt och skalbart verktyg för inkrementell och idempotent inläsning av data från molnobjektlagring och datasjöar till data lakehouse.

Maskininlärning, AI och datavetenskap

Azure Databricks-maskininlärning utökar plattformens kärnfunktioner med en uppsättning verktyg som är skräddarsydda för dataexperters och ML-teknikers behov, inklusive MLflow och Databricks Runtime for Machine Learning. Se Databricks Machine Learning-guide.

Datalagerhantering, analys och BI

Azure Databricks kombinerar användarvänliga UIs med kostnadseffektiva beräkningsresurser och oändligt skalbar och prisvärd lagring för att ge en kraftfull plattform för att köra analysfrågor. Administratörer konfigurerar skalbara beräkningskluster som SQL-lager, så att slutanvändarna kan köra frågor utan att bekymra sig om komplexiteten i arbetet i molnet. SQL-användare kan köra frågor mot data i lakehouse med sql-frågeredigeraren eller i notebook-filer. Notebook-filer stöder Python, R och Scala utöver SQL och gör det möjligt för användare att bädda in samma visualiseringar som är tillgängliga på instrumentpaneler tillsammans med länkar, bilder och kommentarer som skrivits i markdown.

Datastyrning och säker datadelning

Unity Catalog tillhandahåller en enhetlig datastyrningsmodell för data lakehouse. Molnadministratörer konfigurerar och integrerar grova behörigheter för åtkomstkontroll för Unity Catalog, och sedan kan Azure Databricks-administratörer hantera behörigheter för team och enskilda användare. Behörigheter hanteras med åtkomstkontrollistor (ACL: er) via antingen användarvänligA UIs eller SQL-syntax, vilket gör det enklare för databasadministratörer att skydda åtkomsten till data utan att behöva skala på molnbaserad identitetsåtkomsthantering (IAM) och nätverk.

Unity Catalog gör det enkelt att köra säker analys i molnet och ger en ansvarsfördelning som hjälper till att begränsa den kompetens som krävs för både administratörer och slutanvändare av plattformen. Se Vad är Unity Catalog?.

Lakehouse gör datadelning i din organisation så enkelt som att ge frågeåtkomst till en tabell eller vy. För delning utanför din säkra miljö har Unity Catalog en hanterad version av Delta-delning.

DevOps, CI/CD och uppgiftsorkestrering

Utvecklingslivscyklerna för ETL-pipelines, ML-modeller och analysinstrumentpaneler utgör var och en sina egna unika utmaningar. Med Azure Databricks kan alla dina användare utnyttja en enda datakälla, vilket minskar dubbletter av arbete och rapportering utan synkronisering. Genom att dessutom tillhandahålla en uppsättning vanliga verktyg för versionshantering, automatisering, schemaläggning, distribution av kod och produktionsresurser kan du förenkla dina kostnader för övervakning, orkestrering och åtgärder. Arbetsflöden schemalägger Azure Databricks-notebook-filer, SQL-frågor och annan godtycklig kod. Med lagringsplatser kan du synkronisera Azure Databricks-projekt med ett antal populära git-leverantörer. En fullständig översikt över verktyg finns i Utvecklarverktyg och vägledning.

Realtids- och strömningsanalyser

Azure Databricks använder Apache Spark Structured Streaming för att arbeta med strömmande data och inkrementella dataändringar. Structured Streaming integreras tätt med Delta Lake, och dessa tekniker utgör grunden för både Delta Live Tables och Auto Loader. Se Vad är Apache Spark Structured Streaming?.