Implementer en dataanalyseløsning med Azure Databricks
Hurtigt overblik
-
Niveau
-
Færdighed
-
Produkt
-
Rolle
-
Emne
Ved afslutningen af dette læringsforløb har du opbygget solide mellemliggende til avancerede færdigheder i både Databricks og Spark på Azure. Du kan indtage, transformere og analysere datasæt i stor skala ved hjælp af Spark DataFrames, Spark SQL og PySpark, hvilket giver dig tillid til at arbejde med distribueret databehandling. I Databricks ved du, hvordan du navigerer i arbejdsområdet, administrerer klynger og bygger og vedligeholder Delta-tabeller.
Du vil også være i stand til at designe og køre ETL-pipelines, optimere Delta-tabeller, administrere skemaændringer og anvende datakvalitetsregler. Derudover lærer du, hvordan du orkestrerer arbejdsbelastninger med Lakeflow-job og pipelines, så du kan gå fra udforskning til automatiserede arbejdsprocesser. Endelig får du kendskab til styrings- og sikkerhedsfunktioner, herunder Unity Catalog, Purview-integration og adgangsstyring, hvilket forbereder dig på at arbejde effektivt i produktionsklare datamiljøer.
Forudsætninger
Før du starter denne læringssti, bør du allerede være fortrolig med det grundlæggende i Python og SQL. Dette inkluderer at kunne skrive simple Python-scripts og arbejde med almindelige datastrukturer samt skrive SQL-forespørgsler for at filtrere, forbinde og aggregere data. En grundlæggende forståelse af almindelige filformater som CSV, JSON eller Parquet vil også hjælpe, når du arbejder med datasæt.
Derudover er det vigtigt at have kendskab til Azure Portal og kernetjenester som Azure Storage sammen med en generel bevidsthed om databegreber som batchbehandling i forhold til streamingbehandling og strukturerede kontra ustrukturerede data. Selvom det ikke er obligatorisk, kan tidligere eksponering for big data-strukturer som Spark og erfaring med at arbejde med Jupyter-notesbøger gøre overgangen til Databricks nemmere.
Resultatkode
Vil du anmode om en præstationskode?
Moduler i dette læringsforløb
Azure Databricks er en cloudtjeneste, der leverer en skalerbar platform til dataanalyse ved hjælp af Apache Spark.
Få mere at vide om, hvordan du udfører dataanalyse ved hjælp af Azure Databricks. Udforsk forskellige metoder til dataindtagelse, og hvordan du integrerer data fra kilder som Azure Data Lake og Azure SQL Database. Dette modul hjælper dig med at bruge samarbejdsnotesbøger til at udføre udforskende dataanalyse (EDA), så du kan visualisere, manipulere og undersøge data for at afdække mønstre, uregelmæssigheder og korrelationer.
Azure Databricks er bygget på Apache Spark og gør det muligt for datateknikere og analytikere at køre Spark-job for at transformere, analysere og visualisere data i stor skala.
Delta Lake er en dataadministrationsløsning i Azure Databricks, der indeholder funktioner, herunder ACID-transaktioner, skemagennemtvingning og tidsrejser, der sikrer datakonsistens, integritet og versioneringsfunktioner.
Opbygning af Lakeflow Declarative Pipelines muliggør skalerbar og pålidelig databehandling i realtid ved hjælp af Delta Lakes avancerede funktioner i Azure Databricks
Udrulning af arbejdsbelastninger med Lakeflow-job involverer orkestrering og automatisering af komplekse databehandlingspipelines, arbejdsprocesser til maskinel indlæring og analyseopgaver. I dette modul lærer du, hvordan du udruller arbejdsbelastninger med Databricks Lakeflow-job.