Implementer en dataanalyseløsning med Azure Databricks

Læringsforløb
6 Moduler

Hurtigt overblik

Niveau

Øvet
Færdighed

 
Produkt

Azure Databricks
Rolle

Dataanalytiker
Emne

Dataanalyse

Ved afslutningen af dette læringsforløb har du opbygget solide mellemliggende til avancerede færdigheder i både Databricks og Spark på Azure. Du kan indtage, transformere og analysere datasæt i stor skala ved hjælp af Spark DataFrames, Spark SQL og PySpark, hvilket giver dig tillid til at arbejde med distribueret databehandling. I Databricks ved du, hvordan du navigerer i arbejdsområdet, administrerer klynger og bygger og vedligeholder Delta-tabeller.

Du vil også være i stand til at designe og køre ETL-pipelines, optimere Delta-tabeller, administrere skemaændringer og anvende datakvalitetsregler. Derudover lærer du, hvordan du orkestrerer arbejdsbelastninger med Lakeflow-job og pipelines, så du kan gå fra udforskning til automatiserede arbejdsprocesser. Endelig får du kendskab til styrings- og sikkerhedsfunktioner, herunder Unity Catalog, Purview-integration og adgangsstyring, hvilket forbereder dig på at arbejde effektivt i produktionsklare datamiljøer.

Forudsætninger

Før du starter denne læringssti, bør du allerede være fortrolig med det grundlæggende i Python og SQL. Dette inkluderer at kunne skrive simple Python-scripts og arbejde med almindelige datastrukturer samt skrive SQL-forespørgsler for at filtrere, forbinde og aggregere data. En grundlæggende forståelse af almindelige filformater som CSV, JSON eller Parquet vil også hjælpe, når du arbejder med datasæt.

Derudover er det vigtigt at have kendskab til Azure Portal og kernetjenester som Azure Storage sammen med en generel bevidsthed om databegreber som batchbehandling i forhold til streamingbehandling og strukturerede kontra ustrukturerede data. Selvom det ikke er obligatorisk, kan tidligere eksponering for big data-strukturer som Spark og erfaring med at arbejde med Jupyter-notesbøger gøre overgangen til Databricks nemmere.

Moduler i dette læringsforløb

Udforsk Azure Databricks

Azure Databricks er en cloudtjeneste, der leverer en skalerbar platform til dataanalyse ved hjælp af Apache Spark.

Udfør dataanalyse med Azure Databricks

Få mere at vide om, hvordan du udfører dataanalyse ved hjælp af Azure Databricks. Udforsk forskellige metoder til dataindtagelse, og hvordan du integrerer data fra kilder som Azure Data Lake og Azure SQL Database. Dette modul hjælper dig med at bruge samarbejdsnotesbøger til at udføre udforskende dataanalyse (EDA), så du kan visualisere, manipulere og undersøge data for at afdække mønstre, uregelmæssigheder og korrelationer.

Brug Apache Spark i Azure Databricks

Azure Databricks er bygget på Apache Spark og gør det muligt for datateknikere og analytikere at køre Spark-job for at transformere, analysere og visualisere data i stor skala.

Administrer data med Delta Lake

Delta Lake er en dataadministrationsløsning i Azure Databricks, der indeholder funktioner, herunder ACID-transaktioner, skemagennemtvingning og tidsrejser, der sikrer datakonsistens, integritet og versioneringsfunktioner.

Byg deklarative pipelines i Lakeflow

Opbygning af Lakeflow Declarative Pipelines muliggør skalerbar og pålidelig databehandling i realtid ved hjælp af Delta Lakes avancerede funktioner i Azure Databricks

Udrul arbejdsbelastninger med Lakeflow-job

Udrulning af arbejdsbelastninger med Lakeflow-job involverer orkestrering og automatisering af komplekse databehandlingspipelines, arbejdsprocesser til maskinel indlæring og analyseopgaver. I dette modul lærer du, hvordan du udruller arbejdsbelastninger med Databricks Lakeflow-job.

Start