Dette kursus undersøger, hvordan du bruger Databricks og Apache Spark på Azure til at tage dataprojekter fra udforskning til produktion. Du lærer, hvordan du indtager, transformerer og analyserer datasæt i stor skala med Spark DataFrames, Spark SQL og PySpark, samtidig med at du opbygger tillid til administration af distribueret databehandling. Undervejs får du praktisk erfaring med Databricks-arbejdsområdet – navigerer i klynger og opretter og optimerer Delta-tabeller. Du vil også dykke ned i datatekniske praksisser, herunder design af ETL-pipelines, håndtering af skemaudvikling og håndhævelse af datakvalitet. Kurset går derefter over til orkestrering, der viser dig, hvordan du automatiserer og administrerer arbejdsbelastninger med Lakeflow-job og pipelines. For at runde tingene af kan du udforske styrings- og sikkerhedsfunktioner som f.eks. Unity Catalog og Purview-integration, der sikrer, at du kan arbejde med data i et sikkert, veladministreret og produktionsklart miljø.
Målgruppens profil
Før de tager dette kursus, bør eleverne allerede være fortrolige med det grundlæggende i Python og SQL. Dette inkluderer at kunne skrive simple Python-scripts og arbejde med almindelige datastrukturer samt skrive SQL-forespørgsler for at filtrere, forbinde og aggregere data. En grundlæggende forståelse af almindelige filformater som CSV, JSON eller Parquet vil også hjælpe, når du arbejder med datasæt. Derudover er det vigtigt at have kendskab til Azure Portal og kernetjenester som Azure Storage sammen med en generel bevidsthed om databegreber som batchbehandling i forhold til streamingbehandling og strukturerede kontra ustrukturerede data. Selvom det ikke er obligatorisk, kan tidligere eksponering for big data-strukturer som Spark og erfaring med at arbejde med Jupyter-notesbøger gøre overgangen til Databricks nemmere.