Implementera en dataanalyslösning med Azure Databricks

I korthet

I slutet av den här utbildningsvägen har du skapat gedigna mellanliggande och avancerade kunskaper i både Databricks och Spark i Azure. Du kan mata in, transformera och analysera storskaliga datauppsättningar med Spark DataFrames, Spark SQL och PySpark, vilket ger dig förtroende för att arbeta med distribuerad databearbetning. I Databricks vet du hur du navigerar på arbetsytan, hanterar kluster och skapar och underhåller Delta-tabeller.

Du kan också utforma och köra ETL-pipelines, optimera Delta-tabeller, hantera schemaändringar och tillämpa datakvalitetsregler. Dessutom får du lära dig hur du samordnar arbetsbelastningar med Lakeflow-jobb och pipelines, så att du kan gå från utforskning till automatiserade arbetsflöden. Slutligen får du kunskaper om styrnings- och säkerhetsfunktioner, inklusive Unity Catalog, Purview-integrering och åtkomsthantering, och förbereder dig för att arbeta effektivt i produktionsklara datamiljöer.

Förutsättningar

Innan du påbörjar den här utbildningsvägen bör du redan känna dig bekväm med grunderna i Python och SQL. Detta inkluderar att kunna skriva enkla Python-skript och arbeta med vanliga datastrukturer, samt skriva SQL-frågor för att filtrera, ansluta och aggregera data. En grundläggande förståelse av vanliga filformat som CSV, JSON eller Parquet hjälper också när du arbetar med datauppsättningar.

Dessutom är det viktigt att känna till Azure-portalen och kärntjänster som Azure Storage, tillsammans med en allmän medvetenhet om databegrepp som batch- och strömningsbearbetning och strukturerade och ostrukturerade data. Även om det inte är obligatoriskt kan en tidigare exponering för stordataramverk som Spark och erfarenhet av att arbeta med Jupyter Notebooks göra övergången till Databricks smidigare.

Moduler i den här utbildningsvägen

Azure Databricks är en molntjänst som tillhandahåller en skalbar plattform för dataanalys med Apache Spark.

Lär dig hur du utför dataanalys med Hjälp av Azure Databricks. Utforska olika datainmatningsmetoder och hur du integrerar data från källor som Azure Data Lake och Azure SQL Database. Den här modulen vägleder dig genom att använda samarbetsanteckningsböcker för att utföra undersökande dataanalys (EDA), så att du kan visualisera, manipulera och undersöka data för att upptäcka mönster, avvikelser och korrelationer.

Azure Databricks bygger på Apache Spark och gör det möjligt för datatekniker och analytiker att köra Spark-jobb för att transformera, analysera och visualisera data i stor skala.

Delta Lake är en datahanteringslösning i Azure Databricks som tillhandahåller funktioner som ACID-transaktioner, schemaframtvingande och tidsresor som säkerställer datakonsekvens, integritet och versionsfunktioner.

Genom att skapa deklarativa pipelines för Lakeflow kan du bearbeta data i realtid, skalbar och tillförlitlig med hjälp av Delta Lake-avancerade funktioner i Azure Databricks

Att distribuera arbetsbelastningar med Lakeflow-jobb innebär att orkestrera och automatisera komplexa databearbetningspipelines, arbetsflöden för maskininlärning och analysuppgifter. I den här modulen får du lära dig hur du distribuerar arbetsbelastningar med Databricks Lakeflow-jobb.