Een data lakehouse-analyseoplossing implementeren met Azure Databricks

intermediate
data-engineer
azure-databricks

In een oogopslag

Ontdek hoe u de kracht van Apache Spark en krachtige clusters die op het Azure Databricks-platform kunt inzetten om grote data engineering-workloads in cloud uit te voeren.

Vereisten

Geen

Modules in dit leertraject

Azure Databricks is een cloudservice die een schaalbaar platform biedt voor gegevensanalyse met behulp van Apache Spark.

Meer informatie over het uitvoeren van gegevensanalyse met behulp van Azure Databricks. Verken verschillende methoden voor gegevensopname en leer hoe u gegevens kunt integreren uit bronnen zoals Azure Data Lake en Azure SQL Database. In deze module wordt u begeleid bij het gebruik van notebooks voor samenwerking om experimentele gegevensanalyse (EDA) uit te voeren, zodat u gegevens kunt visualiseren, bewerken en onderzoeken om patronen, afwijkingen en correlaties te ontdekken.

Azure Databricks is gebaseerd op Apache Spark en stelt data engineers en analisten in staat Spark-taken uit te voeren om gegevens op schaal te transformeren, analyseren en visualiseren.

Delta Lake is een oplossing voor gegevensbeheer in Azure Databricks die functies biedt, waaronder ACID-transacties, schema-afdwinging en tijdreizen, waardoor gegevensconsistentie, integriteit en versiebeheermogelijkheden worden gegarandeerd.

Het bouwen van gegevenspijplijnen met Delta Live Tables maakt realtime, schaalbare en betrouwbare gegevensverwerking mogelijk met behulp van de geavanceerde functies van Delta Lake in Azure Databricks

Het implementeren van workloads met Azure Databricks-werkstromen omvat het organiseren en automatiseren van complexe pijplijnen voor gegevensverwerking, machine learning-werkstromen en analysetaken. In deze module leert u hoe u workloads implementeert met Databricks-werkstromen.