Een Data Analytics-oplossing implementeren met Azure Databricks

Leertraject
6 Modules

In een oogopslag

Niveau

Gevorderd
Vaardigheid

 
Product

Azure Databricks
Rol

Gegevensanalist
Onderwerp

Gegevensanalyse

Aan het einde van dit leertraject hebt u solide tussenliggende tot geavanceerde vaardigheden gebouwd in zowel Databricks als Spark in Azure. U kunt grootschalige gegevenssets opnemen, transformeren en analyseren met behulp van Spark DataFrames, Spark SQL en PySpark, zodat u vertrouwen hebt in het werken met gedistribueerde gegevensverwerking. In Databricks weet u hoe u door de werkruimte navigeert, clusters beheert en Delta-tabellen bouwt en onderhoudt.

U kunt ook ETL-pijplijnen ontwerpen en uitvoeren, Delta-tabellen optimaliseren, schemawijzigingen beheren en regels voor gegevenskwaliteit toepassen. Daarnaast leert u hoe u workloads kunt orkestreren met Lakeflow Jobs en -pijplijnen, waardoor u de overstap van verkenning naar geautomatiseerde werkstromen mogelijk maakt. Ten slotte krijgt u kennis met governance- en beveiligingsfuncties, waaronder Unity Catalog, Purview-integratie en toegangsbeheer, zodat u effectief kunt werken in gegevensomgevingen die gereed zijn voor productie.

Vereisten

Voordat u aan dit leertraject begint, moet u al vertrouwd zijn met de basisprincipes van Python en SQL. Dit omvat het schrijven van eenvoudige Python-scripts en het werken met algemene gegevensstructuren, en het schrijven van SQL-query's voor het filteren, samenvoegen en aggregeren van gegevens. Een basiskennis van veelgebruikte bestandsindelingen, zoals CSV, JSON of Parquet, helpt ook bij het werken met gegevenssets.

Daarnaast is bekendheid met Azure Portal en kernservices zoals Azure Storage belangrijk, samen met een algemene kennis van gegevensconcepten zoals batch- versus streamingverwerking en gestructureerde versus ongestructureerde gegevens. Hoewel dit niet verplicht is, kan de overgang naar Databricks soepeler verlopen voordat u big data-frameworks zoals Spark gebruikt en ervaring hebt met het werken met Jupyter-notebooks.

Modules in dit leertraject

Azure Databricks verkennen

Azure Databricks is een cloudservice die een schaalbaar platform biedt voor gegevensanalyse met behulp van Apache Spark.

Gegevensanalyse uitvoeren met Azure Databricks

Meer informatie over het uitvoeren van gegevensanalyse met behulp van Azure Databricks. Verken verschillende methoden voor gegevensopname en leer hoe u gegevens kunt integreren uit bronnen zoals Azure Data Lake en Azure SQL Database. In deze module wordt u begeleid bij het gebruik van notebooks voor samenwerking om experimentele gegevensanalyse (EDA) uit te voeren, zodat u gegevens kunt visualiseren, bewerken en onderzoeken om patronen, afwijkingen en correlaties te ontdekken.

Apache Spark gebruiken in Azure Databricks

Azure Databricks is gebaseerd op Apache Spark en stelt data engineers en analisten in staat Spark-taken uit te voeren om gegevens op schaal te transformeren, analyseren en visualiseren.

Gegevens beheren met Delta Lake

Delta Lake is een oplossing voor gegevensbeheer in Azure Databricks die functies biedt, waaronder ACID-transacties, schema-afdwinging en tijdreizen, waardoor gegevensconsistentie, integriteit en versiebeheermogelijkheden worden gegarandeerd.

Declaratieve pijplijnen bouwen voor Lakeflow

Declaratieve pijplijnen van Lakeflow maken realtime, schaalbare en betrouwbare gegevensverwerking mogelijk met behulp van de geavanceerde functies van Delta Lake in Azure Databricks

Workloads implementeren met Lakeflow-taken

Het implementeren van workloads met Lakeflow-taken omvat het organiseren en automatiseren van complexe pijplijnen voor gegevensverwerking, machine learning-werkstromen en analysetaken. In deze module leert u hoe u workloads implementeert met Databricks Lakeflow-taken.

Starten