Cours

Implémenter une solution Data Analytics avec Azure Databricks

Cours DP-3011-A : Implémenter une solution Data Analytics avec Azure Databricks

Aperçu

Vue d’ensemble

Ce cours explique comment utiliser Databricks et Apache Spark sur Azure pour effectuer des projets de données d’exploration à production. Vous allez apprendre à ingérer, transformer et analyser des jeux de données à grande échelle avec des DataFrames Spark, Spark SQL et PySpark, tout en créant une confiance en matière de gestion du traitement des données distribuées. En cours de route, vous allez vous familiariser avec l’espace de travail Databricks, en accédant aux clusters et en créant et en optimisant les tables Delta.   Vous allez également vous plonger dans les pratiques d’ingénierie des données, notamment la conception de pipelines ETL, la gestion de l’évolution du schéma et l’application de la qualité des données. Le cours passe ensuite à l’orchestration, vous montrant comment automatiser et gérer les charges de travail avec les travaux et les pipelines Lakeflow. Pour compléter les choses, vous allez explorer les fonctionnalités de gouvernance et de sécurité telles que l’intégration de Unity Catalog et Purview, ce qui vous permet de travailler avec des données dans un environnement sécurisé, bien géré et prêt pour la production.

Profil d’audience

Avant de suivre ce cours, les apprenants doivent déjà être à l’aise avec les principes fondamentaux de Python et DE SQL. Cela inclut la possibilité d’écrire des scripts Python simples et d’utiliser des structures de données courantes, ainsi que l’écriture de requêtes SQL pour filtrer, joindre et agréger des données. Une compréhension de base des formats de fichiers courants tels que CSV, JSON ou Parquet vous aidera également à utiliser des jeux de données. En outre, la connaissance du portail Azure et des services principaux comme Stockage Azure est importante, ainsi qu’une connaissance générale des concepts de données tels que le traitement par lots et le traitement en continu et structurés par rapport aux données non structurées. Bien qu’il ne soit pas obligatoire, l’exposition antérieure aux frameworks Big Data comme Spark et l’expérience d’utilisation des notebooks Jupyter peuvent faciliter la transition vers Databricks.

Compétences acquises à l’achèvement

Syllabus

Vous pouvez vous préparer dans le cadre d'une formation dirigée par un instructeur ou d'une étude à votre rythme