Implémenter l’analyse et le traitement de données avec Jobs

Article
04/24/2024

Vous pouvez utiliser un travail Azure Databricks pour orchestrer vos pipelines de traitement de données, de Machine Learning ou d’analytique des données sur la plateforme Databricks. Azure Databricks Jobs prend en charge un certain nombre de types de charges de travail, incluant les notebooks, les scripts, les pipelines Delta Live Tables, les requêtes Databricks SQL et les projets dbt. Les articles suivants vous guident dans l’utilisation des fonctionnalités et des options des travaux Azure Databricks pour implémenter des pipelines de données.

Transformer, analyser et visualiser vos données avec un travail Azure Databricks

Vous pouvez utiliser un travail pour créer un pipeline de données qui ingère, transforme, analyse et visualise les données. L’exemple dans Utiliser Databricks SQL dans un travail Azure Databricks génère un pipeline qui :

Utilise un script Python pour extraire des données à l’aide d’une API REST.
Utilise delta Live Tables pour ingérer et transformer les données extraites et enregistrer les données transformées dans Delta Lake.
Utilise l’intégration de Jobs à Databricks SQL pour analyser les données transformées et créer des graphiques pour visualiser les résultats.

Utiliser des transformations dbt dans un travail

Utilisez le type de tâche dbt si vous effectuez une transformation de données avec un projet dbt core et souhaitez intégrer ce projet dans un travail Azure Databricks, ou si vous souhaitez créer de nouvelles transformations dbt et exécuter ces transformations dans un travail. Consultez Utiliser des transformations dbt dans un travail Azure Databricks.

Utiliser un package Python dans un travail

Les fichiers Python wheel sont un moyen standard d’empaqueter et de distribuer les fichiers nécessaires à l’exécution d’une application Python. Vous pouvez facilement créer une tâche qui utilise du code Python empaqueté comme un fichier Python wheel avec le type de tâche Python wheel. Consultez Utiliser un fichier wheel Python dans une tâche Azure Databricks.

Utiliser du code empaqueté dans un fichier JAR

Les bibliothèques et applications implémentées dans un langage JVM, comme Java et Scala, sont généralement empaquetées dans un fichier d’archive Java (JAR). Azure Databricks Jobs prend en charge le code empaqueté dans un fichier JAR avec le type de tâche JAR. Consultez Utiliser un fichier JAR dans un travail Azure Databricks.

Utiliser des notebooks ou du code Python gérés dans un référentiel central

Un moyen courant de piloter la gestion de version et la collaboration pour les artefacts de production consiste à utiliser un référentiel central tel que GitHub. Azure Databricks Jobs prend en charge la création et l’exécution de tâches à l’aide de notebooks ou de code Python importé à partir d’un référentiel, y compris GitHub ou les dossiers Git de Databricks. Consultez Utiliser du code source à version contrôlée dans un travail Azure Databricks.

Orchestrer vos travaux avec Apache Airflow

Databricks recommande d’utiliser Azure Databricks Jobs pour orchestrer vos flux de travail. Toutefois, Apache Airflow est couramment utilisé comme système d’orchestration de flux de travail et offre une prise en charge native d’Azure Databricks Jobs. Si Azure Databricks Jobs fournit une interface utilisateur visuelle pour créer vos flux de travail, Airflow utilise des fichiers Python pour définir et déployer vos pipelines de données. Pour voir un exemple de création et d’exécution d’un travail avec Airflow, consultez Orchestrer des travaux Azure Databricks avec Apache Airflow.

Exécuter un travail à l’aide d’un principal de service

Vous pouvez exécuter vos travaux en tant que compte de service à l’aide d’une application et d’un principal de service Microsoft Entra ID (anciennement Azure Active Directory). L'exécution d'une tâche en tant que compte de service au lieu d'un utilisateur individuel vous permet de contrôler l'accès à la tâche, de vous assurer que cette dernière dispose des autorisations nécessaires et d'éviter des problèmes si un propriétaire de tâche est supprimé d'un espace de travail. Pour obtenir un tutoriel sur la création et l’utilisation d’un principal de service pour exécuter une tâche Azure Databricks, consultez Exécuter une tâche avec un principal de service Microsoft Entra ID.