Transformer des données en exécutant une activité Azure Databricks
L’activité Azure Databricks dans Data Factory pour Microsoft Fabric vous permet d’orchestrer les travaux Azure Databricks suivants :
- Notebook
- Jar
- Python
Cet article fournit une procédure pas à pas qui décrit comment créer une activité Azure Databricks à l’aide de l’interface Data Factory.
Prérequis
Pour commencer, vous devez remplir les conditions préalables suivantes :
- Un compte locataire avec un abonnement actif. Créez un compte gratuitement.
- Un espace de travail est créé.
Configurer une activité Azure Databricks
Pour utiliser une activité Azure Databricks dans un pipeline, procédez comme suit :
Configurer une connexion
Créez un pipeline dans votre espace de travail.
Cliquez sur Ajouter une activité de pipeline et recherchez Azure Databricks.
Vous pouvez également rechercher Azure Databricks dans le volet Activités du pipeline, puis sélectionnez-le pour l’ajouter au canevas du pipeline.
Sélectionnez la nouvelle activité Azure Databricks sur le canevas si elle n’est pas déjà sélectionnée.
Reportez-vous aux instructions relatives aux paramètres Général pour configurer l’onglet Paramètres Général .
Configurer des clusters
Sélectionnez l’onglet Cluster. Vous pouvez créer une connexion Azure Databricks ou choisir une connexion existante, puis choisir un nouveau cluster de travaux, un cluster interactif existant ou un pool d’instances existant.
Selon ce que vous choisissez pour le cluster, renseignez les champs correspondants comme indiqué.
- Sous le nouveau cluster de travaux et le pool d’instances existant, vous avez également la possibilité de configurer le nombre de workers et d’activer des instances spot.
Vous pouvez également spécifier des paramètres de cluster supplémentaires, tels que Stratégie de cluster, Configuration Spark, Variables d’environnement Spark et des étiquettes personnalisées, selon les exigences du cluster auquel vous vous connectez. Les scripts init Databricks et le chemin de destination du journal de cluster peuvent également être ajoutés sous les paramètres de cluster supplémentaires.
Remarque
Toutes les propriétés de cluster avancées et expressions dynamiques prises en charge dans le service lié Azure Databricks d’Azure Data Factory sont désormais également prises en charge dans l’activité Azure Databricks dans Microsoft Fabric, sous la section « Configuration de cluster supplémentaire » de l’interface utilisateur. Comme ces propriétés sont désormais incluses dans l’interface utilisateur d’activité, elles peuvent être facilement utilisées avec une expression (contenu dynamique) sans avoir besoin de la spécification JSON avancée dans le service lié Azure Databricks d’Azure Data Factory.
L’activité Azure Databricks prend désormais également en charge la prise en charge de la stratégie de cluster et du catalogue Unity.
- Sous paramètres avancés, vous avez la possibilité de choisir la stratégie de cluster afin de spécifier les configurations de cluster autorisées.
- En outre, sous paramètres avancés, vous avez la possibilité de configurer le mode d’accès au catalogue Unity pour renforcer la sécurité. Les types de mode d’accès disponibles sont les suivants :
- Mode d’accès utilisateur unique Ce mode est conçu pour les scénarios où chaque groupement est utilisé par un seul utilisateur. Il garantit que l’accès aux données au sein du groupement est limité uniquement à cet utilisateur. Ce mode est utile pour les tâches qui nécessitent une isolation et une gestion individuelle des données.
- Mode d’accès partagé : dans ce mode, plusieurs utilisateurs peuvent accéder au même groupement. Il combine la gouvernance des données du catalogue Unity avec les listes de contrôle d’accès aux tables héritées (ACL). Ce mode permet l’accès aux données collaboratives tout en conservant les protocoles de gouvernance et de sécurité. Toutefois, il présente certaines limitations, telles que la prise en charge de Databricks Runtime ML, des travaux Spark-submit et des API Spark spécifiques et des UDF.
- Aucun mode d’accès Ce mode désactive l’interaction avec le catalogue Unity, ce qui signifie que les clusters n’ont pas accès aux données gérées par Unity Catalog. Ce mode est utile pour les charges de travail qui ne nécessitent pas les fonctionnalités de gouvernance du catalogue Unity.
Configurer des paramètres
En sélectionnant l’onglet Paramètres, vous pouvez choisir entre 3 options de type Azure Databricks que vous souhaitez orchestrer.
Orchestrer le type notebook dans l’activité Azure Databricks :
Sous l’onglet Paramètres, vous pouvez choisir la case d’option Notebook pour exécuter un notebook. Vous devez spécifier le chemin d’accès du notebook à exécuter sur Azure Databricks, les paramètres de base facultatifs à transférer au notebook et les bibliothèques supplémentaires à installer sur le cluster afin d’exécuter le travail.
Orchestrer le type Jar dans l’activité Azure Databricks :
Sous l’onglet Paramètres, vous pouvez choisir la case d’option Jar pour exécuter un fichier Jar. Vous devez spécifier un nom de classe à exécuter sur Azure Databricks, les paramètres de base facultatifs à transférer au fichier Jar et les bibliothèques supplémentaires à installer sur le cluster afin d’exécuter le travail.
Orchestrer le type Python dans l’activité Azure Databricks :
Sous l’onglet Paramètres, vous pouvez choisir la case d’option Python pour exécuter un fichier Python. Vous devez spécifier le chemin d’accès dans Azure Databricks vers un fichier Python à exécuter, les paramètres de base facultatifs à transférer et les bibliothèques supplémentaires à installer sur le cluster afin d’exécuter le travail.
Bibliothèques prises en charge pour l’activité Azure Databricks
Dans la définition d’activité Databricks ci-dessus, vous pouvez préciser ces types de bibliothèques : jar, egg, whl, maven, pypi et cran.
Pour plus d’informations, consultez la documentation Databricks pour les types de bibliothèques.
Transférer des paramètres entre l’activité Azure Databricks et les pipelines
Vous pouvez transmettre les paramètres à des notebooks en utilisant la propriété baseParameters dans l'activité Databricks.
Dans certains cas, il peut être nécessaire de retransmettre certaines valeurs du notebook vers le service. Celles-ci peuvent être utilisées pour le flux de contrôle (vérifications conditionnelles) dans le service ou être consommées par les activités situées en aval (taille maximale autorisée : 2 Mo).
Dans votre notebook, par exemple, vous pouvez appeler dbutils.notebook.exit (« returnValue ») et la valeur « returnValue » correspondante sera renvoyée au service.
Vous pouvez utiliser la sortie dans le service en utilisant une expression telle que
@{activity('databricks activity name').output.runOutput}
.
Enregistrer et exécuter ou planifier le pipeline
Après avoir configuré toutes les autres activités requises pour votre pipeline, basculez vers l’onglet Accueil en haut de l’éditeur de pipeline et sélectionnez le bouton Enregistrer pour enregistrer votre pipeline. Sélectionnez Exécuter pour l'exécuter directement ou Planifier pour le planifier. Vous pouvez également afficher l'historique d'exécution ici ou configurer d'autres paramètres.