Partager via


Exécuter une instance Databricks Notebook avec l’activité Databricks Notebook dans Azure Data Factory

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

Dans ce tutoriel, vous allez utiliser le portail Azure pour créer un pipeline Azure Data Factory qui exécute une instance Databricks Notebook sur le cluster de travaux Databricks. Il transmet également les paramètres Azure Data Factory à l’instance Databricks Notebook pendant l’exécution.

Dans ce tutoriel, vous allez effectuer les étapes suivantes :

  • Créer une fabrique de données.

  • Créer un pipeline qui utilise l’activité Databricks Notebook.

  • Déclencher une exécution du pipeline.

  • Surveiller l’exécution du pipeline.

Si vous n’avez pas d’abonnement Azure, créez un compte gratuit avant de commencer.

Pour une présentation de onze minutes et la démonstration de cette fonctionnalité, regardez la vidéo suivante :

Prérequis

  • Espace de travail Azure Databricks. Créez un espace de travail Databricks ou utilisez-en un existant. Créez une instance Python Notebook dans votre espace de travail Azure Databricks. Exécutez ensuite l’instance Notebook et transmettez-lui les paramètres via Azure Data Factory.

Créer une fabrique de données

  1. Lancez le navigateur web Microsoft Edge ou Google Chrome. L’interface utilisateur de Data Factory n’est actuellement prise en charge que par les navigateurs web Microsoft Edge et Google Chrome.

  2. Dans le menu du portail Azure, sélectionnez Créer une ressource, Intégration, puis Data Factory.

    Capture d’écran montrant la sélection de Data Factory dans le volet Nouveau.

  3. Dans la page Créer une fabrique de données, sous l’onglet De base, sélectionnez l’Abonnement Azure dans lequel vous voulez créer la fabrique de données.

  4. Pour Groupe de ressources, réalisez l’une des opérations suivantes :

    1. Sélectionnez un groupe de ressources existant dans la liste déroulante.

    2. Sélectionnez Créer, puis entrez le nom d’un nouveau groupe de ressources.

    Pour plus d’informations sur les groupes de ressources, consultez Utilisation des groupes de ressources pour gérer vos ressources Azure.

  5. Pour Région, sélectionnez l’emplacement de la fabrique de données.

    La liste n’affiche que les emplacements pris en charge par Data Factory et où vos métadonnées Azure Data Factory sont stockées. Les magasins de données associés (tels que Stockage Azure et Azure SQL Database) et les services de calcul (comme Azure HDInsight) utilisés par Data Factory peuvent s’exécuter dans d’autres régions.

  6. Pour Nom, entrez ADFTutorialDataFactory.

    Le nom de la fabrique de données Azure doit être un nom global unique. Si l’erreur suivante s’affiche, changez le nom de la fabrique de données (par exemple, utilisez <votrenom>ADFTutorialDataFactory). Consultez l’article Data Factory - Règles d’affectation des noms pour en savoir plus sur les règles d’affectation des noms d’artefacts Data Factory.

    Capture d’écran montrant l’erreur qui se produit quand un nom n’est pas disponible.

  7. Pour Version, sélectionnez V2.

  8. Sélectionnez Suivant : Configuration Git, puis cochez la case Configurer Git plus tard.

  9. Sélectionnez Vérifier + créer, puis sélectionnez Créer une fois la validation passée.

  10. Une fois la ressource créée, sélectionnez Accéder à la ressource pour ouvrir la page Data Factory. Sélectionnez la vignette Ouvrir Azure Data Factory Studio pour démarrer l’interface utilisateur d’Azure Data Factory sous un onglet de navigateur distinct.

    Capture d’écran montrant la page d’accueil d’Azure Data Factory, avec la vignette Ouvrir Azure Data Factory Studio.

Créez des services liés

Dans cette section, vous allez créer un service Databricks lié. Ce service lié contient les informations de connexion au cluster Databricks :

Créer un service Azure Databricks lié

  1. Dans la page d’accueil, basculez vers l’onglet Gérer dans le volet gauche.

    Capture d’écran montrant l’onglet Gérer.

  2. Sélectionnez Services liés sous Connexions, puis + Nouveau.

    Capture d’écran montrant comment créer une connexion.

  3. Dans la fenêtre Nouveau service lié, sélectionnez Calcul>Azure Databricks, puis Continuer.

    Capture d’écran montrant comment spécifier un service lié Databricks.

  4. Dans la fenêtre Nouveau service lié, effectuez les étapes suivantes :

    1. Dans Nom, entrez AzureDatabricks_LinkedService.

    2. Sélectionnez l’espace de travail Databricks approprié dans lequel vous exécuterez votre notebook.

    3. Dans Sélectionner un cluster, sélectionnez Nouveau cluster de travail.

    4. Dans URL de l’espace de travail Databrick, les informations doivent être renseignées automatiquement.

    5. Pour Type d’authentification, si vous sélectionnez Jeton d’accès, générez-le à partir de l’espace de travail Azure Databricks. Vous trouverez la procédure ici. Pour Identité MSI (Managed Service Identity) et Identité managée affectée par l’utilisateur, accordez le rôle Contributeur aux deux identités dans le menu Contrôle d’accès de la ressource Azure Databricks.

    6. Pour Version de cluster, sélectionnez la version que vous souhaitez utiliser.

    7. Dans Cluster node type (Type de nœud de cluster), sélectionnez Standard_D3_v2 sous la catégorie General Purpose (HDD) (Usage général (HDD)) pour ce didacticiel.

    8. Dans Rôles de travail, entrez 2.

    9. Sélectionnez Create (Créer).

      Capture d’écran montrant la configuration du nouveau service lié Azure Databricks.

Créer un pipeline

  1. Cliquez sur le bouton + (plus), puis sélectionnez Pipeline dans le menu.

    Capture d’écran montrant les boutons permettant de créer un pipeline.

  2. Créez un paramètre à utiliser dans le pipeline. Vous pourrez ensuite le transmettre à l’activité Databricks Notebook. Dans le pipeline vide, sélectionnez l’onglet Paramètres, puis sélectionnez + Nouveau et entrez « name » comme nom.

    Capture d’écran montrant comment créer un paramètre.

    Capture d’écran montrant comment créer le paramètre name.

  3. Dans la boîte à outils Activités, étendez Databricks. Faites glisser l’activité Notebook depuis la boîte à outils Activités vers la surface du concepteur de pipeline.

    Capture d’écran montrant comment faire glisser le notebook vers la surface du concepteur.

  4. Dans les propriété de l’activité DatabricksNotebook, au bas de la fenêtre, procédez comme suit :

    1. Basculez vers l’onglet Azure Databricks.

    2. Sélectionnez AzureDatabricks_LinkedService (créé lors de la procédure précédente).

    3. Basculez vers l’onglet Paramètres .

    4. Parcourez pour sélectionner un chemin d’accès à Notebook Databricks. Créez une instance Notebook et spécifiez le chemin d’accès ici. Vous obtenez le chemin d’accès de l’instance Notebook en procédant comme suit.

      1. Lancez votre espace de travail Azure Databricks.

      2. Créez un nouveau dossier dans l’espace de travail et nommez-le adftutorial.

        Capture d’écran montrant comment créer un dossier.

      3. Capture d’écran montrant comment créer un notebook. Créez un notebook (Python) nommé mynotebook dans le dossier adftutorial. Cliquez sur Créer.

        Capture d’écran montrant comment créer un notebook.

        Capture d’écran montrant comment définir les propriétés du nouveau notebook.

      4. Dans l’instance Notebook récemment créée, mynotebook, ajoutez le code suivant :

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        

        Capture d’écran montrant comment créer des widgets pour des paramètres.

      5. Le chemin du notebook dans ce cas est /adftutorial/mynotebook.

  5. Revenez à la l’outil de création de l’interface utilisateur de la fabrique de données. Accédez à l’onglet Paramètres sous l’activité Notebook1.

    a. Ajoutez un paramètre à l’activité Notebook. Utilisez le même paramètre que celui ajouté précédemment au pipeline.

    Capture d’écran montrant comment ajouter un paramètre.

    b. Nommez le paramètre input et indiquez la valeur sous la forme de l’expression @pipeline().parameters.name.

  6. Pour valider le pipeline, cliquez sur le bouton Valider dans la barre d’outils. Pour fermer la fenêtre de validation, sélectionnez le bouton Fermer.

    Capture d’écran montrant comment valider le pipeline.

  7. Sélectionnez Tout publier. L’interface utilisateur de Data Factory publie des entités (services liés et pipelines) sur le service Azure Data Factory.

    Capture d’écran montrant comment publier les nouvelles entités Data Factory.

Déclencher une exécution du pipeline

Sélectionnez Ajouter un déclencheur dans la barre d’outils, puis Déclencher maintenant.

Capture d’écran montrant comment sélectionner la commande « Déclencher maintenant ».

La boîte de dialogue Exécution de pipeline invite à saisir le paramètre name. Utilisez ici /path/filename comme paramètre. Sélectionnez OK.

Capture d’écran montrant comment fournir une valeur pour les paramètres name.

Surveiller l’exécution du pipeline.

  1. Basculez vers l’onglet Surveiller. Vérifiez qu’un pipeline est exécuté. Il faut compter environ 5 à 8 minutes pour créer un cluster de travaux Databricks, où s’exécute l’instance Notebook.

    Capture d’écran montrant comment superviser le pipeline.

  2. Cliquez régulièrement sur Actualiser pour vérifier l’état de l’exécution des pipelines.

  3. Pour voir les exécutions d’activités associées à l’exécution du pipeline, sélectionnez le lien pipeline1 sous la colonne Nom du pipeline.

  4. Dans la page Exécutions de l’activité, sélectionnez Sortie dans la colonne Nom de l’activité pour afficher la sortie de chaque activité ; le lien vers les journaux Databricks dans le volet Sortie vous donne accès à des journaux Spark plus détaillés.

  5. Vous pouvez revenir à l’affichage des exécutions de pipeline en sélectionnant le lien Toutes les exécutions de pipeline dans le menu de navigation en haut.

Vérifier la sortie

Vous pouvez vous connecter à l’espace de travail Azure Databricks, accéder à Clusters et voir le statut du Travail : en attente d’exécution, en cours d’exécution ou terminé.

Capture d’écran montrant comment afficher le cluster de travail et le travail.

Vous pouvez cliquer sur le nom du travail et naviguer pour afficher plus de détails. Une fois l’exécution réussie, vous pouvez valider les paramètres transmis et la sortie de l’instance Notebook Python.

Capture d’écran montrant comment afficher les détails et la sortie de l’exécution.

Le pipeline dans cet exemple déclenche une activité Databricks Notebook et lui transmet un paramètre. Vous avez appris à :

  • Créer une fabrique de données.

  • Créer un pipeline qui utilise l’activité Databricks Notebook.

  • Déclencher une exécution du pipeline.

  • Surveiller l’exécution du pipeline.