Exercice - Utiliser des transformations de calcul dans Azure Data Factory

Effectué

Dans certains cas, la transformation sans code à grande échelle ne répond pas à vos besoins. Vous pouvez utiliser Azure Data Factory pour ingérer les données brutes collectées à partir de différentes sources et travailler avec une variété de ressources de calcul comme Azure Databricks ou Azure HDInsight pour les restructurer selon vos besoins.

ADF et Azure Databricks

Par exemple, l’intégration d’Azure Databricks à ADF vous permet d’ajouter des notebooks Databricks au sein d’un pipeline ADF pour tirer parti des fonctionnalités analytiques et de transformation des données de Databricks. Vous pouvez ajouter un notebook au sein de votre workflow de données pour structurer et transformer des données brutes chargées dans ADF à partir de différentes sources. Une fois que les données sont transformées à l’aide de Databricks, vous pouvez les charger dans n’importe quelle source d’entrepôt de données.

L’ingestion et la transformation des données à l’aide des fonctionnalités collectives d’ADF et d’Azure Databricks impliquent essentiellement les étapes suivantes :

  1. Créer un compte de stockage Azure : la première étape consiste à créer un compte de stockage Azure pour stocker vos données ingérées et transformées.

  2. Créer une fabrique Azure Data Factory : une fois le compte de stockage configuré, vous devez créer votre fabrique Azure Data Factory à l’aide du portail Azure.

  3. Créer le pipeline de workflow de données : une fois le stockage et ADF opérationnels, commencez par créer un pipeline, où la première étape consiste à copier des données à partir de votre source à l’aide de l’activité de copie d’ADF. L’activité de copie vous permet de copier des données de différentes sources cloud et locales.

  4. Ajouter un notebook Databricks au pipeline : une fois que vos données sont copiées dans ADF, vous ajoutez votre notebook Databricks au pipeline, après l’activité de copie. Ce notebook peut contenir de la syntaxe et du code pour transformer et nettoyer des données brutes en fonction des besoins.

  5. Effectuer une analyse sur les données : maintenant que vos données sont nettoyées et structurées dans le format requis, vous pouvez utiliser des notebooks Databricks pour les entraîner ou les analyser davantage afin de générer les résultats voulus.

Vous avez découvert Azure Data Factory et comment son intégration à Azure Databricks peut vous aider à charger et transformer vos données. Nous allons à présent créer un exemple de workflow de données de bout en bout.

Intégration de notebooks Azure Databricks à un pipeline Azure Data Factory

L’intégration de notebooks Azure Databricks à un pipeline Azure Data Factory implique un certain nombre de tâches :

  1. Générer un jeton d’accès Databricks

  2. Générer un notebook Databricks

  3. Créer des services liés

  4. Créer un pipeline qui utilise l’activité de notebook Databricks

  5. Déclencher une exécution du pipeline

    Notes

    Les étapes suivantes supposent qu’il existe déjà un cluster Azure Databricks provisionné

Tâche 1 : Générer un jeton d’accès Databricks

  1. Dans le portail Azure, cliquez sur Groupes de ressources. Cliquez ensuite sur awrgstudxx, puis sur awdbwsstudxx, xx correspondant à vos initiales.

  2. Cliquez sur Lancer l’espace de travail.

  3. Cliquez sur les Paramètres utilisateur dans le coin inférieur gauche de votre espace de travail Databricks.

  4. Cliquez sur Paramètres utilisateur.

  5. Accédez à l’onglet jetons d’accès, puis cliquez sur le bouton Générer un nouveau jeton.

  6. Dans la zone Commentaire, entrez la description « Pour l’intégration ADF ». Spécifiez une période de 10 jours sous Durée de vie, puis cliquez sur Générer.

  7. Copiez le jeton généré et collez-le dans le bloc-notes, puis cliquez sur Terminé.

Tâche 2 : Générer un notebook Databricks

  1. Sur la gauche de l’écran, cliquez sur l’icône Espace de travail, puis cliquez sur la flèche en regard du mot Espace de travail. Cliquez sur Créer, puis sur Dossier. Nommez le dossier adftutorial, puis cliquez sur Créer un dossier. Le dossier adftutorial s’affiche dans l’espace de travail.

  2. Cliquez sur la flèche déroulante vers le bas en regard de adftutorial. Cliquez sur Créer, puis sur Notebook.

  3. Dans la boîte de dialogue Créer un notebook, tapez le nom mynotebook, vérifiez que le langage spécifié est Python, puis cliquez sur Créer. Le notebook avec le titre mynotebook apparaît.

  4. Dans l’instance Notebook récemment créée, mynotebook, ajoutez le code suivant :

    # Creating widgets for leveraging parameters, and printing the parameters
    
    dbutils.widgets.text("input", "","")
    dbutils.widgets.get("input")
    y = getArgument("input")
    print ("Param -\'input':")
    print (y)
    

    Notes

    Notez que le chemin du notebook est /adftutorial/mynotebook.

Tâche 3 : Créer des services liés

  1. Dans Microsoft Edge, cliquez sur l’onglet du portail dans le portail Azure, puis revenez à Azure Data Factory et cliquez sur Ouvrir Azure Data Factory Studio.

  2. Sur le côté gauche de l’écran, cliquez sur l’icône Gérer.

  3. Sous Connexions, cliquez sur Services liés.

  4. Dans le Service lié, en haut de l’écran, cliquez sur + Nouveau,

  5. Cliquez sur l’onglet Calcul, cliquez sur Azure Databricks, puis sur Continuer.

  6. Dans l’écran Nouveau service lié (Azure Databricks), entrez les informations suivantes et cliquez sur Terminer.

    • Nom : xx_dbls, xx correspondant à vos initiales
    • Espace de travail Databricks : awdbwsstudxx, xx correspondant à vos initiales
    • Sélectionner un cluster : Utiliser le cluster existant
    • Domaine/région : À renseigner
    • Jeton d’accès : Copiez le jeton d’accès dans le bloc-notes et collez-le dans ce champ
    • Choisissez un des clusters existants : awdbclstudxx, xx correspondant à vos initiales
    • Conservez les paramètres par défaut pour les autres options.

    Remarque

    Quand vous cliquez sur Terminer, vous revenez à l’écran Créer et superviser où le service xx_dbls a été créé. Vous y voyez les autres services liés créés à l’exercice précédent.

Tâche 4 : Créer un pipeline qui utilise l’activité de notebook Databricks

  1. Sur le côté gauche de l’écran, cliquez sur l’icône Auteur, puis sur Pipeline. Un onglet avec un concepteur de pipeline s’ouvre.

  2. En bas du concepteur de pipeline, cliquez sur l’onglet des paramètres, puis cliquez sur + Nouveau.

  3. Créez un paramètre avec le nom name, de type string.

  4. Dans le menu Activités, développez Databricks.

  5. Faites glisser Notebook sur le canevas.

  6. Dans les propriétés de la fenêtre Notebook1 en bas, effectuez les tâches suivantes :

    • Basculez vers l’onglet Azure Databricks.

    • Sélectionnez le service xx_dbls que vous avez créée dans le cadre de la procédure précédente.

    • Basculez vers l’onglet Paramètres et spécifiez /adftutorial/mynotebook dans le chemin du notebook.

    • Développez Paramètres de base, puis cliquez sur + Nouveau.

    • Créez un paramètre ayant le nom input et la valeur @pipeline().parameters.name

  7. Dans Notebook1, cliquez sur Valider en regard du bouton Enregistrer comme modèle. Une fenêtre s’affiche à droite de l’écran avec le message « Votre pipeline a été validé. Aucune erreur ». Cliquez sur >> pour fermer la fenêtre.

  8. Cliquez sur Tout publier pour publier le service lié et le pipeline.

    Notes

    Un message s’affiche, indiquant que le déploiement a réussi.

Tâche 5 : Déclencher une exécution du pipeline

  1. Dans le Notebook1, cliquez sur Ajouter un déclencheur, puis cliquez sur Déclencher maintenant en regard du bouton Déboguer.

  2. La boîte de dialogue Exécution du pipeline invite à saisir le paramètre name. Utilisez ici /path/filename comme paramètre. Cliquez sur Finish. Un cercle rouge s’affiche au-dessus de l’activité Notebook1 dans le canevas.

Tâche 6 : Superviser le pipeline

  1. Sur le côté gauche de l’écran, cliquez sur l’onglet Surveillance. Vérifiez que le pipeline s’exécute. Il faut compter environ 5 à 8 minutes pour créer un cluster de travaux Databricks, où s’exécute l’instance Notebook.

  2. Cliquez régulièrement sur Actualiser pour vérifier l’état de l’exécution des pipelines.

  3. Pour voir les exécutions d’activités associées à l’exécution du pipeline, cliquez sur le lien Afficher les exécutions d’activités dans la colonne Actions.

Tâche 7 : Vérifier la sortie

  1. Dans Microsoft Edge, cliquez sur l’onglet mynotebook - Databricks.

  2. Dans l’espace de travail Azure Databricks, cliquez sur Clusters. Vous pouvez voir l’état du travail : en attente d’exécution, en cours d’exécution ou terminé.

  3. Cliquez sur le cluster awdbclstudxx, puis cliquez sur Journal des événements pour voir les activités.

    Notes

    Vous devez voir Démarrage sous Type d’événement ainsi que l’heure à laquelle vous avez déclenché l’exécution du pipeline.