Transformer des données en exécutant un notebook Synapse

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, la business intelligence et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

L’activité du notebook Azure Synapse dans un pipeline exécute un notebook Synapse dans votre espace de travail Azure Synapse Analytics. Cet article s'appuie sur l'article Activités de transformation des données qui présente une vue d'ensemble de la transformation des données et les activités de transformation prises en charge.

Vous pouvez créer une activité de notebook Azure Synapse Analytics directement via l’interface utilisateur Azure Data Factory Studio. Pour obtenir une procédure pas à pas montrant comment créer une activité de notebook Synapse à l’aide de l’interface utilisateur, vous pouvez vous référer à ce qui suit.

Ajouter une activité Notebook pour Synapse à un pipeline avec l’interface utilisateur

Si vous souhaitez utiliser une activité Notebook pour Synapse dans un pipeline, procédez comme suit :

Paramètres généraux :

  1. Recherchez Notebook dans le volet Activités de pipeline, puis faites glisser une activité Notebook sous Synapse vers le canevas du pipeline.
  2. Sélectionnez l’activité Notebook sur le canevas si elle n’est pas déjà sélectionnée.
  3. Sous l’onglet Général, entrez sample en guise de Nom.
  4. (Facultatif) Vous pouvez également indiquer une description.
  5. Délai : durée maximale pendant laquelle une activité peut s’exécuter. La valeur par défaut est de 12 heures et la durée maximale autorisée est de 7 jours. Le format est J.HH:MM:SS.
  6. Réessayer : nombre maximal de nouvelles tentatives.
  7. Intervalle avant nouvelle tentative (sec) : nombre de secondes entre les nouvelles tentatives.
  8. Sortie sécurisée : quand cette option est cochée, la sortie de l’activité n’est pas capturée dans la journalisation.
  9. Entrée sécurisée : nombre de secondes entre chaque nouvelle tentative

Paramètres Azure Synapse Analytics (Artifacts)

Sélectionnez l’onglet Azure Synapse Analytics (artefacts) pour sélectionner ou créer un service lié Azure Synapse Analytics qui exécutera l’activité Notebook.

Capture d’écran de l’onglet service lié pour une activité notebook.

Onglet Paramètres

  1. Sélectionnez l’activité Synapse Notebook sur le canevas si elle n’est pas déjà sélectionnée.

  2. Sélectionnez l'onglet Paramètres.

  3. Développez la liste Notebook pour sélectionner un bloc-notes existant dans le Azure Synapse Analytics (Artifacts) lié.

  4. Cliquez sur le bouton Ouvrir pour ouvrir la page du service lié où se trouve le bloc-notes sélectionné.

Notes

Si l’ID de ressource d’espace de travail dans le service lié est vide, le bouton Ouvrir est désactivé.

Capture d’écran du bouton Ouvrir désactivé.

  1. Sélectionnez l’onglet Paramètres et choisissez le bloc-notes et les paramètres de base facultatifs à passer au bloc-notes.

    Capture d’écran de l’onglet Paramètres pour une activité Notebook.

  2. (Facultatif) Vous pouvez renseigner des informations pour le bloc-notes Synapse. Si les paramètres suivants sont vides, les paramètres de l'ordinateur portable Synapse lui-même seront utilisés pour l'exécution ; si les paramètres suivants ne sont pas vides, ces paramètres remplaceront les paramètres de l'ordinateur portable Synapse lui-même.

    Propriété Description
    Pool Spark Référence au pool Spark. Vous pouvez sélectionner un pool Apache Spark dans la liste.
    Taille de l’exécuteur Nombre de cœurs et mémoire à utiliser pour les exécuteurs alloués dans le pool Apache Spark spécifié pour la session. Pour le contenu dynamique, les valeurs valides sont Small/Medium/Large/XLarge/XXLarge.
    Allouer dynamiquement des exécuteurs Ce paramètre correspond à la propriété d’allocation dynamique dans la configuration Spark pour allouer des exécuteurs d’application Spark.
    Nombre minimal d’exécuteurs Nombre minimal d'exécuteurs à allouer dans le pool Spark spécifié pour le travail.
    Nombre maximal d’exécuteurs Nombre maximal d'exécuteurs à allouer dans le pool Spark spécifié pour le travail.
    Taille du pilote Nombre de cœurs et mémoire à utiliser pour le pilote dans le pool Apache Spark spécifié du travail.

Définition de l’activité du notebook Azure Synapse Analytics

Voici l’exemple de définition JSON d’une activité de notebook Azure Synapse Analytics :

{
    "activities": [
            {
                "name": "demo",
                "description": "description",
                "type": "SynapseNotebook",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "userProperties": [
                    {
                        "name": "testproperties",
                        "value": "test123"
                    }
                ],
                "typeProperties": {
                    "notebook": {
                        "referenceName": {
                            "value": "Notebookname",
                            "type": "Expression"
                        },
                        "type": "NotebookReference"
                    },
                    "parameters": {
                        "test": {
                            "value": "testvalue",
                            "type": "string"
                        }
                    },
                    "snapshot": true,
                    "sparkPool": {
                        "referenceName": {
                            "value": "SampleSpark",
                            "type": "Expression"
                        },
                        "type": "BigDataPoolReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ]
    }

Propriétés de l’activité du notebook Azure Synapse Analytics

Le tableau suivant décrit les propriétés JSON utilisées dans la définition JSON :

Propriété Description Obligatoire
name Nom de l'activité dans le pipeline. Oui
description Texte décrivant l’activité. Non
type Pour Azure Synapse Activité du bloc-notes Analytics, le type d’activité est SynapseNotebook. Yes
notebook Nom du notebook à exécuter dans le Azure Synapse Analytics. Oui
sparkPool Pool Spark requis pour exécuter Azure Synapse Notebook Analytics. Non
paramètre Paramètre requis pour exécuter Azure Synapse Notebook Analytics. Pour plus d’informations, consultez Transformer des données en exécutant un notebook Synapse Non

Désigner une cellule de paramètres

Azure Data Factory recherche la cellule de paramètre et la traite comme cellule par défaut pour les paramètres transmis au moment de l’exécution. Le moteur d’exécution ajoutera une nouvelle cellule sous la cellule des paramètres avec des paramètres d’entrée en vue de remplacer les valeurs par défaut. Vous pouvez faire référence à Transformer des données en exécutant un notebook Synapse.

Lire la valeur de sortie de la cellule du bloc-notes Synapse

Vous pouvez lire la valeur de sortie de cellule de notebook dans l’activité. Pour ce volet, vous pouvez faire référence à Transformer des données en exécutant un notebook Synapse.

Exécuter un autre bloc-notes Synapse

Vous pouvez référencer d’autres bloc-notes dans une activité de bloc-notes Synapse en appelant %run magic ou les utilitaires de bloc-notes mssparkutils. Les deux prennent en charge l’imbrication des appels de fonction. Les principales différences entre ces deux méthodes que vous devez prendre en compte en fonction de votre scénario sont les suivantes :

  • %run magic copie toutes les cellules du bloc-notes référencé dans la cellule %run et partage le contexte de la variable. Lorsque notebook1 fait référence notebook2 via %run notebook2 et que notebook2 appelle une fonction mssparkutils.notebook.exit, l’exécution de la cellule dans notebook1 cesse. Nous vous recommandons d’utiliser %run magic quand vous souhaitez « inclure » un fichier de bloc-notes.
  • Les utilitaires de bloc-notes mssparkutils appellent le bloc-notes référencé comme une méthode ou une fonction. Le contexte de la variable n’est pas partagé. Lorsque notebook1 fait référence notebook2 via mssparkutils.notebook.run("notebook2") et que notebook2 appelle une fonction mssparkutils.notebook.exit, l’exécution de la cellule dans notebook1 se poursuit. Nous vous recommandons d’utiliser les utilitaires de bloc-notes mssparkutils lorsque vous souhaitez « importer » un bloc-notes.

Consultez l’historique des exécutions des notebooks Azure Synapse Analytics

Consultez Exécutions de pipeline sous l’onglet Surveillance, vous visualiserez le pipeline que vous avez déclenché. Ouvrez le pipeline qui contient l’activité du bloc-notes pour afficher l’historique des exécutions.

Capture d’écran de l’entrée et de la sortie d’une activité notebook.

Pour l’instantané d’ouverture de notebook, cette fonctionnalité n’est pas prise en charge actuellement.

Vous pouvez visualiser les entrées ou les sorties de l’activité du bloc-notes en sélectionnant le bouton entrées ou sorties. Si votre pipeline échoue avec une erreur utilisateur, sélectionnez les sorties pour vérifier le champs résultats et visualiser le traceback détaillé des erreurs de l’utilisateur.

Capture d’écran de l’erreur utilisateur de sortie pour une activité notebook.