Transformer des données en exécutant un notebook Synapse

2024-10-03

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

L’activité du notebook Azure Synapse dans un pipeline exécute un notebook Synapse dans votre espace de travail Azure Synapse Analytics. Cet article s'appuie sur l'article Activités de transformation des données qui présente une vue d'ensemble de la transformation des données et les activités de transformation prises en charge.

Vous pouvez créer une activité de notebook Azure Synapse Analytics directement via l’interface utilisateur Azure Data Factory Studio. Pour obtenir une procédure pas à pas montrant comment créer une activité de notebook Synapse à l’aide de l’interface utilisateur, vous pouvez vous référer à ce qui suit.

Ajouter une activité Notebook pour Synapse à un pipeline avec l’interface utilisateur

Si vous souhaitez utiliser une activité Notebook pour Synapse dans un pipeline, procédez comme suit :

Paramètres généraux :

Recherchez Notebook dans le volet Activités de pipeline, puis faites glisser une activité Notebook sous Synapse vers le canevas du pipeline.
Sélectionnez l’activité Notebook sur le canevas si elle n’est pas déjà sélectionnée.
Sous l’onglet Général, entrez sample en guise de Nom.
(Facultatif) Vous pouvez également indiquer une description.
Délai : durée maximale pendant laquelle une activité peut s’exécuter. La valeur par défaut est de 12 heures et la durée maximale autorisée est de 7 jours. Le format est J.HH:MM:SS.
Réessayer : nombre maximal de nouvelles tentatives.
Intervalle avant nouvelle tentative (sec) : nombre de secondes entre les nouvelles tentatives.
Sortie sécurisée : quand cette option est cochée, la sortie de l’activité n’est pas capturée dans la journalisation.
Entrée sécurisée : quand cette option est cochée, l’entrée de l’activité n’est pas capturée dans la journalisation.

Paramètres Azure Synapse Analytics (Artifacts)

Sélectionnez l’onglet Azure Synapse Analytics (artefacts) pour sélectionner ou créer un service lié Azure Synapse Analytics qui exécutera l’activité Notebook.

Onglet Paramètres

Sélectionnez l’activité Synapse Notebook sur le canevas si elle n’est pas déjà sélectionnée.
Sélectionnez l'onglet Paramètres.
Développez la liste Notebook pour sélectionner un bloc-notes existant dans le Azure Synapse Analytics (Artifacts) lié.
Cliquez sur le bouton Ouvrir pour ouvrir la page du service lié où se trouve le bloc-notes sélectionné.

Notes

Si l’ID de ressource d’espace de travail dans le service lié est vide, le bouton Ouvrir est désactivé.

Sélectionnez l’onglet Paramètres et choisissez le bloc-notes et les paramètres de base facultatifs à passer au bloc-notes.

(Facultatif) Vous pouvez renseigner des informations pour le bloc-notes Synapse. Si les paramètres suivants sont vides, les paramètres de l'ordinateur portable Synapse lui-même seront utilisés pour l'exécution ; si les paramètres suivants ne sont pas vides, ces paramètres remplaceront les paramètres de l'ordinateur portable Synapse lui-même.

Propriété	Description
Pool Spark	Référence au pool Spark. Vous pouvez sélectionner un pool Apache Spark dans la liste.
Taille de l’exécuteur	Nombre de cœurs et mémoire à utiliser pour les exécuteurs alloués dans le pool Apache Spark spécifié pour la session. Pour le contenu dynamique, les valeurs valides sont Small/Medium/Large/XLarge/XXLarge.
Allouer dynamiquement des exécuteurs	Ce paramètre correspond à la propriété d’allocation dynamique dans la configuration Spark pour allouer des exécuteurs d’application Spark.
Nombre minimal d’exécuteurs	Nombre minimal d'exécuteurs à allouer dans le pool Spark spécifié pour le travail.
Nombre maximal d’exécuteurs	Nombre maximal d'exécuteurs à allouer dans le pool Spark spécifié pour le travail.
Taille du pilote	Nombre de cœurs et mémoire à utiliser pour le pilote dans le pool Apache Spark spécifié du travail.

Définition de l’activité du notebook Azure Synapse Analytics

Voici l’exemple de définition JSON d’une activité de notebook Azure Synapse Analytics :

{
    "activities": [
            {
                "name": "demo",
                "description": "description",
                "type": "SynapseNotebook",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "userProperties": [
                    {
                        "name": "testproperties",
                        "value": "test123"
                    }
                ],
                "typeProperties": {
                    "notebook": {
                        "referenceName": {
                            "value": "Notebookname",
                            "type": "Expression"
                        },
                        "type": "NotebookReference"
                    },
                    "parameters": {
                        "test": {
                            "value": "testvalue",
                            "type": "string"
                        }
                    },
                    "snapshot": true,
                    "sparkPool": {
                        "referenceName": {
                            "value": "SampleSpark",
                            "type": "Expression"
                        },
                        "type": "BigDataPoolReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ]
    }

Propriétés de l’activité du notebook Azure Synapse Analytics

Le tableau suivant décrit les propriétés JSON utilisées dans la définition JSON :

Propriété	Description	Obligatoire
name	Nom de l'activité dans le pipeline.	Oui
description	Texte décrivant l’activité.	Non
type	Pour Azure Synapse Activité du bloc-notes Analytics, le type d’activité est SynapseNotebook.	Yes
notebook	Nom du notebook à exécuter dans le Azure Synapse Analytics.	Oui
sparkPool	Pool Spark requis pour exécuter Azure Synapse Notebook Analytics.	Non
paramètre	Paramètre requis pour exécuter Azure Synapse Notebook Analytics. Pour plus d’informations, consultez Transformer des données en exécutant un notebook Synapse	Non

Désigner une cellule de paramètres

Azure Data Factory recherche la cellule de paramètre et la traite comme cellule par défaut pour les paramètres transmis au moment de l’exécution. Le moteur d’exécution ajoutera une nouvelle cellule sous la cellule des paramètres avec des paramètres d’entrée en vue de remplacer les valeurs par défaut. Vous pouvez faire référence à Transformer des données en exécutant un notebook Synapse.

Lire la valeur de sortie de la cellule du bloc-notes Synapse

Vous pouvez lire la valeur de sortie de cellule de notebook dans l’activité. Pour ce volet, vous pouvez faire référence à Transformer des données en exécutant un notebook Synapse.

Exécuter un autre bloc-notes Synapse

Vous pouvez référencer d’autres bloc-notes dans une activité de bloc-notes Synapse en appelant %run magic ou les utilitaires de bloc-notes mssparkutils. Les deux prennent en charge l’imbrication des appels de fonction. Les principales différences entre ces deux méthodes que vous devez prendre en compte en fonction de votre scénario sont les suivantes :

%run magic copie toutes les cellules du bloc-notes référencé dans la cellule %run et partage le contexte de la variable. Lorsque notebook1 fait référence notebook2 via %run notebook2 et que notebook2 appelle une fonction mssparkutils.notebook.exit, l’exécution de la cellule dans notebook1 cesse. Nous vous recommandons d’utiliser %run magic quand vous souhaitez « inclure » un fichier de bloc-notes.
Les utilitaires de bloc-notes mssparkutils appellent le bloc-notes référencé comme une méthode ou une fonction. Le contexte de la variable n’est pas partagé. Lorsque notebook1 fait référence notebook2 via mssparkutils.notebook.run("notebook2") et que notebook2 appelle une fonction mssparkutils.notebook.exit, l’exécution de la cellule dans notebook1 se poursuit. Nous vous recommandons d’utiliser les utilitaires de bloc-notes mssparkutils lorsque vous souhaitez « importer » un bloc-notes.

Consultez l’historique des exécutions des notebooks Azure Synapse Analytics

Consultez Exécutions de pipeline sous l’onglet Surveillance, vous visualiserez le pipeline que vous avez déclenché. Ouvrez le pipeline qui contient l’activité du bloc-notes pour afficher l’historique des exécutions.

Pour l’instantané d’ouverture de notebook, cette fonctionnalité n’est pas prise en charge actuellement.

Vous pouvez visualiser les entrées ou les sorties de l’activité du bloc-notes en sélectionnant le bouton entrées ou sorties. Si votre pipeline échoue avec une erreur utilisateur, sélectionnez les sorties pour vérifier le champs résultats et visualiser le traceback détaillé des erreurs de l’utilisateur.