Tutoriel : Transformer des données à l’aide de flux de données de mappage

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

Dans ce tutoriel, vous utilisez l’interface utilisateur Azure Data Factory (UX) pour créer un pipeline qui copie et transforme les données d’une source Azure Data Lake Storage (ADLS) Gen2 vers un récepteur ADLS Gen2 à l’aide du flux de données de mappage. Le modèle de configuration utilisé dans ce tutoriel peut être développé lors d’une transformation de données à l’aide d’un flux de données de mappage.

Ce didacticiel est conçu pour le mappage des flux de données en général. Les flux de données sont disponibles à la fois dans Azure Data Factory et Synapse Pipelines. Si vous débutez avec les flux de données dans Azure Synapse Pipelines, suivez le flux de données à l’aide d’Azure Synapse Pipelines.

Dans ce tutoriel, vous effectuez les étapes suivantes :

Créer une fabrique de données.
Créer un pipeline avec une activité de flux de données.
Générer un flux de données de mappage avec quatre transformations.
Effectuer une série de tests sur le pipeline.
Superviser une activité de flux de données.

Prérequis

Abonnement Azure. Si vous n’avez pas d’abonnement Azure, créez un compte Azure gratuit avant de commencer.
Compte Azure Data Lake Storage Gen2. Vous utilisez le stockage ADLS comme magasins de données source et récepteur. Si vous ne possédez pas de compte de stockage, consultez l’article Créer un compte de stockage Azure pour découvrir comment en créer un.
Téléchargez MoviesDB.csv ici. Pour récupérer le fichier à partir de GitHub, copiez le contenu dans l’éditeur de texte de votre choix pour l’enregistrer localement sous la forme d’un fichier .csv. Chargez le fichier dans votre compte de stockage dans un conteneur nommé « sample-data ».

Créer une fabrique de données

Au cours de cette étape, vous allez créer une fabrique de données et ouvrir l’interface utilisateur de Data Factory afin de créer un pipeline dans la fabrique de données.

Ouvrez Microsoft Edge ou Google Chrome. L’interface utilisateur de Data Factory n’est actuellement prise en charge que par les navigateurs web Microsoft Edge et Google Chrome.
Dans le menu supérieur, sélectionnez Créer une ressource>Analytics>Fabrique de données :
Sur la page Nouvelle fabrique de données, entrez ADFTutorialDataFactory dans le champ Nom.

Le nom de la fabrique de données Azure doit être globalement unique. Si vous recevez un message d’erreur concernant la valeur du nom, saisissez un autre nom pour l'usine de données. (par exemple, yournameADFTutorialDataFactory). Pour connaître les règles de dénomination des artefacts dans Data Factory, consultez les règles de dénomination de Data Factory.
Sélectionnez l’abonnement Azure dans lequel vous voulez créer la fabrique de données.
Pour Groupe de ressources, réalisez l’une des opérations suivantes :
1. Sélectionnez Utiliser l’existant, puis sélectionnez un groupe de ressources existant dans la liste déroulante.
2. Sélectionnez Créer, puis entrez le nom d’un groupe de ressources.
Pour plus d’informations sur les groupes de ressources, consultez Utilisation des groupes de ressources pour gérer vos ressources Azure.
Sous Version, sélectionnez V2.
Sous Région, sélectionnez l’emplacement de la fabrique de données. Seuls les emplacements pris en charge sont affichés dans la liste déroulante. Les magasins de données (comme le Stockage Azure et SQL Database) et les services de calcul (comme Azure HDInsight) utilisés par la fabrique de données peuvent se trouver dans d’autres régions.
Sélectionnez Vérifier + créer, puis sélectionnez Créer.
Une fois la création terminée, vous voyez apparaître l’avis dans le centre de notifications. Sélectionnez Accéder à la ressource pour accéder à la page de la fabrique de données.
Sélectionnez Launch Studio pour lancer Data Factory Studio dans un onglet distinct.

Créer un pipeline avec une activité de flux de données

Dans cette étape, vous créez un pipeline qui contient une activité de flux de données.

Dans la page d’accueil Azure Data Factory, sélectionnez Orchestrer.
Une fenêtre est maintenant ouverte pour un nouveau pipeline. Sous l’onglet Général des propriétés du pipeline, entrez TransformMovies pour le nom du pipeline.
Dans le volet Activités, développez la section Déplacer et transformer. Faites glisser et déposez l’activité Flux de données à partir du volet vers le canevas du pipeline.
Nommez votre activité de flux de données DataFlow1.
Dans la barre supérieure du canevas du pipeline, faites glisser le curseur Débogage du flux de données pour l’activer. Le mode de débogage permet un test interactif de la logique de transformation sur un cluster Spark activé. Le préchauffage des clusters de flux de données nécessite 5 à 7 minutes et il est recommandé aux utilisateurs d’activer d’abord le débogage s’ils envisagent d’effectuer un développement de flux de données. Pour plus d’informations, consultez Mode de débogage.

Générer une logique de transformation dans le canevas de flux de données

Dans cette étape, vous créez un flux de données qui prend le moviesDB.csv dans le stockage ADLS et agrège l’évaluation moyenne des comédies de 1910 à 2000. Vous réécrivez ensuite ce fichier dans le stockage ADLS.

Dans le panneau situé sous le canevas, accédez aux paramètres de votre activité de flux de données et sélectionnez Nouveau, situé à côté du champ flux de données. Cela ouvre le canevas de flux de données.
Dans le volet Propriétés sous Général, nommez votre flux de données : TransformMovies.
Dans le canevas de flux de données, ajoutez une source en sélectionnant la zone Ajouter une source.
Nommez votre source MoviesDB. Sélectionnez Nouveau pour créer un jeu de données source.
Choisissez Azure Data Lake Storage Gen2. Cliquez sur Continuer.
Choisissez DelimitedText. Cliquez sur Continuer.
Nommez votre jeu de données MoviesDB. Dans la liste déroulante des services liés, choisissez Nouveau.
Dans l’écran de création de service lié, nommez votre service lié ADLS Gen2 ADLSGen2, puis spécifiez votre méthode d’authentification. Entrez ensuite vos informations d’identification de connexion. Dans ce tutoriel, nous utilisons une clé de compte pour nous connecter à notre compte de stockage. Vous pouvez sélectionner Tester la connexion pour vérifier que vos informations d’identification ont été entrées correctement. Sélectionnez Créer une fois terminé.
Une fois de retour dans l’écran de création du jeu de données, entrez l’emplacement de votre fichier sous le champ Chemin du fichier. Dans ce tutoriel, le fichier MoviesDB.csv se trouve dans le conteneur sample-data. Étant donné que le fichier contient des en-têtes, cochez Première ligne comme en-tête. Sélectionnez À partir de la connexion/du magasin pour importer le schéma d’en-tête directement à partir du fichier situé dans le stockage. Sélectionnez OK lorsque vous avez terminé.
Si votre cluster de débogage a démarré, accédez à l’onglet Aperçu des données de la transformation de la source, puis sélectionnez Actualiser pour obtenir un instantané des données. Vous pouvez utiliser l’aperçu des données pour vérifier que votre transformation est correctement configurée.
À côté de votre nœud source dans le canevas de flux de données, sélectionnez l’icône plus (+) pour ajouter une nouvelle transformation. La première transformation que vous ajoutez est un Filtre.
Nommez votre transformation de filtre FilterYears. Sélectionnez la zone d’expression en regard de Filtrer, puis ouvrez le générateur d’expressions. Ici, vous spécifiez votre condition de filtrage.
Le générateur d’expressions de flux de données vous permet de générer de manière interactive des expressions à utiliser dans diverses transformations. Les expressions peuvent inclure des fonctions intégrées, des colonnes du schéma d’entrée et des paramètres définis par l’utilisateur. Pour plus d’informations sur la génération d’expressions, consultez Générateur d’expressions de flux de données.

Dans ce tutoriel, vous voulez filtrer les films du genre comédie qui sont sortis entre 1910 et 2000. Comme l’année est actuellement une chaîne, vous devez la convertir en un entier à l’aide de la fonction toInteger(). Utilisez les opérateurs supérieur ou égal à (>=) et inférieur ou égal à (<=) pour effectuer une comparaison avec les valeurs d’années (year) littérales 1910 et 2000. Unissez ces expressions avec l’opérateur And (&&). L’expression se présente comme suit :

toInteger(year) >= 1910 && toInteger(year) <= 2000

Pour rechercher les films qui sont des comédies, vous pouvez utiliser la fonction rlike() pour rechercher le modèle « Comedy » dans la colonne genres. Combinez l'expression rlike avec la comparaison d'année pour obtenir :

toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

Si vous disposez d’un cluster de débogage actif, vous pouvez vérifier votre logique en sélectionnant Actualiser pour afficher la sortie d’expression par rapport aux entrées utilisées. Il y a plusieurs réponses appropriées sur la façon dont vous pouvez accomplir cette logique à l’aide du langage d’expression de flux de données.

Sélectionnez Enregistrer et terminer une fois que vous en avez terminé avec votre expression.
Pour vérifier que le filtre fonctionne correctement, récupérez un Aperçu des données.
La transformation suivante que vous allez ajouter est une transformation Agrégation sous Modificateur de schéma.
Nommez votre transformation d’agrégation AggregateComedyRatings. Sous l’onglet Grouper par, sélectionnez year (année) dans la liste déroulante pour regrouper les agrégations par année de sortie des films.
Accédez à l’onglet Agrégats. Dans la zone de texte de gauche, nommez la colonne d’agrégation AverageComedyRating. Sélectionnez la zone d’expression adéquate pour entrer l’expression d’agrégation par le biais du générateur d’expressions.
Pour afficher la moyenne de la colonne Évaluation, utilisez la fonction d’agrégation avg(). Comme Évaluation est une chaîne et que avg() prend une entrée numérique, nous devons convertir la valeur en nombre à l’aide de la fonction toInteger(). Voici comment se présente l’expression :

avg(toInteger(Rating))

Quand vous avez terminé, sélectionnez Enregistrer et terminer.
Accédez à l’onglet Aperçu des données pour afficher la sortie de la transformation. Notez que seules deux colonnes sont affichées : year et AverageComedyRating.
Ensuite, vous voulez ajouter une transformation Récepteur sous Destination.
Nommez votre récepteur Sink. Sélectionnez Nouveau pour créer votre jeu de données récepteur.
Choisissez Azure Data Lake Storage Gen2. Cliquez sur Continuer.
Choisissez DelimitedText. Cliquez sur Continuer.
Nommez votre jeu de données récepteur MoviesSink. Pour le service lié, choisissez le service lié ADLS Gen2 que vous avez créé à l’étape 6. Entrez un dossier de sortie dans lequel écrire vos données. Dans ce tutoriel, nous écrivons dans le dossier « output » se trouvant dans le conteneur « sample-data ». Le dossier ne doit pas nécessairement exister au préalable et peut être créé de façon dynamique. Activez Première ligne comme en-tête, puis sélectionnez Aucun pour Importer un schéma. Sélectionnez Terminer.

Vous avez terminé la génération de votre flux de données. Vous êtes prêt à l’exécuter dans votre pipeline.

Exécution et supervision du flux de données

Vous pouvez déboguer un pipeline avant de le publier. Au cours de cette étape, vous allez déclencher une exécution de débogage du pipeline de flux de données. Alors que l’aperçu des données n’écrit pas de données, une exécution de débogage écrit des données dans la destination de votre récepteur.

Accédez au canevas du pipeline. Sélectionnez Déboguer pour déclencher une exécution de débogage.
Le débogage de pipeline des activités de flux de données utilise le cluster de débogage actif, mais son initialisation prend toujours au moins une minute. Vous pouvez suivre la progression via l’onglet Sortie. Une fois l’exécution réussie, survolez l’exécution et sélectionnez l’icône en forme de lunettes pour ouvrir le volet de surveillance.
Dans le volet d’analyse, sélectionnez le bouton Étapes pour afficher le nombre de lignes et le temps passé à chaque étape de transformation.
Sélectionnez une transformation pour obtenir des informations détaillées sur les colonnes et le partitionnement des données.

Si vous avez suivi ce didacticiel correctement, vous devriez avoir écrit 83 lignes et 2 colonnes dans votre dossier récepteur. Vous pouvez vérifier que les données sont correctes en vérifiant votre stockage d’objets blob.

Dans ce tutoriel, le pipeline exécute un flux de données qui agrège l’évaluation moyenne des comédies de 1910 à 2000 et qui écrit les données dans ADLS. Vous avez appris à :

Créer une fabrique de données.
Créer un pipeline avec une activité de flux de données.
Générer un flux de données de mappage avec quatre transformations.
Effectuer une série de tests sur le pipeline.
Superviser une activité de flux de données.

En savoir plus sur le langage d’expression de flux de données.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2025-04-30