Charger des données dans Azure Synapse Analytics à l’aide d’Azure Data Factory ou un pipeline Synapse

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

Azure Synapse Analytics est une base de données de scale-out basée sur le cloud capable de traiter de grands volumes de données relationnelles et non relationnelles. Azure Synapse Analytics repose sur une architecture MPP (massively parallel processing) optimisée pour les charges de travail d’entrepôt de données d’entreprise. Elle offre l’élasticité du cloud avec la flexibilité de mettre à l’échelle le stockage et d’exécuter le calcul indépendamment.

Bien démarrer avec Azure Synapse Analytics n’a jamais été aussi facile. Azure Data Factory et sa fonctionnalité de pipelines équivalente dans Azure Synapse lui-même fournissent un service d’intégration de données basé sur le cloud complètement managé. Vous pouvez utiliser le service pour remplir une instance Azure Synapse Analytics avec les données de votre système existant et gagner du temps lors de la création de vos solutions d’analyse.

Les pipelines Azure Data Factory et Synapse offrent les avantages suivants pour le chargement des données dans Azure Synapse Analytics :

  • Facilité de configuration : assistant intuitif en 5 étapes. Aucun script nécessaire.
  • Prise en charge étendue du magasin de données : prise en charge intégrée d’un ensemble complet de magasins de données locaux et dans le cloud. Pour une liste détaillée, consultez le tableau Banques de données prises en charge.
  • Sécurité et conformité : les données sont transférées via HTTPS ou ExpressRoute. La présence globale du service garantit que vos données ne quittent jamais les limites géographiques.
  • Performances sans précédent à l’aide de PolyBase : PolyBase est le moyen le plus efficace de déplacer des données dans Azure Synapse Analytics. Utilisez la fonction blob intermédiaire pour atteindre des vitesses de charge élevées pour tous les types de magasins de données, y compris le stockage Blob Azure et Data Lake Store. (Polybase prend en charge le stockage Blob Azure et Azure Data Lake Store par défaut.) Pour en savoir plus, voir Performances de l’activité de copie.

Cet article explique comment utiliser l’outil de copie de données pour charger des données d’Azure SQL Database dans Azure Synapse Analytics. Vous pouvez procéder de même pour copier des données à partir d’autres types de banques de données.

Notes

Pour plus d’informations, consultez Copier des données depuis/vers Azure Synapse Analytics.

Prérequis

  • Abonnement Azure : Si vous n’avez pas d’abonnement Azure, créez un compte gratuit avant de commencer.
  • Azure Synapse Analytics : l'entrepôt de données conserve les données copiées à partir de SQL Database. Si vous ne disposez pas d’Azure Synapse Analytics, consultez les instructions dans Créer une instance Azure Synapse Analytics.
  • Azure SQL Database : ce tutoriel copie les données de l’exemple de jeu de données Adventure Works LT dans Azure SQL Database. Vous pouvez créer cet échantillon de base de données dans SQL Database en suivant les instructions données dans Création d’un échantillon de base de données dans Azure SQL Database.
  • Compte Azure Storage : Stockage Azure est utilisé comme objet blob intermédiaire dans l’opération de copie en bloc. Si vous ne possédez pas de compte de stockage Azure, consultez les instructions dans Créer un compte de stockage.

Créer une fabrique de données

  1. Si vous n’avez pas encore créé votre fabrique de données, suivez les étapes de démarrage rapide : Créer une fabrique de données à l’aide du Portail Azure et Azure Data Factory Studio pour en créer une. Après la création, accédez à la fabrique de données dans le Portail Azure.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. Sélectionnez Ouvrir dans la mosaïque Ouvrir Azure Data Factory Studio pour lancer l’application d’intégration de données dans un onglet distinct.

Charger des données dans Azure Synapse Analytics

  1. Sur la page d’accueil d’Azure Data Factory ou l’espace de travail Azure Synapse, sélectionnez la mosaïque Ingérer pour lancer l’outil Copier des données. Vous pouvez opter pour la Tâche de copie intégrée.

  2. Dans la page Propriétés, choisissez Tâche de copie intégrée sous Type de tâche, puis Suivant.

    Properties page

  3. Dans la page Banque de données source, effectuez les étapes suivantes :

    Conseil

    Dans ce tutoriel, vous utilisez l’authentification SQL comme type d’authentification pour votre magasin de données source, mais vous pouvez choisir d’autres méthodes d’authentification prises en charge : Principal de service et Identité managée, si nécessaire. Pour plus d’informations, reportez-vous aux sections correspondantes de cet article. Pour stocker de manière sécurisée des secrets de magasins de données, il est également recommandé d’utiliser un coffre de clés Azure. Pour obtenir des illustrations détaillées, reportez-vous à cet article.

    1. Sélectionnez + Nouvelle connexion.

    2. Sélectionnez Azure SQL Database dans la galerie, puis sélectionnez Continuer. Vous pouvez taper « SQL » dans la zone de recherche pour filtrer les connecteurs.

      Select Azure SQL DB

    3. Dans la page Nouvelle connexion (Azure SQL Database) , sélectionnez le nom de votre serveur et le nom de votre base de données dans la liste déroulante, puis spécifiez le nom d’utilisateur et le mot de passe. Sélectionnez Tester la connexion pour valider les paramètres, puis sélectionnez Créer.

      Configure Azure SQL DB

    4. Sur la page Magasin de données source, sélectionnez la connexion nouvellement créée dans la section Connexion.

    5. Dans la section Tables sources, entrez SalesLT pour filtrer les tables. Activez la case (Sélectionner tout) pour utiliser toutes les tables pour la copie, puis cliquez sur Suivant.

    Screenshot showing the configuration of 'Source data store' page.

  4. Sur la page Appliquer le filtre, spécifiez vos paramètres ou sélectionnez Suivant. Vous pouvez prévisualiser les données et visualiser le schéma des données d’entrée en sélectionnant le bouton Prévisualiser les données dans cette page.

     Screenshot showing the 'Apply filter' page.

  5. Dans la page Banque de données de destination, effectuez les étapes suivantes :

    Conseil

    Dans ce tutoriel, vous utilisez l’authentification SQL comme type d’authentification pour votre magasin de données de destination, mais vous pouvez choisir d’autres méthodes d’authentification prises en charge : Principal de service et Identité managée, si nécessaire. Pour plus d’informations, reportez-vous aux sections correspondantes de cet article. Pour stocker de manière sécurisée des secrets de magasins de données, il est également recommandé d’utiliser un coffre de clés Azure. Pour obtenir des illustrations détaillées, reportez-vous à cet article.

    1. Sélectionnez + Nouvelle connexion pour ajouter une connexion.

    2. Sélectionnez Azure Synapse Analytics dans la galerie, puis sélectionnez Continuer.

      Select Azure Synapse Analytics

    3. Dans la page Nouvelle connexion (Azure Synapse Analytics) , sélectionnez le nom de votre serveur et le nom de votre base de données dans la liste déroulante, puis spécifiez le nom d’utilisateur et le mot de passe. Sélectionnez Tester la connexion pour valider les paramètres, puis sélectionnez Créer.

      Configure Azure Synapse Analytics

    4. Sur la page Magasin de données de destination, sélectionnez la connexion nouvellement créée dans la section Connexion.

  6. Dans la page Mappage de table, consultez le contenu, puis sélectionnez Suivant. Un mappage de table intelligent s’affiche. Les tables source sont mappées sur les tables de destination en fonction des noms de tables. Si une table source n’existe pas dans la destination, le service crée une table de destination qui porte le même nom par défaut. Vous pouvez également mapper une table source sur une table de destination existante.

    Screenshot showing the configuration of 'Destination data store' page.

  7. Dans la page Mappage de colonnes, passez en revue le contenu, puis cliquez sur Suivant. Le mappage de table intelligent repose sur le nom de colonne. Si vous autorisez le service à créer automatiquement les tables, la conversion du type de données peut se produire en cas d’incompatibilités entre les magasins sources et de destination. Si la conversion du type de données n’est pas prise en charge entre la colonne de destination source et de destination, un message d’erreur s’affiche en regard de la table correspondante.

    Column mapping page

  8. Dans la page Paramètres, effectuez les étapes suivantes :

    1. Spécifiez CopyFromSQLToSQLDW pour le champ Nom de la tâche.

    2. Dans Paramètres de mise en lots, sélectionnez + Nouveau pour renouveler un stockage de mise en lots. Le stockage est utilisé pour les données en préproduction avant leur chargement dans Azure Synapse Analytics avec PolyBase. Une fois la copie terminée, les données temporaires dans Stockage Blob Azure sont nettoyées automatiquement.

    3. Sur la page Nouveau service lié, sélectionnez votre compte de stockage, puis choisissez Créer pour déployer le service lié.

    4. Désélectionnez l’option Utiliser le type par défaut, puis sélectionnez Suivant.

    Configure PolyBase

  9. Dans la page Résumé, vérifiez les paramètres, puis cliquez sur Suivant.

  10. Sur la page Déploiement, sélectionnez Surveiller pour surveiller le pipeline (tâche).

     Screenshot showing the deployment page.

  11. Notez que l’onglet Surveiller sur la gauche est sélectionné automatiquement. Lorsque l’exécution du pipeline s’effectue correctement, sélectionnez le lien CopyFromSQLToSQLDW sous la colonne Nom du pipeline pour afficher les détails de l’exécution d'activité ou réexécuter le pipeline.


  1. Pour revenir à l’affichage des exécutions du pipeline, sélectionnez le lien Toutes les exécutions de pipelines affiché en haut de la fenêtre. Sélectionnez Actualiser pour actualiser la liste.

    Monitor activity runs

  2. Pour analyser les détails d’exécution de chaque activité de copie, sélectionnez le lien Détails (icône en forme de lunettes) sous Nom de l’activité dans l’affichage des exécutions d’activités. Vous pouvez suivre les informations détaillées comme le volume de données copiées à partir de la source dans le récepteur, le débit des données, les étapes d’exécution avec une durée correspondante et les configurations utilisées.

    Monitor activity run details first

    Monitor activity run details second

Lisez l’article suivant pour en savoir plus sur la prise en charge d’Azure Synapse Analytics :