Copier les fichiers nouveaux et modifiés selon LastModifiedDate à l’aide de l’outil Copier des données de façon incrémentielle

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

Dans ce didacticiel, vous utilisez le portail Azure pour créer une fabrique de données. Vous vous servez ensuite de l’outil Copier des données pour créer un pipeline qui copie uniquement et de façon incrémentielle les nouveaux fichiers et les fichiers modifiés du Stockage Blob Azure vers le Stockage Blob Azure. Il utilise LastModifiedDate pour déterminer les fichiers à copier.

Une fois que vous avez suivi les différentes étapes, Azure Data Factory analyse tous les fichiers du magasin source, applique le filtre de fichiers par LastModifiedDateet copie uniquement les fichiers qui ont été créés ou mis à jour depuis la dernière fois dans le magasin de destination. Sachez que, si Data Factory analyse un grand nombre de fichiers, les durées n’en restent pas moins longues. L’analyse des fichiers prend beaucoup de temps, même lorsque la quantité de données copiées est réduite.

Notes

Si vous débutez avec Data Factory, consultez Présentation d’Azure Data Factory.

Dans ce tutoriel, vous allez effectuer les tâches suivantes :

  • Créer une fabrique de données.
  • Utiliser l’outil Copier les données pour créer un pipeline.
  • Surveiller les exécutions de pipeline et d’activité.

Prérequis

  • Abonnement Azure : Si vous n’avez pas d’abonnement Azure, créez un compte gratuit avant de commencer.
  • Compte Stockage Azure : Utilisez le Stockage Blob comme magasin de données source et récepteur. Si vous n’avez pas de compte stockage Azure, suivez les instructions indiquées dans Créer un compte de stockage.

Créer deux conteneurs dans le stockage d’objets blob

Préparez votre Stockage Blob pour le tutoriel :

  1. Créez un conteneur nommé source. Vous pouvez utiliser différents outils pour effectuer cette tâche, comme l’Explorateur Stockage Azure.

  2. Créez un conteneur nommé destination.

Créer une fabrique de données

  1. Dans le volet de gauche, sélectionnez Créer une ressource. Sélectionnez Intégration>Data Factory :

    Select Data Factory

  2. Sur la page Nouvelle fabrique de données, entrez ADFTutorialDataFactory dans le champ Nom.

    Le nom de votre fabrique de données doit être un nom global unique. Il est possible que vous receviez ce message d’erreur :

    New data factory error message for duplicate name.

    Si vous recevez un message d’erreur concernant la valeur du nom, saisissez un autre nom pour la fabrique de données. Par exemple, utilisez le nom votrenomADFTutorialDataFactory. Pour savoir comment nommer les artefacts Data Factory, voir Data Factory - Règles d’affectation des noms.

  3. Sous Abonnement, sélectionnez l’abonnement Azure dans lequel vous allez créer la fabrique de données.

  4. Sous Groupe de ressources, vous avez deux possibilités :

    • Sélectionnez Utiliser existant, puis sélectionnez un groupe de ressources existant dans la liste.

    • Sélectionnez Créer, puis entrez un nom pour le groupe de ressources.

    Pour plus d’informations sur les groupes de ressources, consultez Utilisation des groupes de ressources pour gérer vos ressources Azure.

  5. Sous Version, sélectionnez V2.

  6. Sous Emplacement, sélectionnez l’emplacement de la fabrique de données. Seuls les emplacements pris en charge apparaissent dans la liste. Les magasins de données (par exemple, Stockage Azure et SQL Database) et les services de calcul (par exemple, Azure HDInsight) utilisés par votre fabrique de données peuvent se trouver dans d’autres emplacements et régions.

  7. Sélectionnez Create (Créer).

  8. Une fois la fabrique de données créée, la page d’accueil de Data Factory apparaît.

  9. Pour ouvrir l’interface utilisateur d’Azure Data Factory dans un onglet séparé, dans la vignette Ouvrir Azure Data Factory Studio, sélectionnez Ouvrir :

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

Utiliser l’outil Copier les données pour créer un pipeline

  1. Sur la page d’accueil d’Azure Data Factory, sélectionnez le titre Ingérer pour lancer l’outil Copier des données :

    Screenshot that shows the ADF home page.

  2. Dans la page Propriétés, effectuez les opérations suivantes :

    1. Sous Type de tâche, sélectionnez Tâche de copie intégrée.

    2. Sous Cadence des tâches ou calendrier des tâches, sélectionnez Fenêtre bascule.

    3. Sous Périodicité, entrez 15 Minute(s) .

    4. Cliquez sur Suivant.

    Copy data properties page

  3. Sur la page Magasin de données source, procédez de la façon suivante :

    1. Sélectionnez + Nouvelle connexion pour ajouter une connexion.

    2. Sélectionnez Stockage Blob Azure dans la galerie, puis Continuer :

      Select Azure Blog Storage

    3. Dans la page Nouvelle connexion (Stockage Blob Azure) , sélectionnez votre abonnement Azure dans la liste Abonnement Azure et votre compte de stockage dans la liste Nom du compte de stockage. Testez la connexion, puis sélectionnez Créer.

    4. Sélectionnez la nouvelle connexion dans le bloc Connexion.

    5. Dans la section Fichier ou dossier, sélectionnez Parcourir, puis le dossier source, puis OK.

    6. Sous Comportement de chargement de fichier, sélectionnez Chargement incrémentiel : LastModifiedDate, puis Copie binaire.

    7. Cliquez sur Suivant.

    Screenshot that shows the 'Source data store' page.

  4. Sur la page Magasin de données de destination, procédez comme suit :

    1. Sélectionnez la connexion AzureBlobStorage que vous avez créée. Il s’agit du même compte de stockage que la banque de données source.

    2. Dans la section Chemin d’accès du dossier, recherchez et sélectionnez le dossier de destination, puis sélectionnez OK.

    3. Cliquez sur Suivant.

    Screenshot that shows the 'Destination data store' page.

  5. Sur la page Paramètres, sous Nom de la tâche, saisissez DeltaCopyFromBlobPipeline, puis sélectionnez Suivant. Data Factory crée un pipeline portant le nom de tâche spécifié.

    Screenshot that shows the Settings page.

  6. Sur la page Résumé, vérifiez les paramètres, puis sélectionnez Suivant.

    Summary page

  7. Sur la page Déploiement, sélectionnez Analyse pour analyser le pipeline (tâche).

    Deployment page

  8. Notez que l’onglet Surveiller sur la gauche est sélectionné automatiquement. L’application bascule vers l’onglet Surveiller. Vous voyez l’état du pipeline. Sélectionnez Actualiser pour actualiser la liste. Sélectionnez le lien qui se trouve sous Nom du pipeline pour afficher les détails de l’exécution d’activité ou réexécuter le pipeline.

    Refresh the list and view activity run details

  9. Il n’y a qu’une seule activité (l’activité de copie) dans le pipeline ; vous ne voyez donc qu’une seule entrée. Pour obtenir des détails sur l’opération de copie, dans la page Exécutions d’activités, sélectionnez le lien Détails (icône en forme de lunettes) dans la colonne Nom de l’activité. Pour plus d’informations sur les propriétés, consultez Vue d’ensemble de l’activité de copie.

    Copy activity in the pipeline

    Étant donné qu’il n’existe aucun fichier dans le conteneur source de votre compte de Stockage Blob, vous ne trouverez aucun fichier copié dans le conteneur de destination du compte :

    No files in source container or destination container

  10. Créez un fichier texte vide et nommez-le file1.txt. Chargez ce fichier texte dans le conteneur source de votre compte de stockage. Vous pouvez utiliser différents outils pour effectuer ces tâches, comme l’Explorateur Stockage Azure.

    Create file1.txt and upload it to the source container

  11. Pour revenir à la vue Exécutions de pipelines, dans la page Exécutions d’activités, dans le menu de navigation, sélectionnez le lien Toutes les exécutions de pipelines, puis attendez que le même pipeline soit à nouveau déclenché automatiquement.

  12. Une fois la deuxième exécution du pipeline terminée, suivez à nouveau la procédure précédente pour consulter les détails de l’exécution d’activité.

    Vous constaterez qu’un fichier (file1.txt) a été copié du conteneur source vers le conteneur de destination de votre compte de Stockage Blob :

    file1.txt has been copied from the source container to the destination container

  13. Créez un autre fichier texte vide et nommez-le file2.txt. Chargez ce fichier texte dans le conteneur source de votre compte de Stockage Blob.

  14. Répétez les étapes 11 et 12 pour le deuxième fichier texte. Vous constaterez que seul le nouveau fichier (file2.txt) a été copié du conteneur source vers le conteneur de destination de votre compte de stockage lors de cette exécution de pipeline.

    Vous pourrez également vérifier qu’un seul fichier a été copié en analysant les fichiers avec l’Explorateur Stockage Azure :

    Scan files by using Azure Storage Explorer

Passez au tutoriel suivant pour apprendre à transformer les données avec un cluster Apache Spark sur Azure :