Partager via


Configurer Hdfs pour Pipeline dans une activité de copie

Cet article explique comment utiliser l’activité de copie dans le pipeline de données pour copier des données depuis et vers HDFS dans le cadre d'un pipeline.

Format pris en charge

Hdfs pour Pipeline prend en charge les formats de fichiers suivants. Reportez-vous à chaque article pour connaître les paramètres basés sur le format.

Configuration prise en charge

Pour la configuration de chaque onglet sous activité de copie, accédez respectivement aux sections suivantes.

Généralités

Reportez-vous aux instructions relatives aux paramètres Général pour configurer l’onglet Paramètres Général .

Origine

Les propriétés suivantes sont prises en charge pour Hdfs pour Pipeline sous l’onglet Source d’une activité de copie.

Capture d’écran montrant l’onglet source et la liste des propriétés.

Les propriétés suivantes sont requises :

  • Connexion : sélectionnez une connexion Hdfs pour pipeline dans la liste des connexions. Si aucune connexion n’existe, créez un nouveau hdfs pour la connexion de pipeline.

  • Type de chemin d’accès de fichier : vous pouvez choisir Chemin d’accès au fichier, Chemin d’accès au fichier générique ou Liste des fichiers comme type de chemin d’accès de fichier. La configuration de chacun de ces paramètres est la suivante :

    • Chemin d’accès au fichier : si vous choisissez ce type, les données peuvent être copiées à partir du chemin d’accès du dossier/fichier spécifié.

    • Chemin de fichier avec caractères génériques : spécifiez le chemin du dossier avec des caractères génériques pour filtrer les dossiers sources. Les caractères génériques autorisés sont les suivants : * (correspond à zéro caractère ou plusieurs) et ? (correspond à zéro ou un caractère). Utilisez ^ comme caractère d’échappement si le nom de votre fichier ou dossier contient des caractères génériques ou ce caractère d’échappement. Pour d’autres exemples, accédez à Exemples de filtres de dossier et de fichier.

      • Chemin d’accès générique du dossier: Spécifiez le chemin d’accès du dossier en utilisant des caractères génériques pour filtrer les dossiers sources.

      • Nom de fichier générique : spécifiez le nom de fichier avec des caractères génériques dans le chemin de dossier/dossier générique configuré pour filtrer les fichiers source.

        Capture d’écran montrant le chemin du fichier générique.

    • Liste des fichiers : indique de copier un jeu de fichiers spécifié. Pointez sur un fichier texte qui contient une liste de fichiers que vous voulez copier (un fichier par ligne, avec le chemin relatif au chemin configuré dans le jeu de données).
      Lorsque vous utilisez cette option, ne spécifiez pas de nom de fichier dans le jeu de données. Pour plus d’exemples, consultez Exemples de listes de fichiers.

      • Chemin d’accès au dossier : spécifiez le chemin d’accès à un dossier. Il est obligatoire.

      • chemin d’accès à la liste de fichiers: spécifiez le chemin d’accès du fichier texte qui inclut une liste de fichiers que vous souhaitez copier.

        Capture d’écran montrant le chemin d’accès à la liste de fichiers.

  • Récursivement : spécifiez si les données sont lues de manière récursive à partir des sous-dossiers ou uniquement à partir du dossier spécifié. Veuillez noter que lorsque la récursivité est sélectionnée et que la destination est un stockage de type fichier, un dossier ou un sous-dossier vide n'est ni copié ni créé à la destination. Cette propriété est sélectionnée par défaut et ne s’applique pas lorsque vous configurez le chemin d’accès à la liste des fichiers.

  • format de fichier: sélectionnez le format de fichier appliqué dans la liste déroulante. Sélectionnez Paramètres pour configurer le format de fichier. Pour connaître les paramètres des différents formats de fichier, reportez-vous aux articles de Format pris en charge pour plus d’informations.

Sous Avancé, vous pouvez spécifier les champs suivants :

  • Filtrer par dernière modification : les fichiers sont filtrés en fonction des dates de dernière modification. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers.

    • heure de début (UTC): les fichiers sont sélectionnés si leur dernière heure de modification est supérieure ou égale à l’heure configurée.

    • heure de fin (UTC): les fichiers sont sélectionnés si leur dernière heure de modification est inférieure à l’heure configurée.

  • Activer la découverte des partitions : Pour les fichiers partitionnés, spécifiez s’il faut analyser les partitions à partir du chemin d’accès au fichier et les ajouter en tant que colonnes sources supplémentaires.

    • Chemin d’accès à la racine de la partition  : Lorsque la découverte de partition est activée, spécifiez le chemin racine absolu pour pouvoir lire les dossiers partitionnés en tant que colonnes de données.
  • Connexions simultanées maximales: cette propriété indique la limite supérieure des connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées.

  • Utilisez HDFS DistCp : spécifiez s’il faut activer l’utilisation du groupe de propriétés DistCp HDFS.

    • Point de terminaison ResourceManager : point de terminaison YARN (Encore un autre négociateur de ressources).

    • Chemin du script temporaire : chemin d’accès au dossier utilisé pour stocker le script de commande DistCp temporaire. Le fichier de script est généré et supprimé une fois le travail de copie terminé.

    • Options DistCp : options supplémentaires fournies à la commande DistCp.

    Capture d’écran montrant les paramètres distcp hdfs.

  • Colonnes supplémentaires: Ajoutez des colonnes de données supplémentaires pour stocker le chemin relatif ou la valeur statique des fichiers sources. L’expression est prise en charge pour ce dernier.

Cartographie

Pour la configuration de l’onglet Mappage, accédez à Configurer vos mappages sous l’onglet Mappage.

Paramètres

Pour la configuration de l’onglet Paramètres, consultez Configurer vos autres paramètres sous l’onglet Paramètres.

Résumé du tableau

Les tableaux suivants contiennent plus d’informations sur l’activité de copie dans Hdfs pour Pipeline.

Informations sur la source

Nom Descriptif Valeur Obligatoire Propriété de script JSON
Connexion Votre connexion au magasin de données source. <votre connexion Hdfs pour le Pipeline> Oui connexion
Type de chemin d’accès au fichier Type du chemin d’accès au fichier que vous utilisez. Chemin d’accès au fichier
Chemin d’accès au fichier générique
Liste de fichiers
Oui /
Chemin d’accès au fichier Copiez à partir du chemin d’accès à un dossier/fichier sous le magasin de données source. <chemin de fichier> Oui • chemin de dossier
• nom de fichier
Chemins avec des caractères génériques Chemin du dossier avec des caractères génériques sous le magasin de données source configuré pour filtrer les dossiers sources. <chemins avec des caractères génériques> Oui • wildcardFolderPath
• wildcardFileName
Chemin d’accès du dossier Pointe vers un dossier qui inclut les fichiers que vous souhaitez copier. <chemin d’accès du dossier> Non chemin du dossier
Chemin d’accès à la liste des fichiers Indique de copier un ensemble de fichiers donné. Pointez vers un fichier texte contenant une liste de fichiers que vous souhaitez copier, avec un fichier par ligne, chaque ligne indiquant le chemin relatif par rapport au chemin configuré. <chemin d’accès à la liste des fichiers> Non fileListPath
Récursivement Indique si les données sont lues de manière récursive à partir des sous-dossiers ou uniquement du dossier spécifié. Remarquez que lorsque Récursivement est sélectionné et que la destination est un stockage basé sur des fichiers, un dossier ou un sous-dossier vide n'est pas copié ni créé à l'emplacement de destination. Cette propriété ne s’applique pas lorsque vous configurez le chemin d’accès à la liste de fichiers. sélectionné (par défaut) ou désélectionner Non récursif
Format de fichier Format de fichier pour vos données sources. Pour plus d’informations sur les différents formats de fichier, reportez-vous aux articles de Format pris en charge. / Oui /
Filtrer par date de dernière modification Les fichiers dont l’heure de la dernière modification se trouve dans la plage [Heure de début, Heure de fin) seront filtrés pour un traitement ultérieur.

L’heure est appliquée au fuseau horaire UTC au format yyyy-mm-ddThh:mm:ss.fffZ.

Cette propriété peut être ignorée, ce qui signifie qu’aucun filtre d’attribut de fichier n’est appliqué. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers.
Heure de début
Heure de fin
Non modifiedDatetimeStart
dateHeureModifiéeFin
Activer la découverte de partitions Indique s’il faut analyser les partitions à partir du chemin d’accès au fichier et les ajouter en tant que colonnes source supplémentaires. Sélectionné ou non sélectionné (par défaut) Non enablePartitionDiscovery :
true ou false (valeur par défaut)
Chemin racine de la partition Chemin d’accès racine de la partition absolue pour lire les dossiers partitionnés sous forme de colonnes de données. <chemin racine de votre partition> Non partitionRootPath
Connexions simultanées maximales La limite maximale des connexions simultanées établies à l’entrepôt de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées. <connexions simultanées maximales> Non connexions simultanées maximales
Utiliser DistCp HDFS Spécifiez s’il faut activer l’utilisation du groupe de propriétés DistCp HDFS. sélectionné ou désélectionner (par défaut) Non /
Point de terminaison du gestionnaire de ressources Point de terminaison YARN (Encore un autre négociateur de ressources). < votre point de terminaison ResourceManager > Oui, en cas d’utilisation de DistCp resourceManagerPoint de terminaison
Chemin du script temporaire Chemin d’accès du dossier utilisé pour stocker le script de commande DistCp temporaire. Le fichier de script est généré et supprimé une fois le travail de copie terminé. < chemin d’accès de votre script temporaire > Oui, en cas d’utilisation de DistCp tempScriptPath
Les options DistCp Options supplémentaires fournies à la commande DistCp. < vos options distCp > Non distcpOptions
Colonnes supplémentaires Ajoutez des colonnes de données supplémentaires pour stocker le chemin d’accès relatif ou la valeur statique des fichiers sources. L’expression est prise en charge pour ce dernier. •Nom
•Valeur
Non colonnes supplémentaires :
• nom
•valeur