Notes
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article explique comment utiliser l’activité de copie dans le pipeline de données pour copier des données depuis et vers HDFS dans le cadre d'un pipeline.
Format pris en charge
Hdfs pour Pipeline prend en charge les formats de fichiers suivants. Reportez-vous à chaque article pour connaître les paramètres basés sur le format.
- Format Avro
- Format binaire
- Format de texte délimité
- Format Excel
- Format Iceberg
- Format JSON
- Format ORC
- Format Parquet
- Format XML
Configuration prise en charge
Pour la configuration de chaque onglet sous activité de copie, accédez respectivement aux sections suivantes.
Généralités
Reportez-vous aux instructions relatives aux paramètres Général pour configurer l’onglet Paramètres Général .
Origine
Les propriétés suivantes sont prises en charge pour Hdfs pour Pipeline sous l’onglet Source d’une activité de copie.
Les propriétés suivantes sont requises :
Connexion : sélectionnez une connexion Hdfs pour pipeline dans la liste des connexions. Si aucune connexion n’existe, créez un nouveau hdfs pour la connexion de pipeline.
Type de chemin d’accès de fichier : vous pouvez choisir Chemin d’accès au fichier, Chemin d’accès au fichier générique ou Liste des fichiers comme type de chemin d’accès de fichier. La configuration de chacun de ces paramètres est la suivante :
Chemin d’accès au fichier : si vous choisissez ce type, les données peuvent être copiées à partir du chemin d’accès du dossier/fichier spécifié.
Chemin de fichier avec caractères génériques : spécifiez le chemin du dossier avec des caractères génériques pour filtrer les dossiers sources. Les caractères génériques autorisés sont les suivants :
*
(correspond à zéro caractère ou plusieurs) et?
(correspond à zéro ou un caractère). Utilisez^
comme caractère d’échappement si le nom de votre fichier ou dossier contient des caractères génériques ou ce caractère d’échappement. Pour d’autres exemples, accédez à Exemples de filtres de dossier et de fichier.Chemin d’accès générique du dossier: Spécifiez le chemin d’accès du dossier en utilisant des caractères génériques pour filtrer les dossiers sources.
Nom de fichier générique : spécifiez le nom de fichier avec des caractères génériques dans le chemin de dossier/dossier générique configuré pour filtrer les fichiers source.
Liste des fichiers : indique de copier un jeu de fichiers spécifié. Pointez sur un fichier texte qui contient une liste de fichiers que vous voulez copier (un fichier par ligne, avec le chemin relatif au chemin configuré dans le jeu de données).
Lorsque vous utilisez cette option, ne spécifiez pas de nom de fichier dans le jeu de données. Pour plus d’exemples, consultez Exemples de listes de fichiers.Chemin d’accès au dossier : spécifiez le chemin d’accès à un dossier. Il est obligatoire.
chemin d’accès à la liste de fichiers: spécifiez le chemin d’accès du fichier texte qui inclut une liste de fichiers que vous souhaitez copier.
Récursivement : spécifiez si les données sont lues de manière récursive à partir des sous-dossiers ou uniquement à partir du dossier spécifié. Veuillez noter que lorsque la récursivité est sélectionnée et que la destination est un stockage de type fichier, un dossier ou un sous-dossier vide n'est ni copié ni créé à la destination. Cette propriété est sélectionnée par défaut et ne s’applique pas lorsque vous configurez le chemin d’accès à la liste des fichiers.
format de fichier: sélectionnez le format de fichier appliqué dans la liste déroulante. Sélectionnez Paramètres pour configurer le format de fichier. Pour connaître les paramètres des différents formats de fichier, reportez-vous aux articles de Format pris en charge pour plus d’informations.
Sous Avancé, vous pouvez spécifier les champs suivants :
Filtrer par dernière modification : les fichiers sont filtrés en fonction des dates de dernière modification. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers.
heure de début (UTC): les fichiers sont sélectionnés si leur dernière heure de modification est supérieure ou égale à l’heure configurée.
heure de fin (UTC): les fichiers sont sélectionnés si leur dernière heure de modification est inférieure à l’heure configurée.
Activer la découverte des partitions : Pour les fichiers partitionnés, spécifiez s’il faut analyser les partitions à partir du chemin d’accès au fichier et les ajouter en tant que colonnes sources supplémentaires.
- Chemin d’accès à la racine de la partition : Lorsque la découverte de partition est activée, spécifiez le chemin racine absolu pour pouvoir lire les dossiers partitionnés en tant que colonnes de données.
Connexions simultanées maximales: cette propriété indique la limite supérieure des connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées.
Utilisez HDFS DistCp : spécifiez s’il faut activer l’utilisation du groupe de propriétés DistCp HDFS.
Point de terminaison ResourceManager : point de terminaison YARN (Encore un autre négociateur de ressources).
Chemin du script temporaire : chemin d’accès au dossier utilisé pour stocker le script de commande DistCp temporaire. Le fichier de script est généré et supprimé une fois le travail de copie terminé.
Options DistCp : options supplémentaires fournies à la commande DistCp.
Colonnes supplémentaires: Ajoutez des colonnes de données supplémentaires pour stocker le chemin relatif ou la valeur statique des fichiers sources. L’expression est prise en charge pour ce dernier.
Cartographie
Pour la configuration de l’onglet Mappage, accédez à Configurer vos mappages sous l’onglet Mappage.
Paramètres
Pour la configuration de l’onglet Paramètres, consultez Configurer vos autres paramètres sous l’onglet Paramètres.
Résumé du tableau
Les tableaux suivants contiennent plus d’informations sur l’activité de copie dans Hdfs pour Pipeline.
Informations sur la source
Nom | Descriptif | Valeur | Obligatoire | Propriété de script JSON |
---|---|---|---|---|
Connexion | Votre connexion au magasin de données source. | <votre connexion Hdfs pour le Pipeline> | Oui | connexion |
Type de chemin d’accès au fichier | Type du chemin d’accès au fichier que vous utilisez. | • Chemin d’accès au fichier • Chemin d’accès au fichier générique • Liste de fichiers |
Oui | / |
Chemin d’accès au fichier | Copiez à partir du chemin d’accès à un dossier/fichier sous le magasin de données source. | <chemin de fichier> | Oui | • chemin de dossier • nom de fichier |
Chemins avec des caractères génériques | Chemin du dossier avec des caractères génériques sous le magasin de données source configuré pour filtrer les dossiers sources. | <chemins avec des caractères génériques> | Oui | • wildcardFolderPath • wildcardFileName |
Chemin d’accès du dossier | Pointe vers un dossier qui inclut les fichiers que vous souhaitez copier. | <chemin d’accès du dossier> | Non | chemin du dossier |
Chemin d’accès à la liste des fichiers | Indique de copier un ensemble de fichiers donné. Pointez vers un fichier texte contenant une liste de fichiers que vous souhaitez copier, avec un fichier par ligne, chaque ligne indiquant le chemin relatif par rapport au chemin configuré. | <chemin d’accès à la liste des fichiers> | Non | fileListPath |
Récursivement | Indique si les données sont lues de manière récursive à partir des sous-dossiers ou uniquement du dossier spécifié. Remarquez que lorsque Récursivement est sélectionné et que la destination est un stockage basé sur des fichiers, un dossier ou un sous-dossier vide n'est pas copié ni créé à l'emplacement de destination. Cette propriété ne s’applique pas lorsque vous configurez le chemin d’accès à la liste de fichiers. | sélectionné (par défaut) ou désélectionner | Non | récursif |
Format de fichier | Format de fichier pour vos données sources. Pour plus d’informations sur les différents formats de fichier, reportez-vous aux articles de Format pris en charge. | / | Oui | / |
Filtrer par date de dernière modification | Les fichiers dont l’heure de la dernière modification se trouve dans la plage [Heure de début, Heure de fin) seront filtrés pour un traitement ultérieur. L’heure est appliquée au fuseau horaire UTC au format yyyy-mm-ddThh:mm:ss.fffZ .Cette propriété peut être ignorée, ce qui signifie qu’aucun filtre d’attribut de fichier n’est appliqué. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers. |
• Heure de début • Heure de fin |
Non | modifiedDatetimeStart dateHeureModifiéeFin |
Activer la découverte de partitions | Indique s’il faut analyser les partitions à partir du chemin d’accès au fichier et les ajouter en tant que colonnes source supplémentaires. | Sélectionné ou non sélectionné (par défaut) | Non | enablePartitionDiscovery : true ou false (valeur par défaut) |
Chemin racine de la partition | Chemin d’accès racine de la partition absolue pour lire les dossiers partitionnés sous forme de colonnes de données. | <chemin racine de votre partition> | Non | partitionRootPath |
Connexions simultanées maximales | La limite maximale des connexions simultanées établies à l’entrepôt de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées. | <connexions simultanées maximales> | Non | connexions simultanées maximales |
Utiliser DistCp HDFS | Spécifiez s’il faut activer l’utilisation du groupe de propriétés DistCp HDFS. | sélectionné ou désélectionner (par défaut) | Non | / |
Point de terminaison du gestionnaire de ressources | Point de terminaison YARN (Encore un autre négociateur de ressources). | < votre point de terminaison ResourceManager > | Oui, en cas d’utilisation de DistCp | resourceManagerPoint de terminaison |
Chemin du script temporaire | Chemin d’accès du dossier utilisé pour stocker le script de commande DistCp temporaire. Le fichier de script est généré et supprimé une fois le travail de copie terminé. | < chemin d’accès de votre script temporaire > | Oui, en cas d’utilisation de DistCp | tempScriptPath |
Les options DistCp | Options supplémentaires fournies à la commande DistCp. | < vos options distCp > | Non | distcpOptions |
Colonnes supplémentaires | Ajoutez des colonnes de données supplémentaires pour stocker le chemin d’accès relatif ou la valeur statique des fichiers sources. L’expression est prise en charge pour ce dernier. | •Nom •Valeur |
Non | colonnes supplémentaires : • nom •valeur |