Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo se describe cómo usar la actividad de copia en la canalización de datos para copiar datos desde y hacia Hdfs for Pipeline.
Formato admitido
Hdfs for Pipeline admite los siguientes formatos de archivo. Consulte cada artículo para consultar la configuración según el formato.
- Formato Avro
- Formato binario
- Formato de texto delimitado
- Formato Excel
- Formato Iceberg
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configuración admitida
Para la configuración de cada pestaña en la actividad de copia, vaya a las secciones siguientes respectivamente.
General
Consulte las instruccionesgenerales para configurar la pestaña de parámetros General.
Fuente
Las siguientes propiedades son compatibles con Hdfs para la canalización en la pestaña Origen de una actividad de copia.
Las siguientes propiedades son obligatorias:
Conexión: Seleccione una conexión HDFS para el pipeline de la lista de conexiones. Si no existe ninguna conexión, cree una nueva conexión HDFS para la canalización.
Tipo de ruta de acceso de archivo: puede elegir Ruta de acceso de archivo, Ruta de acceso de archivo con carácter comodín o Lista de archivos como tipo de ruta de acceso de archivo. La configuración de cada una de estas opciones es:
Ruta de acceso del archivo: si elige este tipo, los datos se pueden copiar de la ruta de acceso de carpeta o archivo especificada.
Ruta de acceso del archivo comodín: especifique la ruta de acceso de la carpeta con caracteres comodín para filtrar las carpetas de origen. Los caracteres comodín permitidos son:
*
(equivale a cero o a varios caracteres) y?
(equivale a cero o a un único carácter). Use^
como escape si el nombre de la carpeta o archivo contiene un carácter comodín o este carácter de escape. Para obtener más ejemplos, vaya a Ejemplos de filtro de carpetas y archivos.Ruta de acceso de carpeta comodín: especifique la ruta de acceso de la carpeta con caracteres comodín para filtrar las carpetas de origen.
Nombre de archivo comodín: especifique el nombre de archivo con caracteres comodín dentro de la carpeta configurada o en la ruta de acceso de carpeta comodín para filtrar los archivos de origen.
Lista de archivos: indica que se copia un conjunto de archivos especificado. Apunte a un archivo de texto que incluya una lista de archivos que desee copiar (un archivo por línea, con la ruta de acceso relativa a la ruta de acceso configurada en el conjunto de datos).
Al usar esta opción, no especifique un nombre de archivo en el conjunto de datos. Para ver más ejemplos, consulte Ejemplos de lista de archivos.Ruta de acceso de carpeta: especifique la ruta de acceso a una carpeta. Es necesario.
ruta de acceso a la lista de archivos: especifique la ruta de acceso del archivo de texto que incluye una lista de archivos que desea copiar.
Recursivamente: especifique si los datos se leen de forma recursiva desde las subcarpetas o solo desde la carpeta especificada. Tenga en cuenta que cuando se selecciona Recursivamente y el destino es un almacén basado en archivos, una carpeta vacía o una subcarpeta no se copia ni se crea en el destino. Esta propiedad está seleccionada de forma predeterminada y no se aplica al configurar la ruta de acceso a la lista de archivos.
formato de archivo: seleccione el formato de archivo aplicado en la lista desplegable. Seleccione Configuración para configurar el formato de archivo. Para ver la configuración de diferentes formatos de archivo, consulte artículos en Formato admitido para obtener información detallada.
En Avanzado, puede especificar los campos siguientes:
Filtrar por última modificación: los archivos se filtran en función de las fechas de última modificación. Esta propiedad no se aplica cuando se configura el tipo de ruta de acceso de archivos como Lista de archivos.
hora de inicio (UTC): los archivos se seleccionan si la hora de la última modificación es mayor o igual que la hora configurada.
hora de finalización (UTC): los archivos se seleccionan si la hora de la última modificación es menor que la hora configurada.
Habilitar detección de particiones: para archivos con particiones, especifique si quiere analizar las particiones de la ruta de acceso del archivo y agregarlas como columnas de origen adicionales.
- Ruta de acceso a la partición: cuando se habilita la detección de particiones, especifique la ruta de acceso raíz absoluta para leer las carpetas particionadas como columnas de datos.
Número máximo de conexiones simultáneas: esta propiedad indica el límite superior de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando desee limitar las conexiones simultáneas.
Use HDFS DistCp: especifique si se va a habilitar el uso del grupo de propiedades DistCp de HDFS.
Punto de conexión de ResourceManager: El punto de conexión de YARN (Yet Another Resource Negotiator).
Ruta temporal del script: Una ruta de carpeta que se utiliza para almacenar el script temporal del comando DistCp. El archivo de script se genera y se eliminará después de que haya finalizado el trabajo de copia.
Opciones de DistCp: opciones adicionales proporcionadas al comando DistCp.
Columnas adicionales: agregue columnas de datos adicionales para almacenar la ruta de acceso relativa o el valor estático de los archivos de origen. La expresión se admite para este último.
Cartografía
Para la configuración de la pestañaAsignación, vaya a Configurar las asignaciones en la pestaña asignación .
Configuración
Para la configuración de la pestaña Configuración, consulte Configuración de otras opciones en la pestaña Configuración.
Resumen de tabla
Las tablas siguientes contienen más información sobre la actividad de copia en Hdfs for Pipeline.
Información de origen
Nombre | Descripción | Importancia | Obligatorio | Propiedad de script JSON |
---|---|---|---|---|
Conexión | Tu conexión con el almacén de datos de origen. | <tu HDFS para la conexión de Pipeline> | Sí | conexión |
Tipo de ruta de acceso de archivo | Tipo de ruta de acceso del archivo que usa. | • Ruta del archivo • Ruta de acceso del archivo con carácter comodín • Lista de archivos |
Sí | / |
Ruta de acceso del archivo | Copiar desde la ruta de acceso a una carpeta o archivo en el almacén de datos de origen. | <ruta de acceso del archivo> | Sí | * folderPath • nombre de archivo |
Ruta de acceso con carácter comodín | La ruta de acceso a la carpeta con caracteres comodín bajo el almacén de datos de origen configurado para filtrar las carpetas de origen. | <rutas de acceso con carácter comodín> | Sí | * wildcardFolderPath * wildcardFileName |
Ruta de acceso de la carpeta | Apunta a una carpeta que incluye los archivos que desea copiar. | <ruta de acceso a la carpeta> | No | folderPath |
Ruta de acceso a la lista de archivos | Indica que se copie un conjunto de archivos determinado. Seleccione un archivo de texto que incluya una lista de archivos que quiere copiar, con un archivo por línea, que sea la ruta relativa a la configurada. | <ruta de acceso a la lista de archivos> | No | fileListPath |
Recursivamente | Indica si los datos se leen de forma recursiva de las subcarpetas o solo de la carpeta especificada. Tenga en cuenta que cuando se selecciona Recursivamente y el destino es un almacén basado en archivos, una carpeta vacía o una subcarpeta no se copia ni se crea en el destino. Esta propiedad no se aplica al configurar Path to file list. | seleccionado (valor predeterminado) o anula la selección | No | recursivo |
Formato de archivo | Formato de archivo para los datos de origen. Para obtener información sobre los diferentes formatos de archivo, consulte los artículos de Formato admitido para información detallada. | / | Sí | / |
Filtrar por última modificación | Los archivos con la hora de la última modificación en el intervalo [Hora de inicio, Hora de finalización) se filtrarán para su posterior procesamiento. La hora se aplica a la zona horaria UTC con el formato yyyy-mm-ddThh:mm:ss.fffZ .Esta propiedad se puede omitir, lo que significa que no se aplica ningún filtro de atributo de archivo. Esta propiedad no se aplica cuando se configura el tipo de ruta de acceso de archivos como Lista de archivos. |
• Hora de inicio • Hora de finalización |
No | modifiedDatetimeStart FechaHoraModificadaFinalización |
Habilitar la detección de particiones | Si se analizan las particiones de la ruta de acceso del archivo y se agregan como columnas de origen adicionales. | Seleccionado o no seleccionado (valor predeterminado) | No | enablePartitionDiscovery: true o false (valor predeterminado) |
ruta raíz de partición | Ruta raíz absoluta de la partición para leer carpetas particionadas como columnas de datos. | <ruta de acceso a su partición> | No | partitionRootPath |
Número máximo de conexiones simultáneas | Límite superior de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando desee limitar las conexiones simultáneas. | <número máximo de conexiones simultáneas> | No | máximo de conexiones simultáneas |
Utilice HDFS DistCp | Especifique si se va a habilitar el uso del grupo de propiedades DistCp de HDFS. | seleccionado o deseleccionar (por defecto) | No | / |
Punto de conexión de ResourceManager | Punto final de YARN (Yet Another Resource Negotiator). | < el punto de conexión de ResourceManager > | Sí, si se utiliza DistCp | puntoFinalDelAdministradorDeRecursos |
Ruta de script temporal | Ruta de acceso de carpeta que se usa para almacenar el script del comando DistCp temporal. El archivo de script se genera y se eliminará después de que haya finalizado el trabajo de copia. | < tu ruta de script temporal > | Sí, si se utiliza DistCp | tempScriptPath |
Opciones de DistCp | Opciones adicionales que se proporcionan al comando DistCp. | < las opciones de distCp > | No | distcpOptions |
Columnas adicionales | Agregue columnas de datos adicionales para almacenar la ruta de acceso relativa o el valor estático de los archivos de origen. La expresión se admite para este último. | • Nombre • Valor |
No | columnas adicionales: • nombre •valor |