Configurar Azure Data Lake Storage Gen2 en una actividad de copia
En este artículo, se describe cómo usar la actividad de copia en la canalización de datos para copiar datos desde y hacia Azure Data Lake Storage Gen2.
Formato admitido
Azure Data Lake Storage Gen2 admite los siguientes formatos de archivo. Consulte los artículos para conocer la configuración basada en el formato.
- Formato Avro
- Formato binario
- Formato de texto delimitado
- Formato Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configuración admitida
Para la configuración de cada pestaña en la actividad de copia, vaya a las secciones siguientes respectivamente.
General
Consulte las instruccionesgenerales para configurar la pestaña de parámetros General.
Origen
Las siguientes propiedades son compatibles con Azure Data Lake Storage Gen2 en la pestaña Origen de una actividad de copia.
Se requieren las siguientes propiedades:
Tipo de almacén de datos: seleccione Externo.
Conexión: seleccione una conexión de Azure Data Lake Storage Gen2 de la lista de conexiones. Si no existe ninguna conexión, se debe crear una nueva conexión de Azure Data Lake Storage Gen2 seleccionando Nuevo.
Tipo de conexión: seleccione Azure Data Lake Storage Gen2.
Tipo de ruta de archivo: puede elegir Ruta de archivo, Ruta de archivo con carácter comodín o Lista de archivos como tipo de ruta de archivo. La configuración de cada una de estas opciones es:
Ruta de archivo: si elige este tipo, los datos se pueden copiar desde el sistema de archivos especificado o la ruta del archivo/carpeta especificados previamente.
Ruta de acceso del archivo comodín: si elige este tipo, especifique el sistema de archivos y las rutas de acceso comodín.
Sistema de archivos: nombre del sistema de archivos de Azure Data Lake Storage Gen2.
Rutas del archivo comodín: especifique la carpeta o la ruta del archivo con caracteres comodín en el sistema de archivos especificado para filtrar las carpetas o archivos de origen.
Los caracteres comodín permitidos son:
*
(equivale a cero o a varios caracteres) y?
(equivale a cero o a un único carácter). Use^
como escape si el nombre de la carpeta contiene un carácter comodín o este carácter de escape. Para obtener más ejemplos, vaya a Ejemplos de filtros de carpetas y archivos .Ruta de acceso de carpeta comodín: especifique la ruta de acceso de la carpeta con caracteres comodín en el sistema de archivos especificado para filtrar las carpetas de origen.
Nombre del archivo comodín: especifique el nombre del archivo con caracteres comodín en la ruta del sistema de archivos y la carpeta especificados (o la ruta de la carpeta comodín) para filtrar los archivos de origen.
Lista de archivos: indica que quiere copiar un conjunto de archivos determinado. Especifica la Ruta de la carpeta y Ruta a la lista de archivos para apuntar a un archivo de texto que incluya una lista de los archivos que se quieren copiar, con un archivo por línea, el cual es la ruta relativa a la ruta. Para obtener más ejemplos, vaya a Ejemplos de lista de archivos .
Ruta de acceso de carpeta: especifique la ruta de acceso a una carpeta en el sistema de archivos especificado. Es obligatorio.
Ruta de acceso a la lista de archivos: especifique la ruta de acceso del archivo de texto que incluye una lista de archivos que desea copiar.
Recursivamente: especifica si los datos se leen recursivamente desde las subcarpetas o solo desde la carpeta especificada. Tenga en cuenta que cuando se selecciona Desplegar y el destino es un almacén basado en archivos, no se copia ni crea una carpeta o subcarpeta vacía en el destino. Esta propiedad está seleccionada de forma predeterminada y no se aplica al configurar Ruta de acceso a la lista de archivos.
Formato de archivo: seleccione el formato de archivo en la lista desplegable. Seleccione Configuración para configurar el formato de archivo. Para ver la configuración de diferentes formatos de archivo, consulte artículos en Formato admitido para obtener información detallada.
En Avanzado, puede especificar los campos siguientes:
Filtrar por última modificación: los archivos se filtran en función de las fechas de última modificación. Esta propiedad no se aplica cuando se configura el tipo de ruta de acceso de archivos como Lista de archivos.
Hora de inicio (UTC): los archivos se seleccionan si su última hora de modificación es mayor o igual que la hora configurada.
Hora de finalización (UTC): los archivos se seleccionan si su última hora de modificación es inferior a la hora configurada.
Cuando Hora de inicio (UTC) tiene el valor de fecha y hora, pero Hora de finalización (UTC) es NULL, significa que se seleccionarán los archivos cuyo último atributo modificado sea mayor o igual que el valor de la fecha y hora. Cuando Hora de finalización (UTC) tiene el valor de fecha y hora, pero Hora de inicio (UTC) es NULL, significa que se seleccionarán los archivos cuyo último atributo modificado sea inferior al valor de la fecha y hora. Las propiedades pueden ser NULL, en cuyo caso no se aplica ningún filtro de atributo de archivo al conjunto de datos.
Habilitar la detección de particiones: especifique si quiere analizar las particiones de la ruta de acceso del archivo y agregarlas como columnas de origen adicionales. No se selecciona de forma predeterminada y no se admite cuando se usa el formato de archivo binario.
Ruta de acceso a la partición: cuando se habilita la detección de particiones, especifique la ruta de acceso raíz absoluta para leer las carpetas particionadas como columnas de datos.
Si no se especifica, de forma predeterminada,
- Cuando se usa la ruta de acceso de archivo o una lista de archivos del origen, la ruta de acceso raíz de la partición es la ruta de acceso que ha configurado.
- Cuando se usa el filtro de carpeta con caracteres comodín, la ruta de acceso raíz de la partición es la subruta antes del primer carácter comodín.
Por ejemplo, suponiendo que configura la ruta de acceso como
root/folder/year=2020/month=08/day=27
:- Si especifica la ruta de acceso raíz de la partición como
root/folder/year=2020
, la actividad de copia generará dos columnas más, mes y día, con el valor "08" y "27", respectivamente, además de las columnas de los archivos. - Si no se especifica la ruta de acceso raíz de la partición, no se generará ninguna columna adicional.
Máximo de conexiones simultáneas: esta propiedad indica el límite superior de conexiones simultáneas establecidas con el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas.
Columnas adicionales: añada columnas de datos adicionales para almacenar la ruta relativa o el valor estático de los archivos de origen. La expresión se admite para este último.
Destino
Las siguientes propiedades son compatibles con Azure Data Lake Storage Gen2 en la pestaña Destino de una actividad de copia.
Se requieren las siguientes propiedades:
- Tipo de almacén de datos: seleccione Externo.
- Conexión: seleccione una conexión de Azure Data Lake Storage Gen2 de la lista de conexiones. Si no existe ninguna conexión, se debe crear una nueva conexión de Azure Data Lake Storage Gen2 seleccionando Nuevo.
- Tipo de conexión: seleccione Azure Data Lake Storage Gen2.
- Ruta de archivo : seleccione Examinar para elegir el archivo que quiere copiar o rellene la ruta manualmente.
- Formato de archivo: seleccione el formato de archivo en la lista desplegable. Seleccione Configuración para configurar el formato de archivo. Para ver la configuración de diferentes formatos de archivo, consulte artículos en Formato admitido para obtener información detallada.
En Avanzado, puede especificar los campos siguientes:
Comportamiento de copia: define el comportamiento de copia cuando el origen son archivos de un almacén de datos basado en archivos. Puedes elegir un comportamiento en la lista desplegable.
- Aplanar jerarquía: todos los archivos de la carpeta de origen se encuentran en el primer nivel de la carpeta de destino. Los archivos de destino tienen nombres generados automáticamente.
- Combinar archivos: combina todos los archivos de la carpeta de origen en un archivo. Si se especifica el nombre del archivo, el nombre de archivo combinado es el nombre especificado. De lo contrario, es un nombre de archivo generado automáticamente.
- Preservar jerarquía: conserva la jerarquía de archivos en la carpeta de destino. La ruta de acceso relativa del archivo de origen que apunta a la carpeta de origen es idéntica a la ruta de acceso relativa del archivo de destino que apunta a la carpeta de destino.
Máximo de conexiones simultáneas: límite superior de conexiones simultáneas establecidas con el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas.
Tamaño del bloque (MB): especifique el tamaño del bloque en MB que se usa para escribir datos en Azure Data Lake Storage Gen2. Para más información, consulte Blobs en bloques. El valor permitido está entre 4 y 100 MB.
De manera predeterminada, el tamaño del bloque se determina automáticamente en función del tipo y los datos del almacén de origen. En el caso de una copia no binaria en Azure Data Lake Storage Gen2, el tamaño de bloque predeterminado es de 100 MB, con el fin de ajustarse como máximo a aproximadamente 4,75 TB de datos. Es posible que no sea óptimo cuando los datos no sean de gran tamaño. Puede especificar explícitamente un tamaño de bloque, al tiempo que se garantiza que Tamaño del bloque (MB)*50 000 sea lo suficientemente grande como para almacenar los datos; de lo contrario, se producirá un error en la ejecución de la actividad de copia.
Metadatos: establezca metadatos personalizados al copiar en un destino. Cada objeto de la matriz
metadata
representa una columna adicional.name
define el nombre de la clave de metadatos yvalue
indica el valor de los datos de esa clave. Si se usa la característica para conservar atributos, los metadatos especificados se unirán a los metadatos del archivo de origen o los sobrescribirán.Los valores permitidos de los datos son:
$$LASTMODIFIED
: una variable reservada indica que se debe almacenar la hora de la última modificación de los archivos de origen. Se debe aplicar solo a un origen basado en archivos con formato binario.- Expression
- Valor estático
Asignación
Para la configuración de la pestañaAsignación, vaya a Configurar las asignaciones en la pestaña asignación . Si elige Binario como formato de archivo, no se admite la asignación.
Configuración
Para la configuración de la pestaña Parámetros, vaya a Configurar los otros parámetros en parámetros de pestaña.
Resumen de tabla
Las tablas siguientes contienen más información sobre la actividad de copia en Azure Data Lake Storage Gen2.
Información de origen
Nombre | Descripción | Value | Obligatorio | Propiedad de script JSON |
---|---|---|---|---|
Tipo de almacén de datos | El tipo de almacén de datos. | Externo | Sí | / |
Connection | La conexión al almacén de datos de origen. | <la conexión de Azure Data Lake Storage Gen2> | Sí | conexión |
Tipo de conexión | El tipo de conexión. Seleccione Azure Data Lake Storage Gen2. | Azure Data Lake Storage Gen2 | Sí | / |
Tipo de ruta de acceso de archivo | Tipo de ruta de acceso de archivo que desea usar. | • Ruta del archivo • Ruta de acceso de carpeta comodín, nombre de archivo comodín •Lista de archivos |
Sí | • folderPath, fileName, fileSystem • wildcardFolderPath, wildcardFileName, fileSystem • folderPath, fileName, fileListPath |
Recursively | Indica si los datos se leen de forma recursiva de las subcarpetas o solo de la carpeta especificada. Tenga en cuenta que cuando se selecciona Recursivamente y el destino es un almacén basado en archivos, no se copia ni crea una carpeta o subcarpeta vacía en el destino. Esta propiedad no se aplica al configurar Ruta a la lista de archivos. | Seleccionado (predeterminado) o no seleccionado | No | recursive |
Filtrar por última modificación | Los archivos con la hora de la última modificación en el intervalo [Hora de inicio, Hora de finalización) se filtrarán para su posterior procesamiento. La hora se aplicará a la zona horaria UTC con el formato yyyy-mm-ddThh:mm:ss.fffZ . Esta propiedad se puede omitir, lo que significa que no se aplicará ningún filtro de atributo de archivo. Esta propiedad no se aplica cuando se configura el tipo de ruta de acceso de archivos como Lista de archivos. |
datetime | No | modifiedDatetimeStart modifiedDatetimeEnd |
Habilitar detección de particiones | Indica si se analizan las particiones de la ruta de acceso del archivo y se agregan como columnas de origen adicionales. | seleccionado o no seleccionado (valor predeterminado) | No | enablePartitionDiscovery: true o false (valor predeterminado) |
Ruta de acceso raíz de la partición | Cuando esté habilitada la detección de particiones, especifique la ruta de acceso raíz absoluta para poder leer las carpetas con particiones como columnas de datos. | < ruta de acceso raíz a su partición > | No | partitionRootPath |
Número máximo de conexiones simultáneas | Número máximo de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas. | < número máximo de conexiones simultáneas > | No | maxConcurrentConnections |
Columnas adicionales | Agregue columnas de datos adicionales para almacenar la ruta de acceso relativa o el valor estático de los archivos de origen. La expresión se admite para este último. | • Name • Valor |
No | additionalColumns: • nombre • valor |
Información de destino
Nombre | Descripción | Value | Obligatorio | Propiedad de script JSON |
---|---|---|---|---|
Tipo de almacén de datos | El tipo de almacén de datos. | Externo | Sí | / |
Connection | La conexión al almacén de datos de destino. | <la conexión de Azure Data Lake Storage Gen2> | Sí | conexión |
Tipo de conexión | El tipo de conexión. Seleccione Azure Data Lake Storage Gen2. | Azure Data Lake Storage Gen2 | Sí | / |
Ruta de acceso del archivo | Ruta de acceso del archivo de los datos de destino. | < la ruta del archivo > | Sí | folderPath, fileName, fileSystem |
Comportamiento de copia | Define el comportamiento de copia cuando el origen son archivos de un almacén de datos basados en archivos. | • Aplanar jerarquía • Combinar de archivos • Conservar jerarquía |
No | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Número máximo de conexiones simultáneas | Número máximo de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas. | < número máximo de conexiones simultáneas > | No | maxConcurrentConnections |
Tamaño del bloque (MB) | Especifique el tamaño de bloque en MB al escribir datos en Azure Data Lake Storage Gen2. El valor permitido está entre 4 y 100 MB. | <tamaño de bloque> | No | blockSizeInMB |
Metadata | Establezca metadatos personalizados al realizar la copia en el destino. | • $$LASTMODIFIED • Expression • Valor estático |
No | metadata |