Compartir a través de


Configuración de Amazon S3 Compatible en una actividad de copia

En este artículo se describe cómo usar la actividad de copia en una canalización de datos para copiar datos desde Amazon S3 Compatible.

Permisos necesarios

Para copiar datos de Amazon S3 Compatible, asegúrese de que se han concedido los permisos siguientes para las operaciones de objeto de Amazon S3 Compatible: s3:GetObject y s3:GetObjectVersion.

Además,s3:ListAllMyBuckets ys3:ListBucket/s3:GetBucketLocation se requieren permisos para operaciones como probar la conexión y navegar desde la raíz.

Para obtener la lista completa de permisos de Amazon S3 Compatible, vaya a Especificación de permisos en una directiva en el sitio web de AWS.

Formato admitido

Amazon S3 Compatible admite los siguientes formatos de archivo. Consulte los artículos para conocer la configuración basada en el formato.

Configuración admitida

Para la configuración de cada pestaña en la actividad de copia, vaya a las secciones siguientes respectivamente.

General

Consulte las instruccionesgenerales para configurar la pestaña de parámetros General.

Source

Las siguientes propiedades son compatibles con Amazon S3 Compatible en la pestañaOrigen de una actividad de copia.

Screenshot showing source tab and the list of properties.

Se requieren las siguientes propiedades:

  • Tipo de almacén de datos: seleccione Externo.

  • Conexión: Seleccione una conexión Amazon S3 Compatible de la lista de conexiones. Si no existe ninguna conexión, cree una nueva conexión Amazon S3 Compatible seleccionandoNueva.

  • Tipo de conexión: seleccione Amazon S3 Compatible para el tipo de conexión.

  • Tipo de ruta de archivo : Puede elegir Ruta de archivo, Prefijo, Ruta de archivo comodín o Lista de archivos como tipo de ruta de archivo. La configuración de cada valor es:

    • Ruta del archivo : si elige este tipo, los datos se pueden copiar desde el cubo o la ruta de la carpeta especificados.

    • Prefijo: si elige este tipo, especifique el Cubo y elPrefijo.

      • Cubo: especifique el nombre del cubo de S3 Compatible Storage. Es obligatorio.

      • Prefijo: especifique el prefijo del nombre de la clave de S3 Compatible Storage en el cubo específico para filtrar archivos de origen de S3 Compatible Storage. Se seleccionan las claves de S3 Compatible Storage cuyos nombres comienzan por bucket/this_prefix. Se emplea el filtro del servicio de S3 Compatible Storage, que proporciona un mejor rendimiento que el filtro de comodín.

        Al usar el prefijo y elegir copiar en el destino basado en archivos con la opción de conservar la jerarquía, tenga en cuenta que la subruta de acceso después del último "/" en el prefijo se conserva. Por ejemplo, si tiene el archivo bucket/folder/subfolder/file.txt de origen y configura el prefijo como folder/sub, la ruta del archivo que se conserva es subfolder/file.txt.

      Screenshot showing prefix.

    • Ruta de acceso del archivo comodín: si elige este tipo, especifique el CuboyRutas de acceso comodín.

      • Cubo: especifique el nombre del cubo de S3 Compatible Storage. Es obligatorio.

      • Rutas de acceso comodín : especifique la carpeta o la ruta del archivo con caracteres comodín debajo de su cubo especificado para filtrar sus carpetas o archivos de origen.

        Los caracteres comodín permitidos son: * (equivale a cero o a varios caracteres) y ? (equivale a cero o a un único carácter). Use ^ como escape si el nombre de la carpeta contiene un carácter comodín o este carácter de escape. Ver más ejemplos en Ejemplos de filtros de carpetas y archivos. Screenshot showing wildcard file path.Ruta de acceso de carpeta comodín: la ruta de acceso de la carpeta con caracteres comodín en el cubo especificado para filtrar las carpetas de origen.

        Nombre del archivo comodín: el nombre del archivo con caracteres comodín debajo de la ruta del cubo y la carpeta (o la ruta de la carpeta comodín) especificado para filtrar los archivos de origen.

    • Lista de archivos: si selecciona este tipo, especifique la Ruta de acceso de la carpeta y la Ruta de acceso a la lista de archivos para indicar que se copia un conjunto de archivos determinado. Apunte a un archivo de texto que incluya una lista de los archivos que quiere copiar, con un archivo por línea, que sea la ruta de acceso relativa a la ruta de acceso configurada. Para obtener más ejemplos, vaya a Ejemplos de lista de archivos .

      Screenshot showing list of files.

      • Ruta de acceso de la carpeta: especifique la ruta de acceso a la carpeta en el cubo especificado. Es obligatorio.
      • Ruta de acceso a la lista de archivos: especifique la ruta de acceso del archivo de texto que incluye una lista de archivos que desea copiar.
  • Formato de archivo: seleccione el formato de archivo en la lista desplegable. Seleccione Configuración para configurar el formato de archivo. Para ver la configuración de diferentes formatos de archivo, consulte artículos en Formato admitido para obtener información detallada.

  • Recursivamente: especifica si los datos se leen recursivamente desde las subcarpetas o solo desde la carpeta especificada. Tenga en cuenta que cuando se selecciona Recursivamente y el destino es un almacén basado en archivos, no se copia ni crea una carpeta o subcarpeta vacía en el destino. Esta propiedad está seleccionada de forma predeterminada y no se aplica al configurar Ruta de acceso a la lista de archivos.

En Avanzado, puede especificar los campos siguientes:

  • Filtrar por última modificación: los archivos se filtran en función de las fechas de última modificación que especifique. Esta propiedad no se aplica cuando se configura el tipo de ruta de acceso de archivos como Lista de archivos.

    • Hora de inicio (UTC): los archivos se seleccionan si su última hora de modificación es mayor o igual que la hora configurada.
    • Hora de finalización (UTC): los archivos se seleccionan si su última hora de modificación es inferior a la hora configurada.

    Cuando Hora de inicio (UTC) tiene el valor de fecha y hora, pero Hora de finalización (UTC) es NULL, significa que se seleccionarán los archivos cuyo último atributo modificado sea mayor o igual que el valor de la fecha y hora. Cuando Hora de finalización (UTC) tiene el valor de fecha y hora, pero Hora de inicio (UTC) es NULL, significa que se seleccionarán los archivos cuyo último atributo modificado sea inferior al valor de la fecha y hora. Las propiedades pueden ser NULL, en cuyo caso no se aplica ningún filtro de atributo de archivo al conjunto de datos.

  • Habilitar la detección de particiones: especifique si quiere analizar las particiones de la ruta de acceso del archivo y agregarlas como columnas de origen adicionales. No se selecciona de forma predeterminada y no se admite cuando se usa el formato de archivo binario.

    • Ruta de acceso a la partición: cuando se habilita la detección de particiones, especifique la ruta de acceso raíz absoluta para leer las carpetas particionadas como columnas de datos.

      Si no se especifica, de forma predeterminada,

      • Cuando se usa la ruta de acceso de archivo o una lista de archivos del origen, la ruta de acceso raíz de la partición es la ruta de acceso que ha configurado.
      • Cuando se usa el filtro de carpeta con caracteres comodín, la ruta de acceso raíz de la partición es la subruta antes del primer carácter comodín.
      • - Cuando se usa un prefijo, la ruta de acceso raíz de la partición es la subruta antes del último "/".

      Por ejemplo, suponiendo que configura la ruta de acceso como root/folder/year=2020/month=08/day=27:

      • Si especifica la ruta de acceso raíz de la partición como root/folder/year=2020, la actividad de copia generará dos columnas más, mes y día, con el valor "08" y "27", respectivamente, además de las columnas de los archivos.
      • Si no se especifica la ruta de acceso raíz de la partición, no se generará ninguna columna adicional.

      Screenshot showing Enable partition discovery.

  • Conexión simultánea máxima : el límite superior de conexiones concurrentes establecidas al almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas.

  • Columnas adicionales: añada columnas de datos adicionales para almacenar la ruta relativa o el valor estático de los archivos de origen. La expresión se admite para este último.

Destino

Las siguientes propiedades son compatibles con Amazon S3 Compatible en la pestaña Destino de una actividad de copia.

Screenshot showing destination tab and the list of properties.

Se requieren las siguientes propiedades:

  • Tipo de almacén de datos: seleccione Externo.
  • Conexión: Seleccione una conexión Amazon S3 Compatible de la lista de conexiones. Si no existe ninguna conexión, cree una nueva conexión Amazon S3 Compatible seleccionandoNueva.
  • Tipo de conexión: seleccione Amazon S3 Compatible para el tipo de conexión.
  • Ruta del archivo: los datos se pueden copiar al cubo o al cubo y a la ruta de acceso de la carpeta especificados.
  • Formato de archivo: seleccione el formato de archivo en la lista desplegable. Seleccione Configuración para configurar el formato de archivo. Para ver la configuración de diferentes formatos de archivo, consulte artículos en Formato admitido para obtener información detallada.

En Avanzado, puede especificar los campos siguientes:

  • Comportamiento de copia: define el comportamiento de copia cuando el origen son archivos de un almacén de datos basado en archivos. Puedes elegir un comportamiento en la lista desplegable.

    • Aplanar jerarquía: todos los archivos de la carpeta de origen se encuentran en el primer nivel de la carpeta de destino. Los archivos de destino tienen nombres generados automáticamente.
    • Combinar archivos: combina todos los archivos de la carpeta de origen en un archivo. Si se especifica el nombre del archivo, el nombre de archivo combinado es el nombre especificado. De lo contrario, es un nombre de archivo generado automáticamente.
    • Preservar jerarquía: conserva la jerarquía de archivos en la carpeta de destino. La ruta de acceso relativa del archivo de origen que apunta a la carpeta de origen es idéntica a la ruta de acceso relativa del archivo de destino que apunta a la carpeta de destino.
  • Máximo de conexiones simultáneas: esta propiedad indica el límite superior de conexiones simultáneas establecidas con el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas.

Asignación

En configuración de la pestaña Asignación, vaya a Configurar las asignaciones en la pestaña Asignación. Si elige Binario como formato de archivo, no se admitirá la asignación.

Configuración

Para la configuración de la pestaña Parámetros, vaya a Configurar los otros parámetros en parámetros de pestaña.

Resumen de tabla

Las tablas siguientes contienen más información sobre la actividad de copia en Amazon S3 Compatible.

Información de origen

Nombre Descripción Value Obligatorio Propiedad de script JSON
Tipo de almacén de datos El tipo de almacén de datos. Externo /
Connection La conexión al almacén de datos de origen. <su conexión con Amazon S3 Compatible> conexión
Tipo de conexión Seleccione un tipo para la conexión. Amazon S3 Compatible /
Tipo de ruta de acceso de archivo El tipo de ruta de acceso de archivo que se usa para obtener datos de origen. Ruta del archivo
Prefijo
Ruta de acceso del archivo con carácter comodín
Lista de archivos
/
Para ruta de acceso de archivo
Cubo Nombre del cubo de S3 Compatible Storage. <el nombre del cubo> bucketName
Directorio La ruta de acceso a la carpeta del cubo especificado. <el nombre de su carpeta> No folderpath
Nombre de archivo El nombre de archivo en el cubo y la ruta de acceso de la carpeta especificados. <el nombre de su archivo> No fileName
Para prefijo
Cubo Nombre del cubo de S3 Compatible Storage. <el nombre del cubo> bucketName
Prefijo El prefijo del nombre de la clave de S3 Compatible Storage en el cubo específico para filtrar archivos de origen de S3 Compatible Storage. <su prefijo> No prefix
Para la ruta de acceso del archivo con carácter comodín
Cubo Nombre del cubo de S3 Compatible Storage. <el nombre del cubo> bucketName
Ruta de acceso de la carpeta comodín Ruta de acceso de carpeta con caracteres comodín en el cubo especificado para filtrar carpetas de origen. <ruta de acceso de su carpeta con caracteres comodín> No wildcardFolderPath
Nombre de archivo con caracteres comodín Nombre de archivo con caracteres comodín en el cubo y la ruta de carpeta (o ruta de carpeta con carácter comodín) especificada para filtrar los archivos de origen. <el nombre de su archivo con caracteres comodín> wildcardFileName
Para lista de archivos
Cubo Nombre del cubo de S3 Compatible Storage. <el nombre del cubo> bucketName
Directorio La ruta de acceso a la carpeta del cubo especificado. <el nombre de su carpeta> No folderpath
Ruta de acceso a la lista de archivos Indica que se copie un conjunto de archivos determinado. Señale un archivo de texto que incluya una lista de los archivos que quiere copiar, con un archivo por línea. > ruta de acceso de la lista de archivos < No fileListPath
Formato de archivo El formato de archivo para los datos de origen. Para ver la configuración de los diferentes formatos de archivo, consulte artículos en Formato admitido para obtener información detallada. / /
Recursively Indica si los datos se leen de forma recursiva de las subcarpetas o solo de la carpeta especificada. Tenga en cuenta que cuando se selecciona Recursivamente y el destino es un almacén basado en archivos, no se copia ni crea una carpeta o subcarpeta vacía en el destino. Esta propiedad no se aplica al configurar Ruta a la lista de archivos. Seleccionado (predeterminado) o no seleccionado No recursive
Filtrar por última modificación Los archivos con la hora de la última modificación en el intervalo [Hora de inicio, Hora de finalización) se filtrarán para su posterior procesamiento. La hora se aplicará a la zona horaria UTC con el formato yyyy-mm-ddThh:mm:ss.fffZ. Esta propiedad se puede omitir, lo que significa que no se aplicará ningún filtro de atributo de archivo. Esta propiedad no se aplica cuando se configura el tipo de ruta de acceso de archivos como Lista de archivos. datetime No modifiedDatetimeStart
modifiedDatetimeEnd
Habilitar detección de particiones Indica si se analizan las particiones de la ruta de acceso del archivo y se agregan como columnas de origen adicionales. seleccionado o no seleccionado (valor predeterminado) No enablePartitionDiscovery:
true o false (valor predeterminado)
Ruta de acceso raíz de la partición Cuando esté habilitada la detección de particiones, especifique la ruta de acceso raíz absoluta para poder leer las carpetas con particiones como columnas de datos. < ruta de acceso raíz a su partición > No partitionRootPath
conexión simultánea máxima Número máximo de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas. < número máximo de conexiones simultáneas > No maxConcurrentConnections
Columnas adicionales Agregue columnas de datos adicionales para almacenar la ruta de acceso relativa o el valor estático de los archivos de origen. La expresión se admite para este último. • Name
• Valor
No additionalColumns:
• nombre
• valor

Información de destino

Nombre Descripción Value Obligatorio Propiedad de script JSON
Tipo de almacén de datos El tipo de almacén de datos. Externo /
Connection La conexión al almacén de datos de destino. <su conexión con Amazon S3 Compatible> conexión
Tipo de conexión Seleccione un tipo para la conexión. Amazon S3 Compatible /
Ruta de acceso del archivo Ruta de acceso de carpeta o archivo al archivo de destino. <ruta de acceso de carpeta o archivo> /
Cubo Nombre del cubo de S3 Compatible Storage. <el nombre del cubo> bucketName
Directorio La ruta de acceso a la carpeta del cubo especificado. <el nombre de su carpeta> No folderpath
Nombre de archivo El nombre de archivo en el cubo y la ruta de acceso de la carpeta especificados. <el nombre de su archivo> No fileName
Comportamiento de copia Define el comportamiento de copia cuando el origen son archivos de un almacén de datos basados en archivos. • Aplanar jerarquía
• Combinar de archivos
• Conservar jerarquía
No copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Número máximo de conexiones simultáneas Número máximo de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas. < número máximo de conexiones simultáneas > No maxConcurrentConnections