Compartir a través de


Configuración de Lakehouse en una actividad de copia

En este artículo se describe cómo usar la actividad de copia en una canalización de datos para copiar datos desde y hacia Fabric Lakehouse. De forma predeterminada, los datos se escriben en la tabla Lakehouse en V-Order y puede ir a optimización de tablas de Delta Lake y V-Order para obtener más información.

Formato admitido

Lakehouse admite los siguientes formatos de archivo. Consulte los artículos para conocer la configuración basada en el formato.

Configuración admitida

Para la configuración de cada pestaña en la actividad de copia, vaya a las secciones siguientes respectivamente.

General

Para la configuración de la pestaña General , vaya a General.

Origen

Las siguientes propiedades son compatibles con Lakehouse en la pestaña Origen de una actividad de copia.

Captura de pantalla que muestra la pestaña de origen y la lista de propiedades.

Las siguientes propiedades son obligatorias:

  • Conexión: seleccione una conexión de Lakehouse en la lista de conexiones. Si no existe ninguna conexión, cree una nueva conexión de Lakehouse seleccionando Más en la parte inferior de la lista de conexiones. Si aplica Usar contenido dinámico para especificar la instancia de Lakehouse, agregue un parámetro y especifique el identificador de objeto de Lakehouse como valor de parámetro. Para obtener el identificador de objeto de Lakehouse, abra Lakehouse en el área de trabajo. El identificador se encuentra después de /lakehouses/en la URL.

    Captura de pantalla que muestra el id. de objeto de Lakehouse.

  • Carpeta raíz: seleccione Tablas o archivos, que indica la vista virtual del área administrada o no administrada en el lago. Para más información, consulte Introducción a Lakehouse.

    • Si selecciona Tablas:

      • Nombre de tabla: elija una tabla existente de la lista de tablas o especifique un nombre de tabla como origen. O bien, puede seleccionar Nuevo para crear una nueva tabla.

        Captura de pantalla que muestra el nombre de la tabla.

      • Tabla: al aplicar Lakehouse con esquemas en la conexión, elija una tabla existente con un esquema de la tabla con lista o especifique una tabla con un esquema como origen. O bien, puede seleccionar Nuevo para crear una nueva tabla con un esquema. Si no especifica un nombre de esquema, el servicio usará dbo como esquema predeterminado.

        Captura de pantalla que muestra el nombre de la tabla con esquema.

      • En Avanzado, puede especificar los campos siguientes:

        • Marca de tiempo: especifique para consultar una instantánea anterior por marca de tiempo.
        • Versión: especifique para consultar una instantánea anterior por versión.
        • Columnas adicionales: agregue columnas de datos adicionales a la ruta de acceso relativa o al valor estático de los archivos de origen. La expresión se admite para este último.

      Se admite la versión 1 del lector. Puede encontrar las características de Delta Lake admitidas correspondientes en este artículo.

    • Si selecciona Archivos:

      • Tipo de ruta de acceso de archivo: puede elegir Ruta de acceso de archivo, Ruta de acceso de archivo con carácter comodín o Lista de archivos como tipo de ruta de acceso de archivo. La siguiente lista describe la configuración de cada opción:

        Captura de pantalla que muestra la ruta de acceso al archivo.

        • Ruta de acceso del archivo: seleccione Examinar para elegir el archivo que desea copiar o rellene la ruta de acceso manualmente.

        • Ruta de acceso al archivo con carácter comodín: especifique la ruta de acceso de carpeta o archivo con caracteres comodín en el área de Lakehouse no administrada especificada (en Archivos) para filtrar las carpetas o archivos de origen. Los caracteres comodín permitidos son: * (equivale a cero o a varios caracteres) y ? (equivale a cero o a un único carácter). Use ^ como escape si el nombre de la carpeta o archivo contiene un carácter comodín o este carácter de escape.

          • Ruta de acceso a la carpeta con carácter comodín: ruta de acceso a la carpeta bajo el contenedor dado. Si quiere usar un carácter comodín para filtrar la carpeta, omita este valor y especifíquelo en la configuración del origen de actividad.

          • Nombre de archivo con carácter comodín: el nombre de archivo en el área de Lakehouse no administrada especificada (en Archivos) y la ruta de acceso de la carpeta.

            Captura de pantalla que muestra la ruta de acceso al archivo con carácter comodín.

        • Lista de archivos: indica que se copie un conjunto de archivos determinado.

          • Ruta de acceso a la carpeta: apunta a una carpeta que incluye los archivos que desea copiar.
          • Ruta de acceso a la lista de archivos: apunta a un archivo de texto que incluye una lista de los archivos que se quieren copiar, con un archivo por línea, que es la ruta de acceso relativa a la ruta de archivo configurada.

          Captura de pantalla que muestra la ruta de acceso a la lista de archivos.

      • Recursivamente: indica si los datos se leen recursivamente de las subcarpetas o solo de la carpeta especificada. Si está habilitado, todos los archivos de la carpeta de entrada y sus subcarpetas se procesan de forma recursiva. Esta propiedad no se aplica cuando se configura el tipo de ruta de acceso de archivos como Lista de archivos.

      • Formato de archivo: seleccione el formato de archivo en la lista desplegable. Seleccione el botón Configuración para configurar el formato de archivo. Para ver la configuración de diferentes formatos de archivo, consulte artículos en Formato admitido para obtener información detallada.

      • En Avanzado, puede especificar los campos siguientes:

        • Filtrar por última modificación: los archivos se filtran en función de las fechas de última modificación. Esta propiedad no se aplica cuando se configura el tipo de ruta de acceso de archivos como Lista de archivos.
          • Hora de inicio: los archivos se seleccionan si su última hora de modificación es mayor o igual que la hora configurada.
          • Hora de finalización: los archivos se seleccionan si su última hora de modificación es inferior a la hora configurada.
        • Habilitar detección de particiones: para archivos con particiones, especifique si quiere analizar las particiones de la ruta de acceso del archivo y agregarlas como columnas de origen adicionales.
          • Ruta de acceso a la partición: cuando se habilita la detección de particiones, especifique la ruta de acceso raíz absoluta para leer las carpetas particionadas como columnas de datos.
        • Máximo de conexiones simultáneas: indica el límite superior de conexiones simultáneas establecidas con el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas.

Destino

Las siguientes propiedades son compatibles con Lakehouse en la pestaña Destino de una actividad de copia.

Captura de pantalla que muestra la pestaña de destino.

Las siguientes propiedades son obligatorias:

  • Conexión: seleccione una conexión de Lakehouse en la lista de conexiones. Si no existe ninguna conexión, cree una nueva conexión de Lakehouse seleccionando Más en la parte inferior de la lista de conexiones. Si aplica Usar contenido dinámico para especificar la instancia de Lakehouse, agregue un parámetro y especifique el identificador de objeto de Lakehouse como valor de parámetro. Para obtener el identificador de objeto de Lakehouse, abra Lakehouse en el área de trabajo. El identificador se encuentra después de /lakehouses/en la URL.

    Captura de pantalla que muestra el id. de objeto de Lakehouse.

  • Carpeta raíz: seleccione Tablas o archivos, que indica la vista virtual del área administrada o no administrada en el lago. Para más información, consulte Introducción a Lakehouse.

    • Si selecciona Tablas:

      • Nombre de tabla: elija una tabla existente de la lista de tablas o especifique un nombre de tabla como destino. O bien, puede seleccionar Nuevo para crear una nueva tabla.

        Captura de pantalla que muestra el nombre de la tabla.

      • Tabla: al aplicar Lakehouse con esquemas en la conexión, elija una tabla existente con un esquema de la tabla con lista o especifique una tabla con un esquema como destino. O bien, puede seleccionar Nuevo para crear una nueva tabla con un esquema. Si no especifica un nombre de esquema, el servicio usará dbo como esquema predeterminado.

        Captura de pantalla que muestra el nombre de la tabla con esquema.

      • En Avanzado, puede especificar los campos siguientes:

        • Acciones de tabla: especifique la operación en la tabla seleccionada.

          • Anexar: anexe nuevos valores a la tabla existente.

            • Habilitar partición: esta selección permite crear particiones en una estructura de carpetas basada en una o varias columnas. Cada valor de columna distinto (par) es una nueva partición. Por ejemplo, "year=2000/month=01/file".
              • Nombre de columna de partición: seleccione entre las columnas de destino de la asignación de esquemas al anexar datos a una nueva tabla. Al anexar datos a una tabla existente que ya tiene particiones, las columnas de partición se derivan de la tabla existente automáticamente. Los tipos de datos admitidos son cadena, entero, booleano y datetime. La configuración de la conversión del tipo de formato se establece en la pestaña Asignación.
          • Sobrescribir: sobrescriba los datos y el esquema existentes en la tabla usando los nuevos valores. Si se selecciona esta operación, puede habilitar la partición en la tabla de destino:

            • Habilitar partición: esta selección permite crear particiones en una estructura de carpetas basada en una o varias columnas. Cada valor de columna distinto (par) es una nueva partición. Por ejemplo, "year=2000/month=01/file".
              • Nombre de columna de partición: seleccione entre las columnas de destino en la asignación de esquemas. Los tipos de datos admitidos son cadena, entero, booleano y datetime. La configuración de la conversión del tipo de formato se establece en la pestaña Asignación.

            Es compatible con el viaje en el tiempo de Delta Lake. La tabla sobrescrita tiene registros delta para las versiones anteriores, a las que puede acceder en Lakehouse. También puede copiar la tabla de versiones anterior de Lakehouse especificando Versión en el origen de la actividad de copia.

        • Máximo de conexiones simultáneas: límite superior de conexiones simultáneas establecidas con el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas.

      Se admite la versión 2 del escritor. Puede encontrar las características de Delta Lake admitidas correspondientes en este artículo.

    • Si selecciona Archivos:

      • Ruta de acceso del archivo: seleccione Examinar para elegir el archivo que desea copiar o rellene la ruta de acceso manualmente.

        Captura de pantalla que muestra la ruta de acceso de los archivos en destino.

      • Formato de archivo: seleccione el formato de archivo en la lista desplegable. Seleccione Configuración para configurar el formato de archivo. Para ver la configuración de diferentes formatos de archivo, consulte artículos en Formato admitido para obtener información detallada.

      • En Avanzado, puede especificar los campos siguientes:

        • Comportamiento de copia: define el comportamiento de copia cuando el origen son archivos de un almacén de datos basado en archivos. Puede elegir Aplanar jerarquía, Combinación de archivos, Preservar jerarquía o Agregar contenido dinámico como comportamiento de copia. La configuración de cada valor es:

          • Aplanar jerarquía: todos los archivos de la carpeta de origen se encuentran en el primer nivel de la carpeta de destino. Los archivos de destino tienen nombres generados automáticamente.

          • Combinar archivos: combina todos los archivos de la carpeta de origen en un archivo. Si se especifica el nombre del archivo, el nombre de archivo combinado es el nombre especificado. De lo contrario, es un nombre de archivo generado automáticamente.

          • Preservar jerarquía: conserva la jerarquía de archivos en la carpeta de destino. La ruta de acceso relativa de un archivo de origen a la carpeta de origen es idéntica que la ruta de acceso relativa de un archivo de destino a la carpeta de destino.

          • Agregar contenido dinámico: para especificar una expresión para un valor de propiedad, seleccione Agregar contenido dinámico. Este campo abre el generador de expresiones, donde puede compilar expresiones a partir de variables del sistema compatibles, resultados de actividades, funciones y variables o parámetros especificados por el usuario. Para más información sobre el lenguaje de expresiones, vaya a Expresiones y funciones.

            Captura de pantalla que muestra el comportamiento de la copia.

        • Máximo de conexiones simultáneas: límite superior de conexiones simultáneas establecidas con el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas.

        • Tamaño de bloque (MB): especifique el tamaño del bloque en MB al escribir datos en Lakehouse. El valor permitido está entre 4 y 100 MB.

        • Metadatos: establezca metadatos personalizados al copiarlos en el almacén de datos de destino. Cada objeto de la matriz metadata representa una columna adicional. name define el nombre de la clave de metadatos y value indica el valor de los datos de esa clave. Si se usa la característica para conservar atributos, los metadatos especificados se unirán a los metadatos del archivo de origen o los sobrescribirán. Los valores permitidos de los datos son:

          • $$LASTMODIFIED: una variable reservada indica que se debe almacenar la hora de la última modificación de los archivos de origen. Se aplica solo al origen basado en archivos con formato binario.

          • Expression

          • Valor estático

            Captura de pantalla que muestra los metadatos.

Asignación

Para la configuración de la pestaña Asignación, si no aplica la tabla de Lakehouse como almacén de datos de destino, vaya a Asignación.

Si aplica la tabla de Lakehouse como almacén de datos de destino, salvo la configuración en Asignación, puede editar el tipo para las columnas de destino. Después de seleccionar Importar esquemas, puede especificar el tipo de columna en el destino.

Por ejemplo, el tipo de la columna PersonID de origen es int y puede cambiarlo a tipo de cadena al asignar a la columna de destino.

Captura de pantalla del tipo de columna de destino de asignación.

Nota:

La edición del tipo de destino no se admite actualmente cuando el origen es de tipo decimal.

Si elige Binario como formato de archivo, no se admite la asignación.

Configuración

Para los ajustes de la pestaña Configuración, vaya a Configuración.

Resumen de tabla

Las tablas siguientes contienen más información sobre una actividad de copia en Lakehouse.

Información de origen

Nombre Descripción Value Obligatorio Propiedad de script JSON
Connection La sección para seleccionar la conexión. < su conexión de Lakehouse> workspaceId
artifactId
Carpeta raíz Tipo de la carpeta raíz. Tablas
Archivos
No rootFolder:
Tabla o archivos
Nombre de la tabla Nombre de la tabla de la que desea leer datos. <nombre de la tabla> Sí cuando selecciona Tablas en Carpeta raíz table
Tabla El nombre de la tabla con un esquema en la que desea leer datos al aplicar Lakehouse con esquemas como conexión. <la tabla con un esquema> Sí cuando selecciona Tablas en Carpeta raíz /
Para Tablas
nombre del esquema Nombre del esquema. <el nombre del esquema>
(el valor predeterminado es dbo)
No (en source ->datasetSettings ->typeProperties)
esquema
nombre de la tabla Nombre de la tabla. <nombre de la tabla> table
Marca de tiempo La marca de tiempo para consultar una instantánea más antigua. <timestamp> No timestampAsOf
Versión La versión para consultar una instantánea más antigua. <version> No versionAsOf
Columnas adicionales Columnas de datos adicionales para almacenar la ruta de acceso relativa o el valor estático de los archivos de origen. La expresión se admite para este último. • Name
• Valor
No additionalColumns:
• nombre
• valor
Tipo de ruta de acceso de archivo Tipo de la ruta de acceso del archivo que usa. Ruta del archivo
Ruta de acceso del archivo con carácter comodín
Lista de archivos
Sí cuando selecciona Archivos en Carpeta raíz /
Ruta de acceso del archivo Copiar desde la ruta de acceso a una carpeta o archivo en el almacén de datos de origen. <ruta de acceso del archivo> Sí cuando elija Ruta de acceso de archivo • folderPath
• fileName
Ruta de acceso con carácter comodín La ruta de acceso a la carpeta con caracteres comodín bajo el almacén de datos de origen configurado para filtrar las carpetas de origen. <rutas de acceso con carácter comodín> Sí cuando se elige Ruta de archivo con carácter comodín • wildcardFolderPath
• wildcardFileName
Folder path (Ruta de acceso a la carpeta) Apunta a una carpeta que incluye los archivos que desea copiar. <ruta de acceso a la carpeta> No folderPath
Ruta de acceso a la lista de archivos Indica que se copie un conjunto de archivos determinado. Apunte a un archivo de texto que incluya una lista de los archivos que quiere copiar, con un archivo por línea, que sea la ruta de acceso relativa a la ruta de acceso configurada. <ruta de acceso a la lista de archivos> No fileListPath
Recursively Procese todos los archivos de la carpeta de entrada y sus subcarpetas de forma recursiva o solo los de la carpeta seleccionada. Esta configuración está deshabilitada cuando se selecciona un único archivo. seleccionar o anular la selección No recursive:
true o false
Formato de archivo El formato de archivo para los datos de origen. Para ver la configuración de los diferentes formatos de archivo, consulte artículos en Formato admitido para obtener información detallada. / Sí cuando selecciona Archivos en Carpeta raíz /
Filtrar por última modificación Los archivos con la hora de la última modificación en el intervalo [Hora de inicio, Hora de finalización) se filtrarán para su posterior procesamiento.

La hora se aplica a la zona horaria UTC con el formato yyyy-mm-ddThh:mm:ss.fffZ.

Esta propiedad se puede omitir, lo que significa que no se aplica ningún filtro de atributo de archivo. Esta propiedad no se aplica cuando se configura el tipo de ruta de acceso de archivos como Lista de archivos.
Hora de inicio
Hora de finalización
No modifiedDatetimeStart
modifiedDatetimeEnd
Habilitar detección de particiones Si se analizan las particiones de la ruta de acceso del archivo y se agregan como columnas de origen adicionales. Seleccionado o no seleccionado No enablePartitionDiscovery:
true o false (valor predeterminado)
Ruta de acceso raíz de la partición Ruta de acceso raíz de partición absoluta para leer carpetas con particiones como columnas de datos. <ruta de acceso a su partición> No partitionRootPath
Número máximo de conexiones simultáneas Número máximo de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Solo se necesita un valor cuando se quieren limitar las conexiones simultáneas. <número máximo de conexiones simultáneas> No maxConcurrentConnections

Información de destino

Nombre Descripción Value Obligatorio Propiedad de script JSON
Connection La sección para seleccionar la conexión. < su conexión de Lakehouse> workspaceId
artifactId
Carpeta raíz Tipo de la carpeta raíz. Tablas
Archivos
rootFolder:
Tabla o archivos
Nombre de la tabla Nombre de la tabla en la que desea escribir datos. <nombre de la tabla> Sí cuando selecciona Tablas en Carpeta raíz table
Tabla El nombre de la tabla con un esquema en la que desea escribir datos al aplicar Lakehouse con esquemas como conexión. <la tabla con un esquema> Sí cuando selecciona Tablas en Carpeta raíz /
Para Tablas
nombre del esquema Nombre del esquema. <el nombre del esquema>
(el valor predeterminado es dbo)
No (en sink ->datasetSettings ->typeProperties)
esquema
nombre de la tabla Nombre de la tabla. <nombre de la tabla> table
Acción Table Anexar nuevos valores a una tabla existente o sobrescribir los datos y el esquema existentes en la tabla usando los nuevos valores. Anexar
Sobrescribir
No tableActionOption:
Anexar o sobrescribir el esquema
Habilitar partición Esta selección permite crear particiones en una estructura de carpetas basada en una o varias columnas. Cada valor de columna distinto (par) es una nueva partición. Por ejemplo, "year=2000/month=01/file". Seleccionado o no seleccionado No partitionOption:
PartitionByKey o ninguna
Columnas de partición Columnas de destino en la asignación de esquemas. <tus columnas de partición> No partitionNameList
Ruta de acceso del archivo Escriba datos en la ruta de acceso a una carpeta o archivo en el almacén de datos de destino. <ruta de acceso del archivo> No • folderPath
• fileName
Formato de archivo Formato de archivo de los datos de destino. Para ver la configuración de los diferentes formatos de archivo, consulte artículos en Formato admitido para obtener información detallada. / Sí cuando selecciona Archivos en Carpeta raíz /
Comportamiento de copia El comportamiento de copia definido cuando el origen son archivos de un almacén de datos basado en archivos. Aplanar jerarquía
Combinar de archivos
Conservar jerarquía
Agregar contenido dinámico
No copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Número máximo de conexiones simultáneas Número máximo de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas. < número máximo de conexiones simultáneas > No maxConcurrentConnections
Tamaño del bloque (MB) El tamaño de bloque en MB usado para escribir datos en Lakehouse. El valor permitido está entre 4 y 100 MB. <tamaño de bloque> No blockSizeInMB
Metadata Metadatos personalizados establecidos al copiar en un destino. $$LASTMODIFIED
• Expression
• Valor estático
No metadata