Compartir por


Configuración de Lakehouse en una actividad de copia

En este artículo se describe cómo usar la actividad de copia en una canalización de datos para copiar datos desde y hacia Fabric Lakehouse. De forma predeterminada, los datos se escriben en la Tabla Lakehouse en V-Order, y puede consultar Optimización de Tablas de Delta Lake y V-Order para obtener más información.

Formato admitido

Lakehouse admite los siguientes formatos de archivo. Consulte los artículos para conocer la configuración basada en el formato.

Configuración admitida

Para la configuración de cada pestaña en la actividad de copia, vaya a las secciones siguientes respectivamente.

General

Para la configuración de la pestaña General , vaya a General.

Origen

Las siguientes propiedades son compatibles con Lakehouse en la pestaña Origen de una actividad de copia.

Captura de pantalla que muestra la pestaña de origen y la lista de propiedades.

Las siguientes propiedades son obligatorias:

  • Conexión: seleccione una conexión de Lakehouse en la lista de conexiones. Si no existe ninguna conexión, cree una nueva conexión de Lakehouse seleccionando Más en la parte inferior de la lista de conexiones. Si aplica Usar contenido dinámico para especificar la instancia de Lakehouse, agregue un parámetro y especifique el identificador de objeto de Lakehouse como valor de parámetro. Para obtener el identificador de objeto de Lakehouse, abra Lakehouse en el área de trabajo. El identificador se encuentra después de /lakehouses/en la URL.

    Captura de pantalla que muestra el id. de objeto de Lakehouse.

  • Carpeta raíz: seleccione Tablas o archivos, que indica la vista virtual del área administrada o no administrada en el lago. Para más información, consulte Introducción a Lakehouse.

    • Si selecciona Tablas:

      • Nombre de tabla: elija una tabla existente de la lista de tablas o especifique un nombre de tabla como origen. O bien, puede seleccionar Nuevo para crear una nueva tabla.

        Captura de pantalla que muestra el nombre de la tabla.

      • Tabla: Al aplicar Lakehouse con esquemas en la conexión, elija una tabla existente con un esquema de la lista de tablas o especifique una tabla con un esquema como origen. O bien, puede seleccionar Nuevo para crear una nueva tabla con un esquema. Si no especifica un nombre de esquema, el servicio usará dbo como esquema predeterminado.

        Captura de pantalla que muestra el nombre de la tabla con esquema.

      • En Avanzado, puede especificar los campos siguientes:

        • Marca de tiempo: especifique para consultar una instantánea anterior por marca de tiempo.
        • Versión: especifique para consultar una instantánea anterior por versión.
        • Columnas adicionales: agregue columnas de datos adicionales a la ruta de acceso relativa o al valor estático de los archivos de origen. La expresión se admite para este último.
    • Si selecciona Archivos:

      • Tipo de ruta de acceso de archivo: puede elegir Ruta de acceso de archivo, Ruta de acceso de archivo con carácter comodín o Lista de archivos como tipo de ruta de acceso de archivo. La siguiente lista describe la configuración de cada opción:

        Captura de pantalla que muestra la ruta de acceso al archivo.

        • Ruta de acceso del archivo: seleccione Examinar para elegir el archivo que desea copiar o rellene la ruta de acceso manualmente.

        • Ruta de acceso al archivo con carácter comodín: especifique la ruta de acceso de carpeta o archivo con caracteres comodín en el área de Lakehouse no administrada especificada (en Archivos) para filtrar las carpetas o archivos de origen. Los caracteres comodín permitidos son: * (equivale a cero o a varios caracteres) y ? (equivale a cero o a un único carácter). Use ^ como escape si el nombre de la carpeta o archivo contiene un carácter comodín o este carácter de escape.

          • Ruta de acceso a la carpeta con carácter comodín: ruta de acceso a la carpeta bajo el contenedor dado. Si quiere usar un carácter comodín para filtrar la carpeta, omita esta configuración y especifique esa información en la configuración del origen de actividad.

          • Nombre de archivo con carácter comodín: el nombre de archivo en el área de Lakehouse no administrada especificada (en Archivos) y la ruta de acceso de la carpeta.

            Recorte de pantalla en el que se muestra la ruta del archivo comodín.

        • Lista de archivos: indica que se copie un conjunto de archivos determinado.

          • Ruta de acceso a la carpeta: apunta a una carpeta que incluye los archivos que desea copiar.
          • Ruta de acceso a la lista de archivos: apunta a un archivo de texto que incluye una lista de los archivos que se quieren copiar, con un archivo por línea, que es la ruta de acceso relativa a la ruta de archivo configurada.

          Captura de pantalla que muestra la ruta de acceso a la lista de archivos.

      • Recursivamente: indica si los datos se leen recursivamente de las subcarpetas o solo de la carpeta especificada. Si está habilitado, todos los archivos de la carpeta de entrada y sus subcarpetas se procesan de forma recursiva. Esta propiedad no se aplica cuando se configura el tipo de ruta de acceso de archivos como Lista de archivos.

      • Formato de archivo: seleccione el formato de archivo en la lista desplegable. Seleccione el botón Configuración para configurar el formato de archivo. Para ver la configuración de diferentes formatos de archivo, consulte artículos en Formato admitido para obtener información detallada.

      • En Avanzado, puede especificar los campos siguientes:

        • Filtrar por última modificación: los archivos se filtran en función de las fechas de última modificación. Esta propiedad no se aplica cuando se configura el tipo de ruta de acceso de archivos como Lista de archivos.
          • Hora de inicio: los archivos se seleccionan si su última hora de modificación es mayor o igual que la hora configurada.
          • Hora de finalización: los archivos se seleccionan si su última hora de modificación es inferior a la hora configurada.
        • Habilitar detección de particiones: para archivos con particiones, especifique si quiere analizar las particiones de la ruta de acceso del archivo y agregarlas como columnas de origen adicionales.
          • Ruta de acceso a la partición: cuando se habilita la detección de particiones, especifique la ruta de acceso raíz absoluta para leer las carpetas particionadas como columnas de datos.
        • Máximo de conexiones simultáneas: indica el límite superior de conexiones simultáneas establecidas con el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas.

Destino

Las siguientes propiedades son compatibles con Lakehouse en la pestaña Destino de una actividad de copia.

Captura de pantalla que muestra la pestaña de destino.

Las siguientes propiedades son obligatorias:

  • Conexión: seleccione una conexión de Lakehouse en la lista de conexiones. Si no existe ninguna conexión, cree una nueva conexión de Lakehouse seleccionando Más en la parte inferior de la lista de conexiones. Si aplica Usar contenido dinámico para especificar la instancia de Lakehouse, agregue un parámetro y especifique el identificador de objeto de Lakehouse como valor de parámetro. Para obtener el identificador de objeto de Lakehouse, abra Lakehouse en el área de trabajo. El identificador se encuentra después de /lakehouses/en la URL.

    Captura de pantalla que muestra el id. de objeto de Lakehouse.

  • Carpeta raíz: seleccione Tablas o archivos, que indica la vista virtual del área administrada o no administrada en el lago. Para más información, consulte Introducción a Lakehouse.

    • Si selecciona Tablas:

      • Nombre de tabla: elija una tabla existente de la lista de tablas o especifique un nombre de tabla como destino. O bien, puede seleccionar Nuevo para crear una nueva tabla.

        Captura de pantalla que muestra el nombre de la tabla.

      • Tabla: Cuando aplique Lakehouse con esquemas en la conexión, elija una tabla existente con un esquema de la lista de tablas o especifique una tabla con un esquema como destino. O bien, puede seleccionar Nuevo para crear una nueva tabla con un esquema. Si no especifica un nombre de esquema, el servicio usará dbo como esquema predeterminado.

        Captura de pantalla que muestra el nombre de la tabla con esquema.

      Nota:

      El nombre de la tabla debe ser al menos un carácter largo, sin '/' o '\', sin ningún punto final y sin espacios iniciales o finales.

      • En Advanced, puede especificar los siguientes campos:
        • Acciones de tabla: especifique la operación en la tabla seleccionada.

          • Anexar: anexe nuevos valores a la tabla existente.

            • Habilitar partición: esta selección permite crear particiones en una estructura de carpetas basada en una o varias columnas. Cada valor de columna distinto (par) es una nueva partición. Por ejemplo, "año=2000/mes=01/archivo".
              • Nombre de columna de partición: seleccione entre las columnas de destino de la asignación de esquemas al anexar datos a una nueva tabla. Al anexar datos a una tabla existente que ya tiene particiones, las columnas de partición se derivan de la tabla existente automáticamente. Los tipos de datos admitidos son cadena, entero, booleano y datetime. El formato respeta las configuraciones de conversión de tipo en la pestaña Mapeo.
          • Sobrescribir: sobrescriba los datos y el esquema existentes en la tabla usando los nuevos valores. Si se selecciona esta operación, puede habilitar la partición en la tabla de destino:

            • Habilitar partición: esta selección permite crear particiones en una estructura de carpetas basada en una o varias columnas. Cada valor de columna distinto (par) es una nueva partición. Por ejemplo, "año=2000/mes=01/archivo".
              • Nombre de la columna de partición: seleccione entre las columnas de destino en la asignación de esquemas. Los tipos de datos admitidos son cadena, entero, booleano y datetime. El formato respeta las configuraciones de conversión de tipo en la pestaña Mapeo.

            Es compatible con el viaje en el tiempo de Delta Lake. La tabla sobrescrita tiene registros Delta para las versiones anteriores, a las que puede acceder en Lakehouse. También puede copiar la tabla de versiones anterior de Lakehouse especificando Versión en el origen de la actividad de copia.

          • Upsert (versión preliminar): inserte nuevos valores en la tabla existente y actualice los valores existentes. Upsert no se admite cuando se usan tablas de Lakehouse con particiones.

            • columnas clave: elija la columna que se usa para determinar si una fila del origen coincide con una fila del destino. Lista desplegable que enumera todas las columnas de destino. Puede seleccionar una o varias columnas para que se traten como columnas clave mientras escriben en Lakehouse Table.
        • Máximo de conexiones simultáneas: límite superior de conexiones simultáneas establecidas con el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas.

    • Si selecciona Archivos:

      • Ruta de acceso del archivo: seleccione Examinar para elegir el archivo que desea copiar o rellene la ruta de acceso manualmente.

        Captura de pantalla que muestra la ruta de acceso de los archivos en destino.

      • Formato de archivo: seleccione el formato de archivo en la lista desplegable. Seleccione Configuración para configurar el formato de archivo. Para ver la configuración de diferentes formatos de archivo, consulte artículos en Formato admitido para obtener información detallada.

      • En Avanzado, puede especificar los campos siguientes:

        • Comportamiento de copia: define el comportamiento de copia cuando el origen son archivos de un almacén de datos basado en archivos. Puede elegir Aplanar jerarquía, Combinación de archivos, Preservar jerarquía o Agregar contenido dinámico como comportamiento de copia. La configuración de cada valor es:

          • Aplanar jerarquía: todos los archivos de la carpeta de origen se encuentran en el primer nivel de la carpeta de destino. Los archivos de destino tienen nombres generados automáticamente.

          • Combinar archivos: combina todos los archivos de la carpeta de origen en un archivo. Si se especifica el nombre del archivo, el nombre de archivo combinado es el nombre especificado. De lo contrario, es un nombre de archivo generado automáticamente.

          • Preservar jerarquía: conserva la jerarquía de archivos en la carpeta de destino. La ruta de acceso relativa de un archivo de origen a la carpeta de origen es idéntica que la ruta de acceso relativa de un archivo de destino a la carpeta de destino.

          • Agregar contenido dinámico: para especificar una expresión para un valor de propiedad, seleccione Agregar contenido dinámico. Este campo abre el generador de expresiones, donde puede compilar expresiones a partir de variables del sistema compatibles, resultados de actividades, funciones y variables o parámetros especificados por el usuario. Para más información sobre el lenguaje de expresiones, vaya a Expresiones y funciones.

            Captura de pantalla que muestra el comportamiento de la copia.

        • Máximo de conexiones simultáneas: límite superior de conexiones simultáneas establecidas con el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas.

        • Tamaño de bloque (MB): especifique el tamaño del bloque en MB al escribir datos en Lakehouse. El valor permitido está entre 4 y 100 MB.

        • Metadatos: establezca metadatos personalizados al copiarlos en el almacén de datos de destino. Cada objeto de la matriz metadata representa una columna adicional. name define el nombre de la clave de metadatos y value indica el valor de los datos de esa clave. Si se usa la característica para conservar atributos, los metadatos especificados se unirán a los metadatos del archivo de origen o los sobrescribirán. Los valores permitidos de los datos son:

          • $$LASTMODIFIED: una variable reservada indica que se debe almacenar la hora de la última modificación de los archivos de origen. Se aplica solo al origen basado en archivos con formato binario.

          • Expresión

          • Valor estático

            Captura de pantalla que muestra los metadatos.

Asignación

Para la configuración de la pestaña Asignación, si no aplica la tabla de Lakehouse como almacén de datos de destino, vaya a Asignación.

Si aplica la tabla de Lakehouse como almacén de datos de destino, salvo la configuración en Asignación, puede editar el tipo para las columnas de destino. Después de seleccionar Importar esquemas, puede especificar el tipo de columna en el destino.

Por ejemplo, el tipo de la columna PersonID de origen es int y puedes cambiarlo a tipo cadena al asignar a la columna de destino.

Captura de pantalla del tipo de columna del destino de mapeo.

Nota:

La edición del tipo de destino no se admite actualmente cuando el origen es de tipo decimal.

Si elige Binario como formato de archivo, no se admite el mapeo.

Configuración

Para los ajustes de la pestaña Configuración, vaya a Configuración.

Compatibilidad con tablas de Delta Lake

En las secciones siguientes, encontrará información detallada sobre la compatibilidad con la tabla de Delta Lake para el origen y el destino.

Origen

Se admite la versión 1 del lector. Puede encontrar las características de Delta Lake admitidas correspondientes en este artículo.

La asignación de columnas Delta se admite cuando se aplica la versión 2 del lector o la versión 3 del lector con columnMapping en la tabla readerFeatures de Lakehouse.

La funcionalidad de asignación de columnas de la tabla Delta permite una evolución de esquema más flexible, lo que garantiza que los cambios en la estructura de la tabla no interrumpan los flujos de trabajo de datos. Con la asignación de columnas, puede leer datos de una tabla de Delta Lake existente con delta.columnMapping.mode establecido en name o id.

Los vectores de eliminación se admiten cuando se aplica la versión 3 del lector con deletionVectors en readerFeatures, en la tabla de Lakehouse. Las filas eliminadas temporalmente se marcan en los archivos vectoriales de eliminación y se omiten al leer la tabla de Delta Lake.

Destino

Se admite la versión 2 de Writer. Puede encontrar las características de Delta Lake admitidas correspondientes en este artículo.

Se admite la asignación de columnas Delta. Esta funcionalidad permite una evolución de esquema más flexible, lo que garantiza que los cambios en la estructura de tablas no interrumpan los flujos de trabajo de datos. Con la asignación de columnas, puede:

  • Escriba datos en una tabla de Delta Lake existente con delta.columnMapping.mode establecido en name o id.
  • Cree automáticamente una tabla con delta.columnMapping.mode establecida en name cuando la tabla de destino no exista y las columnas de origen incluyan caracteres especiales y espacios en blanco.
  • Cree automáticamente una tabla con delta.columnMapping.mode establecida en name cuando la acción de la tabla sea sobrescribir y las columnas del conjunto de datos de origen incluyan caracteres especiales y espacios en blanco.

Resumen de tabla

Las tablas siguientes contienen más información sobre una actividad de copia en Lakehouse.

Información de origen

Nombre Descripción Valor Obligatorio Propiedad del script JSON
Conexión La sección para seleccionar tu conexión. < su conexión con Lakehouse> Id del espacio de trabajo
ID de artefacto
Carpeta raíz Tipo de la carpeta raíz. Tablas
Archivos
No rootFolder:
Tabla o archivos
Nombre de la tabla Nombre de la tabla de la que desea leer datos. <nombre de la tabla> Sí cuando selecciona Tablas en Carpeta raíz tabla
Tabla El nombre de la tabla con un esquema en el que desea leer datos al aplicar Lakehouse con esquemas como conexión. <la tabla con un esquema> Sí cuando selecciona Tablas en Carpeta raíz /
Para Tabla
nombre del esquema Nombre del esquema. <nombre del esquema>
(el valor predeterminado es dbo)
No (bajo source ->datasetSettings ->typeProperties)
esquema
nombre de la tabla Nombre de la tabla. <nombre de la tabla> tabla
Marca de tiempo La marca de tiempo para consultar una instantánea más antigua. <marca de tiempo> No timestampAsOf
Versión La versión para consultar una instantánea más antigua. <versión> No versionAsOf
Columnas adicionales Columnas de datos adicionales para almacenar la ruta de acceso relativa o el valor estático de los archivos de origen. La expresión se admite para este último. • Nombre
• Valor
No columnas adicionales:
• nombre
• valor
Tipo de ruta de acceso de archivo Tipo de ruta de acceso del archivo que usa. Ruta del archivo
Ruta de acceso del archivo con carácter comodín
Lista de archivos
Sí cuando selecciona Archivos en Carpeta raíz /
Ruta de acceso del archivo Copiar desde la ruta de acceso a una carpeta o archivo en el almacén de datos de origen. <ruta de acceso del archivo> Sí cuando elija Ruta de acceso de archivo * folderPath
• nombre de archivo
Ruta de acceso con carácter comodín La ruta de acceso a la carpeta con caracteres comodín bajo el almacén de datos de origen configurado para filtrar las carpetas de origen. <rutas de acceso con carácter comodín> Sí cuando se elige Ruta de archivo con carácter comodín * wildcardFolderPath
* wildcardFileName
Ruta de acceso de la carpeta Apunta a una carpeta que incluye los archivos que desea copiar. <ruta de acceso a la carpeta> No folderPath
Ruta de acceso a la lista de archivos Indica que se copie un conjunto de archivos determinado. Seleccione un archivo de texto que incluya una lista de archivos que quiere copiar, con un archivo por línea, que sea la ruta relativa a la configurada. <ruta de acceso a la lista de archivos> No fileListPath
Recursivamente Procese todos los archivos de la carpeta de entrada y sus subcarpetas de forma recursiva o solo los de la carpeta seleccionada. Esta configuración está deshabilitada cuando se selecciona un único archivo. seleccionar o anular la selección No recursivo:
verdadero o falso
Formato de archivo El formato de archivo para los datos de origen. Para obtener información sobre los diferentes formatos de archivo, consulte los artículos de Formato admitido para información detallada. / Sí cuando selecciona Archivos en Carpeta raíz /
Filtrar por última modificación Los archivos con la hora de la última modificación en el intervalo [Hora de inicio, Hora de finalización) se filtrarán para su posterior procesamiento.

La hora se aplica a la zona horaria UTC con el formato yyyy-mm-ddThh:mm:ss.fffZ.

Esta propiedad se puede omitir, lo que significa que no se aplica ningún filtro de atributo de archivo. Esta propiedad no se aplica cuando se configura el tipo de ruta de acceso de archivos como Lista de archivos.
Hora de inicio
Hora de finalización
No modifiedDatetimeStart
modifiedDatetimeEnd
Habilitar detección de particiones Si se analizan las particiones de la ruta de acceso del archivo y se agregan como columnas de origen adicionales. Seleccionado o no seleccionado No enablePartitionDiscovery:
true o false (valor predeterminado)
Ruta de acceso raíz de la partición Ruta raíz absoluta de la partición para leer carpetas particionadas como columnas de datos. <ruta de acceso a su partición> No partitionRootPath
Número máximo de conexiones simultáneas Número máximo de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Solo se necesita un valor cuando se quieren limitar las conexiones simultáneas. <número máximo de conexiones simultáneas> No máximo de conexiones simultáneas

Información de destino

Nombre Descripción Valor Obligatorio Propiedad del script JSON
Conexión La sección para seleccionar tu conexión. < su conexión con Lakehouse> Id del espacio de trabajo
ID de artefacto
Carpeta raíz Tipo de la carpeta raíz. Tablas
Archivos
rootFolder:
Tabla o archivos
Nombre de la tabla Nombre de la tabla en la que desea escribir datos. <nombre de la tabla> Sí cuando selecciona Tablas en Carpeta raíz tabla
Tabla El nombre de la tabla con un esquema a la que desea escribir datos al usar Lakehouse con esquemas como conexión. <la tabla con un esquema> Sí cuando selecciona Tablas en Carpeta raíz /
Para Tabla
nombre del esquema Nombre del esquema. <nombre del esquema>
(el valor predeterminado es dbo)
No (bajo sink ->datasetSettings ->typeProperties)
esquema
nombre de la tabla Nombre de la tabla. <nombre de la tabla> tabla
Acción de tabla Anexe nuevos valores a una tabla existente, sobrescriba los datos y el esquema existentes en la tabla mediante los nuevos valores o inserte nuevos valores en la tabla existente y actualice los valores existentes. Anexar
Sobrescribir
Upsert
No tableActionOption:
•Añadir
• SobrescribirSchema
• Upsert
Habilitar partición Esta selección permite crear particiones en una estructura de carpetas basada en una o varias columnas. Cada valor de columna distinto (par) es una nueva partición. Por ejemplo, "año=2000/mes=01/archivo". Seleccionado o no seleccionado No opción de partición
PartitionByKey o ninguna
Columnas de partición Columnas de destino en la asignación de esquemas. <sus columnas de partición> No listaDeNombresDePartición
Columnas de clave Elija qué columna se usa para determinar si una fila del origen coincide con una fila del destino. <tus columnas clave> columnas clave
Ruta de acceso del archivo Escriba datos en la ruta de acceso a una carpeta o archivo en el almacén de datos de destino. <ruta de acceso del archivo> No * folderPath
• nombre de archivo
Formato de archivo Formato de archivo de los datos de destino. Para obtener información sobre los diferentes formatos de archivo, consulte los artículos de Formato admitido para información detallada. / Sí cuando selecciona Archivos en Carpeta raíz /
Comportamiento de copia El comportamiento de copia definido cuando el origen son archivos de un almacén de datos basado en archivos. Aplanar jerarquía
Combinar archivos
Conservar jerarquía
Agregar contenido dinámico
No copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Número máximo de conexiones simultáneas Número máximo de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas. <número máximo de conexiones simultáneas> No máximo de conexiones simultáneas
Tamaño del bloque (MB) El tamaño de bloque en MB usado para escribir datos en Lakehouse. El valor permitido está entre 4 y 100 MB. <tamaño de bloque> No blockSizeInMB
Metadatos Metadatos personalizados establecidos al copiar en un destino. $$LASTMODIFIED
• Expresión
• Valor estático
No metadatos