Configuración de Lakehouse en una actividad de copia
En este artículo se describe cómo usar la actividad de copia en una canalización de datos para copiar datos desde y hacia Fabric Lakehouse. De forma predeterminada, los datos se escriben en la tabla Lakehouse en V-Order y puede ir a optimización de tablas de Delta Lake y V-Order para obtener más información.
Formato admitido
Lakehouse admite los siguientes formatos de archivo. Consulte los artículos para conocer la configuración basada en el formato.
- Formato Avro
- Formato binario
- Formato de texto delimitado
- Formato Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configuración admitida
Para la configuración de cada pestaña en la actividad de copia, vaya a las secciones siguientes respectivamente.
General
Para la configuración de la pestaña General , vaya a General.
Origen
Las siguientes propiedades son compatibles con Lakehouse en la pestaña Origen de una actividad de copia.
Las siguientes propiedades son obligatorias:
Conexión: seleccione una conexión de Lakehouse en la lista de conexiones. Si no existe ninguna conexión, cree una nueva conexión de Lakehouse seleccionando Más en la parte inferior de la lista de conexiones. Si aplica Usar contenido dinámico para especificar la instancia de Lakehouse, agregue un parámetro y especifique el identificador de objeto de Lakehouse como valor de parámetro. Para obtener el identificador de objeto de Lakehouse, abra Lakehouse en el área de trabajo. El identificador se encuentra después de
/lakehouses/
en la URL.Carpeta raíz: seleccione Tablas o archivos, que indica la vista virtual del área administrada o no administrada en el lago. Para más información, consulte Introducción a Lakehouse.
Si selecciona Tablas:
Nombre de tabla: elija una tabla existente de la lista de tablas o especifique un nombre de tabla como origen. O bien, puede seleccionar Nuevo para crear una nueva tabla.
Tabla: al aplicar Lakehouse con esquemas en la conexión, elija una tabla existente con un esquema de la tabla con lista o especifique una tabla con un esquema como origen. O bien, puede seleccionar Nuevo para crear una nueva tabla con un esquema. Si no especifica un nombre de esquema, el servicio usará dbo como esquema predeterminado.
En Avanzado, puede especificar los campos siguientes:
- Marca de tiempo: especifique para consultar una instantánea anterior por marca de tiempo.
- Versión: especifique para consultar una instantánea anterior por versión.
- Columnas adicionales: agregue columnas de datos adicionales a la ruta de acceso relativa o al valor estático de los archivos de origen. La expresión se admite para este último.
Se admite la versión 1 del lector. Puede encontrar las características de Delta Lake admitidas correspondientes en este artículo.
Si selecciona Archivos:
Tipo de ruta de acceso de archivo: puede elegir Ruta de acceso de archivo, Ruta de acceso de archivo con carácter comodín o Lista de archivos como tipo de ruta de acceso de archivo. La siguiente lista describe la configuración de cada opción:
Ruta de acceso del archivo: seleccione Examinar para elegir el archivo que desea copiar o rellene la ruta de acceso manualmente.
Ruta de acceso al archivo con carácter comodín: especifique la ruta de acceso de carpeta o archivo con caracteres comodín en el área de Lakehouse no administrada especificada (en Archivos) para filtrar las carpetas o archivos de origen. Los caracteres comodín permitidos son:
*
(equivale a cero o a varios caracteres) y?
(equivale a cero o a un único carácter). Use^
como escape si el nombre de la carpeta o archivo contiene un carácter comodín o este carácter de escape.Ruta de acceso a la carpeta con carácter comodín: ruta de acceso a la carpeta bajo el contenedor dado. Si quiere usar un carácter comodín para filtrar la carpeta, omita este valor y especifíquelo en la configuración del origen de actividad.
Nombre de archivo con carácter comodín: el nombre de archivo en el área de Lakehouse no administrada especificada (en Archivos) y la ruta de acceso de la carpeta.
Lista de archivos: indica que se copie un conjunto de archivos determinado.
- Ruta de acceso a la carpeta: apunta a una carpeta que incluye los archivos que desea copiar.
- Ruta de acceso a la lista de archivos: apunta a un archivo de texto que incluye una lista de los archivos que se quieren copiar, con un archivo por línea, que es la ruta de acceso relativa a la ruta de archivo configurada.
Recursivamente: indica si los datos se leen recursivamente de las subcarpetas o solo de la carpeta especificada. Si está habilitado, todos los archivos de la carpeta de entrada y sus subcarpetas se procesan de forma recursiva. Esta propiedad no se aplica cuando se configura el tipo de ruta de acceso de archivos como Lista de archivos.
Formato de archivo: seleccione el formato de archivo en la lista desplegable. Seleccione el botón Configuración para configurar el formato de archivo. Para ver la configuración de diferentes formatos de archivo, consulte artículos en Formato admitido para obtener información detallada.
En Avanzado, puede especificar los campos siguientes:
- Filtrar por última modificación: los archivos se filtran en función de las fechas de última modificación. Esta propiedad no se aplica cuando se configura el tipo de ruta de acceso de archivos como Lista de archivos.
- Hora de inicio: los archivos se seleccionan si su última hora de modificación es mayor o igual que la hora configurada.
- Hora de finalización: los archivos se seleccionan si su última hora de modificación es inferior a la hora configurada.
- Habilitar detección de particiones: para archivos con particiones, especifique si quiere analizar las particiones de la ruta de acceso del archivo y agregarlas como columnas de origen adicionales.
- Ruta de acceso a la partición: cuando se habilita la detección de particiones, especifique la ruta de acceso raíz absoluta para leer las carpetas particionadas como columnas de datos.
- Máximo de conexiones simultáneas: indica el límite superior de conexiones simultáneas establecidas con el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas.
- Filtrar por última modificación: los archivos se filtran en función de las fechas de última modificación. Esta propiedad no se aplica cuando se configura el tipo de ruta de acceso de archivos como Lista de archivos.
Destino
Las siguientes propiedades son compatibles con Lakehouse en la pestaña Destino de una actividad de copia.
Las siguientes propiedades son obligatorias:
Conexión: seleccione una conexión de Lakehouse en la lista de conexiones. Si no existe ninguna conexión, cree una nueva conexión de Lakehouse seleccionando Más en la parte inferior de la lista de conexiones. Si aplica Usar contenido dinámico para especificar la instancia de Lakehouse, agregue un parámetro y especifique el identificador de objeto de Lakehouse como valor de parámetro. Para obtener el identificador de objeto de Lakehouse, abra Lakehouse en el área de trabajo. El identificador se encuentra después de
/lakehouses/
en la URL.Carpeta raíz: seleccione Tablas o archivos, que indica la vista virtual del área administrada o no administrada en el lago. Para más información, consulte Introducción a Lakehouse.
Si selecciona Tablas:
Nombre de tabla: elija una tabla existente de la lista de tablas o especifique un nombre de tabla como destino. O bien, puede seleccionar Nuevo para crear una nueva tabla.
Tabla: al aplicar Lakehouse con esquemas en la conexión, elija una tabla existente con un esquema de la tabla con lista o especifique una tabla con un esquema como destino. O bien, puede seleccionar Nuevo para crear una nueva tabla con un esquema. Si no especifica un nombre de esquema, el servicio usará dbo como esquema predeterminado.
En Avanzado, puede especificar los campos siguientes:
Acciones de tabla: especifique la operación en la tabla seleccionada.
Anexar: anexe nuevos valores a la tabla existente.
- Habilitar partición: esta selección permite crear particiones en una estructura de carpetas basada en una o varias columnas. Cada valor de columna distinto (par) es una nueva partición. Por ejemplo, "year=2000/month=01/file".
- Nombre de columna de partición: seleccione entre las columnas de destino de la asignación de esquemas al anexar datos a una nueva tabla. Al anexar datos a una tabla existente que ya tiene particiones, las columnas de partición se derivan de la tabla existente automáticamente. Los tipos de datos admitidos son cadena, entero, booleano y datetime. La configuración de la conversión del tipo de formato se establece en la pestaña Asignación.
- Habilitar partición: esta selección permite crear particiones en una estructura de carpetas basada en una o varias columnas. Cada valor de columna distinto (par) es una nueva partición. Por ejemplo, "year=2000/month=01/file".
Sobrescribir: sobrescriba los datos y el esquema existentes en la tabla usando los nuevos valores. Si se selecciona esta operación, puede habilitar la partición en la tabla de destino:
- Habilitar partición: esta selección permite crear particiones en una estructura de carpetas basada en una o varias columnas. Cada valor de columna distinto (par) es una nueva partición. Por ejemplo, "year=2000/month=01/file".
- Nombre de columna de partición: seleccione entre las columnas de destino en la asignación de esquemas. Los tipos de datos admitidos son cadena, entero, booleano y datetime. La configuración de la conversión del tipo de formato se establece en la pestaña Asignación.
Es compatible con el viaje en el tiempo de Delta Lake. La tabla sobrescrita tiene registros delta para las versiones anteriores, a las que puede acceder en Lakehouse. También puede copiar la tabla de versiones anterior de Lakehouse especificando Versión en el origen de la actividad de copia.
- Habilitar partición: esta selección permite crear particiones en una estructura de carpetas basada en una o varias columnas. Cada valor de columna distinto (par) es una nueva partición. Por ejemplo, "year=2000/month=01/file".
Máximo de conexiones simultáneas: límite superior de conexiones simultáneas establecidas con el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas.
Se admite la versión 2 del escritor. Puede encontrar las características de Delta Lake admitidas correspondientes en este artículo.
Si selecciona Archivos:
Ruta de acceso del archivo: seleccione Examinar para elegir el archivo que desea copiar o rellene la ruta de acceso manualmente.
Formato de archivo: seleccione el formato de archivo en la lista desplegable. Seleccione Configuración para configurar el formato de archivo. Para ver la configuración de diferentes formatos de archivo, consulte artículos en Formato admitido para obtener información detallada.
En Avanzado, puede especificar los campos siguientes:
Comportamiento de copia: define el comportamiento de copia cuando el origen son archivos de un almacén de datos basado en archivos. Puede elegir Aplanar jerarquía, Combinación de archivos, Preservar jerarquía o Agregar contenido dinámico como comportamiento de copia. La configuración de cada valor es:
Aplanar jerarquía: todos los archivos de la carpeta de origen se encuentran en el primer nivel de la carpeta de destino. Los archivos de destino tienen nombres generados automáticamente.
Combinar archivos: combina todos los archivos de la carpeta de origen en un archivo. Si se especifica el nombre del archivo, el nombre de archivo combinado es el nombre especificado. De lo contrario, es un nombre de archivo generado automáticamente.
Preservar jerarquía: conserva la jerarquía de archivos en la carpeta de destino. La ruta de acceso relativa de un archivo de origen a la carpeta de origen es idéntica que la ruta de acceso relativa de un archivo de destino a la carpeta de destino.
Agregar contenido dinámico: para especificar una expresión para un valor de propiedad, seleccione Agregar contenido dinámico. Este campo abre el generador de expresiones, donde puede compilar expresiones a partir de variables del sistema compatibles, resultados de actividades, funciones y variables o parámetros especificados por el usuario. Para más información sobre el lenguaje de expresiones, vaya a Expresiones y funciones.
Máximo de conexiones simultáneas: límite superior de conexiones simultáneas establecidas con el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas.
Tamaño de bloque (MB): especifique el tamaño del bloque en MB al escribir datos en Lakehouse. El valor permitido está entre 4 y 100 MB.
Metadatos: establezca metadatos personalizados al copiarlos en el almacén de datos de destino. Cada objeto de la matriz
metadata
representa una columna adicional.name
define el nombre de la clave de metadatos yvalue
indica el valor de los datos de esa clave. Si se usa la característica para conservar atributos, los metadatos especificados se unirán a los metadatos del archivo de origen o los sobrescribirán. Los valores permitidos de los datos son:
Asignación
Para la configuración de la pestaña Asignación, si no aplica la tabla de Lakehouse como almacén de datos de destino, vaya a Asignación.
Si aplica la tabla de Lakehouse como almacén de datos de destino, salvo la configuración en Asignación, puede editar el tipo para las columnas de destino. Después de seleccionar Importar esquemas, puede especificar el tipo de columna en el destino.
Por ejemplo, el tipo de la columna PersonID de origen es int y puede cambiarlo a tipo de cadena al asignar a la columna de destino.
Nota:
La edición del tipo de destino no se admite actualmente cuando el origen es de tipo decimal.
Si elige Binario como formato de archivo, no se admite la asignación.
Configuración
Para los ajustes de la pestaña Configuración, vaya a Configuración.
Resumen de tabla
Las tablas siguientes contienen más información sobre una actividad de copia en Lakehouse.
Información de origen
Nombre | Descripción | Value | Obligatorio | Propiedad de script JSON |
---|---|---|---|---|
Connection | La sección para seleccionar la conexión. | < su conexión de Lakehouse> | Sí | workspaceId artifactId |
Carpeta raíz | Tipo de la carpeta raíz. | • Tablas • Archivos |
No | rootFolder: Tabla o archivos |
Nombre de la tabla | Nombre de la tabla de la que desea leer datos. | <nombre de la tabla> | Sí cuando selecciona Tablas en Carpeta raíz | table |
Tabla | El nombre de la tabla con un esquema en la que desea leer datos al aplicar Lakehouse con esquemas como conexión. | <la tabla con un esquema> | Sí cuando selecciona Tablas en Carpeta raíz | / |
Para Tablas | ||||
nombre del esquema | Nombre del esquema. | <el nombre del esquema> (el valor predeterminado es dbo) |
No | (en source ->datasetSettings ->typeProperties )esquema |
nombre de la tabla | Nombre de la tabla. | <nombre de la tabla> | Sí | table |
Marca de tiempo | La marca de tiempo para consultar una instantánea más antigua. | <timestamp> | No | timestampAsOf |
Versión | La versión para consultar una instantánea más antigua. | <version> | No | versionAsOf |
Columnas adicionales | Columnas de datos adicionales para almacenar la ruta de acceso relativa o el valor estático de los archivos de origen. La expresión se admite para este último. | • Name • Valor |
No | additionalColumns: • nombre • valor |
Tipo de ruta de acceso de archivo | Tipo de la ruta de acceso del archivo que usa. | • Ruta del archivo • Ruta de acceso del archivo con carácter comodín • Lista de archivos |
Sí cuando selecciona Archivos en Carpeta raíz | / |
Ruta de acceso del archivo | Copiar desde la ruta de acceso a una carpeta o archivo en el almacén de datos de origen. | <ruta de acceso del archivo> | Sí cuando elija Ruta de acceso de archivo | • folderPath • fileName |
Ruta de acceso con carácter comodín | La ruta de acceso a la carpeta con caracteres comodín bajo el almacén de datos de origen configurado para filtrar las carpetas de origen. | <rutas de acceso con carácter comodín> | Sí cuando se elige Ruta de archivo con carácter comodín | • wildcardFolderPath • wildcardFileName |
Folder path (Ruta de acceso a la carpeta) | Apunta a una carpeta que incluye los archivos que desea copiar. | <ruta de acceso a la carpeta> | No | folderPath |
Ruta de acceso a la lista de archivos | Indica que se copie un conjunto de archivos determinado. Apunte a un archivo de texto que incluya una lista de los archivos que quiere copiar, con un archivo por línea, que sea la ruta de acceso relativa a la ruta de acceso configurada. | <ruta de acceso a la lista de archivos> | No | fileListPath |
Recursively | Procese todos los archivos de la carpeta de entrada y sus subcarpetas de forma recursiva o solo los de la carpeta seleccionada. Esta configuración está deshabilitada cuando se selecciona un único archivo. | seleccionar o anular la selección | No | recursive: true o false |
Formato de archivo | El formato de archivo para los datos de origen. Para ver la configuración de los diferentes formatos de archivo, consulte artículos en Formato admitido para obtener información detallada. | / | Sí cuando selecciona Archivos en Carpeta raíz | / |
Filtrar por última modificación | Los archivos con la hora de la última modificación en el intervalo [Hora de inicio, Hora de finalización) se filtrarán para su posterior procesamiento. La hora se aplica a la zona horaria UTC con el formato yyyy-mm-ddThh:mm:ss.fffZ .Esta propiedad se puede omitir, lo que significa que no se aplica ningún filtro de atributo de archivo. Esta propiedad no se aplica cuando se configura el tipo de ruta de acceso de archivos como Lista de archivos. |
• Hora de inicio • Hora de finalización |
No | modifiedDatetimeStart modifiedDatetimeEnd |
Habilitar detección de particiones | Si se analizan las particiones de la ruta de acceso del archivo y se agregan como columnas de origen adicionales. | Seleccionado o no seleccionado | No | enablePartitionDiscovery: true o false (valor predeterminado) |
Ruta de acceso raíz de la partición | Ruta de acceso raíz de partición absoluta para leer carpetas con particiones como columnas de datos. | <ruta de acceso a su partición> | No | partitionRootPath |
Número máximo de conexiones simultáneas | Número máximo de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Solo se necesita un valor cuando se quieren limitar las conexiones simultáneas. | <número máximo de conexiones simultáneas> | No | maxConcurrentConnections |
Información de destino
Nombre | Descripción | Value | Obligatorio | Propiedad de script JSON |
---|---|---|---|---|
Connection | La sección para seleccionar la conexión. | < su conexión de Lakehouse> | Sí | workspaceId artifactId |
Carpeta raíz | Tipo de la carpeta raíz. | • Tablas • Archivos |
Sí | rootFolder: Tabla o archivos |
Nombre de la tabla | Nombre de la tabla en la que desea escribir datos. | <nombre de la tabla> | Sí cuando selecciona Tablas en Carpeta raíz | table |
Tabla | El nombre de la tabla con un esquema en la que desea escribir datos al aplicar Lakehouse con esquemas como conexión. | <la tabla con un esquema> | Sí cuando selecciona Tablas en Carpeta raíz | / |
Para Tablas | ||||
nombre del esquema | Nombre del esquema. | <el nombre del esquema> (el valor predeterminado es dbo) |
No | (en sink ->datasetSettings ->typeProperties )esquema |
nombre de la tabla | Nombre de la tabla. | <nombre de la tabla> | Sí | table |
Acción Table | Anexar nuevos valores a una tabla existente o sobrescribir los datos y el esquema existentes en la tabla usando los nuevos valores. | • Anexar • Sobrescribir |
No | tableActionOption: Anexar o sobrescribir el esquema |
Habilitar partición | Esta selección permite crear particiones en una estructura de carpetas basada en una o varias columnas. Cada valor de columna distinto (par) es una nueva partición. Por ejemplo, "year=2000/month=01/file". | Seleccionado o no seleccionado | No | partitionOption: PartitionByKey o ninguna |
Columnas de partición | Columnas de destino en la asignación de esquemas. | <tus columnas de partición> | No | partitionNameList |
Ruta de acceso del archivo | Escriba datos en la ruta de acceso a una carpeta o archivo en el almacén de datos de destino. | <ruta de acceso del archivo> | No | • folderPath • fileName |
Formato de archivo | Formato de archivo de los datos de destino. Para ver la configuración de los diferentes formatos de archivo, consulte artículos en Formato admitido para obtener información detallada. | / | Sí cuando selecciona Archivos en Carpeta raíz | / |
Comportamiento de copia | El comportamiento de copia definido cuando el origen son archivos de un almacén de datos basado en archivos. | • Aplanar jerarquía • Combinar de archivos • Conservar jerarquía • Agregar contenido dinámico |
No | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Número máximo de conexiones simultáneas | Número máximo de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas. | < número máximo de conexiones simultáneas > | No | maxConcurrentConnections |
Tamaño del bloque (MB) | El tamaño de bloque en MB usado para escribir datos en Lakehouse. El valor permitido está entre 4 y 100 MB. | <tamaño de bloque> | No | blockSizeInMB |
Metadata | Metadatos personalizados establecidos al copiar en un destino. | • $$LASTMODIFIED • Expression • Valor estático |
No | metadata |