Compartir a través de


Carga de datos al Lakehouse utilizando particiones en una canalización

La característica de partición de la tabla Lakehouse como destino ofrece la capacidad de cargar datos en la tabla de Lakehouse con particiones. Las particiones se generan en el destino de Lakehouse y, a continuación, benefician los trabajos o el consumo de bajada.

Este tutorial le ayuda a aprender a cargar datos en Lakehouse usando particiones en una canalización. Por ejemplo, se carga el conjunto de datos de ejemplo en Lakehouse mediante una o varias columnas de partición mediante los pasos siguientes. El conjunto de datos de ejemplo Días festivos se usa como datos de muestra.

Requisito previo

Crear una canalización

  1. Vaya a Power BI.

  2. Seleccione el icono de Power BI en la parte inferior izquierda de la pantalla y, después, seleccione Data Factory para abrir la página principal de Data Factory.

  3. Vaya al área de trabajo de Microsoft Fabric. Si ha creado una nueva área de trabajo en la sección Requisitos previos anteriores, use esta.

    Captura de pantalla de la ventana de áreas de trabajo en la que se navega hasta el área de trabajo.

  4. Seleccione Canalización y escriba un nombre de canalización para crear una canalización.

    Captura de pantalla que muestra el botón de nueva tubería en el espacio de trabajo recién creado.

    Captura de pantalla que muestra el nombre de la creación de una nueva canalización.

Carga de datos en Lakehouse mediante columnas de partición

  1. Abra la canalización y agregue una actividad de copia seleccionando Actividad de canalización ->Copiar datos. En Origen, seleccione Más en la parte inferior de la lista de conexiones y, a continuación, seleccione Días festivos públicos en la pestaña Datos de ejemplo.

    Captura de pantalla que muestra el uso de un conjunto de datos de ejemplo.

    Captura de pantalla que muestra la selección de un conjunto de datos de ejemplo.

  2. En la pestaña Destino , seleccione Más en la parte inferior de la lista de conexiones y, a continuación, seleccione una instancia de Lakehouse existente en la pestaña OneLake , especifique su instancia de Lakehouse o cree una nueva instancia de Lakehouse en la pestaña Inicio . Elija Tabla en carpeta raíz y especifique el nombre de la tabla.

    Captura de pantalla de la configuración de destino.

  3. Expande Opciones avanzadas, en Acción de tabla, selecciona Sobrescribir y, a continuación, selecciona Habilitar partición, en Columnas de partición, selecciona Agregar columna y elige la columna que deseas usar como columna de partición. Puedes optar por usar una sola columna o varias columnas como columna de partición.

    Si usas una sola columna, countryOrRegion (tipo de cadena) se selecciona como ejemplo en este tutorial. Los datos se particionarán por valores de columna diferentes.

    Captura de pantalla que muestra la configuración de columnas de partición en el destino.

    Nota:

    La columna de partición que se puede seleccionar debe ser de tipo cadena, entero, booleano y datetime. Las columnas de otros tipos de datos no se muestran en la lista desplegable.

    Si usas varias columnas de partición, agrega una columna más y selecciona isPaidTimeOff, que es un tipo booleano como ejemplo. A continuación, ejecuta la canalización. La lógica es que la tabla se particiona por los primeros valores de columna agregados primero y, a continuación, los datos con particiones continúan particionados por los segundos valores de columna agregados.

    Captura de pantalla de la configuración de varias columnas de partición.

    Sugerencia

    Puedes arrastrar columnas para cambiar la secuencia de columnas y la secuencia de particiones también cambiará.

  4. Selecciona Ejecutar y selecciona Guardar y ejecutar para ejecutar la canalización.

    Captura de pantalla de guardar y ejecutar.

  5. Una vez que la canalización se ejecute correctamente, ve a Lakehouse. Busca la tabla que copiaste. Haz clic con el botón derecho en el nombre de tabla y selecciona Ver archivos.

    Para una columna de partición (countryOrRegion), la tabla se particiona en diferentes carpetas por nombre de país o región. El carácter especial del nombre de columna está codificado y puedes ver que el nombre de archivo es diferente de los valores de columna al ver los archivos en Lakehouse.

    Captura de pantalla que muestra la vista de archivos en Lakehouse.

    Captura de pantalla que muestra la vista de archivo de los datos de días festivos copiados.

    En el caso de varias columnas de partición, la tabla se divide en carpetas diferentes por nombre de país o región.

    Captura de pantalla que muestra la carpeta de país o región de partición.

    Selecciona una carpeta, por ejemplo, contryOrRegion=United States. La tabla particionada por el nombre del país o región se vuelve a particionar por el valor de la segunda columna añadida isPaidTimeOff: True o False o __HIVE_DEFAULT_PARTITION__ (representa un valor vacío en el conjunto de datos Muestra).

    Captura de pantalla que muestra la partición de país o región por ispaidtimeoff.

    De forma similar, si agrega tres columnas para particionar la tabla, obtendrá una carpeta de segundo nivel particionada por la tercera columna agregada.

A continuación, avance para obtener más información sobre la copia de Azure Blob Storage al almacén de lago.