Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
La característica de partición de la tabla Lakehouse como destino ofrece la capacidad de cargar datos en la tabla de Lakehouse con particiones. Las particiones se generan en el destino de Lakehouse y, a continuación, benefician los trabajos o el consumo de bajada.
Este tutorial le ayuda a aprender a cargar datos en Lakehouse usando particiones en una canalización. Por ejemplo, se carga el conjunto de datos de ejemplo en Lakehouse mediante una o varias columnas de partición mediante los pasos siguientes. El conjunto de datos de ejemplo Días festivos se usa como datos de muestra.
Requisito previo
- Asegúrese de que tiene un área de trabajo habilitada para el proyecto de Microsoft Fabric: Crear un área de trabajo.
Crear una canalización
Vaya a Power BI.
Seleccione el icono de Power BI en la parte inferior izquierda de la pantalla y, después, seleccione Data Factory para abrir la página principal de Data Factory.
Vaya al área de trabajo de Microsoft Fabric. Si ha creado una nueva área de trabajo en la sección Requisitos previos anteriores, use esta.
Seleccione Canalización y escriba un nombre de canalización para crear una canalización.
Carga de datos en Lakehouse mediante columnas de partición
Abra la canalización y agregue una actividad de copia seleccionando Actividad de canalización ->Copiar datos. En Origen, seleccione Más en la parte inferior de la lista de conexiones y, a continuación, seleccione Días festivos públicos en la pestaña Datos de ejemplo.
En la pestaña Destino , seleccione Más en la parte inferior de la lista de conexiones y, a continuación, seleccione una instancia de Lakehouse existente en la pestaña OneLake , especifique su instancia de Lakehouse o cree una nueva instancia de Lakehouse en la pestaña Inicio . Elija Tabla en carpeta raíz y especifique el nombre de la tabla.
Expande Opciones avanzadas, en Acción de tabla, selecciona Sobrescribir y, a continuación, selecciona Habilitar partición, en Columnas de partición, selecciona Agregar columna y elige la columna que deseas usar como columna de partición. Puedes optar por usar una sola columna o varias columnas como columna de partición.
Si usas una sola columna, countryOrRegion (tipo de cadena) se selecciona como ejemplo en este tutorial. Los datos se particionarán por valores de columna diferentes.
Nota:
La columna de partición que se puede seleccionar debe ser de tipo cadena, entero, booleano y datetime. Las columnas de otros tipos de datos no se muestran en la lista desplegable.
Si usas varias columnas de partición, agrega una columna más y selecciona isPaidTimeOff, que es un tipo booleano como ejemplo. A continuación, ejecuta la canalización. La lógica es que la tabla se particiona por los primeros valores de columna agregados primero y, a continuación, los datos con particiones continúan particionados por los segundos valores de columna agregados.
Sugerencia
Puedes arrastrar columnas para cambiar la secuencia de columnas y la secuencia de particiones también cambiará.
Selecciona Ejecutar y selecciona Guardar y ejecutar para ejecutar la canalización.
Una vez que la canalización se ejecute correctamente, ve a Lakehouse. Busca la tabla que copiaste. Haz clic con el botón derecho en el nombre de tabla y selecciona Ver archivos.
Para una columna de partición (countryOrRegion), la tabla se particiona en diferentes carpetas por nombre de país o región. El carácter especial del nombre de columna está codificado y puedes ver que el nombre de archivo es diferente de los valores de columna al ver los archivos en Lakehouse.
En el caso de varias columnas de partición, la tabla se divide en carpetas diferentes por nombre de país o región.
Selecciona una carpeta, por ejemplo, contryOrRegion=United States. La tabla particionada por el nombre del país o región se vuelve a particionar por el valor de la segunda columna añadida isPaidTimeOff:
TrueoFalseo__HIVE_DEFAULT_PARTITION__(representa un valor vacío en el conjunto de datos Muestra).De forma similar, si agrega tres columnas para particionar la tabla, obtendrá una carpeta de segundo nivel particionada por la tercera columna agregada.
Contenido relacionado
A continuación, avance para obtener más información sobre la copia de Azure Blob Storage al almacén de lago.