Carga en tabla de Delta Lake

En Microsoft Fabric Lakehouse proporciona una característica para cargar eficazmente tipos de archivo comunes en una tabla Delta optimizada y lista para el análisis. La característica Cargar en tabla permite a los usuarios cargar un solo archivos o una carpeta de archivos en una table. Esta característica aumenta la productividad de los ingenieros de datos, ya que les permite usar rápidamente una acción de clic con el botón derecho para habilitar la carga de tablas en archivos y carpetas. La carga en la tabla es también una experiencia sin código, lo que baja la barrera de entrada a todas las personas.

Introducción a las funcionalidades de Carga en tabla

Esta es una lista de las características que habilitamos en la experiencia de carga en tabla integrada para ofrecer a nuestros usuarios la flexibilidad que necesitan y, al mismo tiempo, aumentar su productividad:

  • Tipos de archivo admitidos: esta característica solo admite la carga de los tipos de archivo PARQUET o CSV. No importa si la extensión de archivo está en mayúsculas o minúsculas.

  • Carga de un solo archivo: para cargar el archivo que prefieran en uno de los formatos admitidos los usuarios deben seleccionar "Cargar en tabla delta" en la acción de menú contextual del archivo.

  • Carga a nivel de carpeta: si selecciona "Cargar en tabla delta" después de hacer clic en una carpeta, puede cargar todos los archivos de una carpeta y sus subcarpetas simultáneamente. Esta característica recorre automáticamente todos los archivos y los carga en una tabla delta. Es importante tener en cuenta que en una tabla sólo pueden cargarse al mismo tiempo archivos del mismo tipo.

  • Cargar en tabla nueva y existente: el usuario puede elegir cargar sus archivos y carpetas en una nueva tabla o en la tabla existente que prefiera. Si deciden cargarlos en una tabla existente, pueden anexar o sobrescribir sus datos en la tabla.

  • Opción archivo de origen .csv: en los archivos .csv, permitimos al usuario especificar si su archivo de origen incluye encabezados que le gustaría usar como nombres de columna. Los usuarios también pueden especificar el separador que prefieran para anular el separador de comas predeterminado.

  • Cargado como tablas delta: para cargar las tablas siempre se utiliza el formato de tabla Delta Lake con la optimización V-Order habilitada.

    Gif de la experiencia de carga de carpeta en tabla completa.

Nota:

Actualmente, no se puede especificar el esquema de tabla a través de la interfaz de usuario del almacén de lago; debes usar un cuaderno para ese fin.

Directrices y reglas de validación

El siguiente estándar se aplica a la experiencia de Carga en tabla:

  • Los nombres de tabla solo pueden contener caracteres alfanuméricos y subrayados. También permite cualquier letra inglesa, mayúscula o minúscula y guion bajo (_), con una longitud máxima de 256 caracteres. No se permiten guiones (-) ni caracteres de espacio.

  • Los archivos de texto sin encabezados de columna se reemplazan por notación estándar col# como nombres de columna de tabla.

  • Los nombres de columna permiten cualquier letra inglesa, mayúscula o minúscula, guion bajo (_) y caracteres en otros idiomas, como chino en UTF, y longitud de hasta 32 caracteres. Los nombres de columna se validan durante la acción de carga. El algoritmo Carga en Delta reemplaza los valores prohibidos por un guion bajo (_). Si no se consigue ningún nombre de columna adecuado durante la validación, se produce un error en la acción de carga.

  • En los archivos .csv, el separador no puede estar vacío, tener más de ocho caracteres ni usar ninguno de los siguientes caracteres: (, ), [, ],{, }, comillas simples ('), comillas dobles (") y espacio en blanco.