Compartir a través de


Obtener datos de OneLake

En este artículo, aprenderá a obtener datos de OneLake en una tabla nueva o existente.

Requisitos previos

Copia de la ruta de acceso del archivo desde Lakehouse

  1. En el conmutador de experiencia, elija Ingeniería de datos.

  2. Seleccione el entorno de almacén de lago que contiene el origen de datos que quiere usar.

  3. Coloque el cursor sobre el archivo deseado y seleccione el menú Más y, luego, seleccione Propiedades.

    Importante

    • No se admiten rutas de acceso de carpeta.
    • No se admiten los caracteres comodín (*).

    Captura de pantalla del menú desplegable de un archivo de almacén de lago. La opción titulada Propiedades está resaltada.

  4. En URL, seleccione el icono Copiar en el Portapapeles y guárdelo en algún lugar para recuperarlo en un paso posterior.

    Captura de pantalla del panel Propiedades de un archivo de almacén de lago. El icono Copiar, a la derecha de la dirección URL del archivo, está resaltado.

  5. Vuelva al área de trabajo y seleccione una base de datos KQL.

Origen

  1. En la cinta inferior de la base de datos KQL, seleccione Obtener datos.

    En la ventana Obtener datos, se selecciona la pestaña Origen.

  2. Seleccione el origen de datos de la lista disponible. En este ejemplo, va a ingerir datos de OneLake.

    Captura de pantalla de la ventana obtener datos con la pestaña origen seleccionada.

Configurar

  1. Seleccione una tabla de destino. Si desea ingerir datos en una nueva tabla, seleccione +Nueva tabla y escriba un nombre de tabla.

    Nota:

    Los nombres de tabla pueden tener hasta 1024 caracteres, entre los que se incluyen espacios, alfanuméricos, guiones y caracteres de subrayado. No se admiten caracteres especiales.

  2. En archivo OneLake, pegue la ruta de acceso del archivo del Lakehouse que copió en Copia de la ruta de acceso del archivo desde Lakehouse.

    Nota:

    Puede agregar hasta 10 elementos de hasta 1 GB de tamaño sin comprimir cada uno.

    Captura de pantalla de la pestaña configurar con la nueva tabla especificada y una ruta de acceso de archivo oneLake agregada.

  3. Seleccione Siguiente.

Inspeccionar

La pestaña Inspeccionar se abre con una vista previa de los datos.

Para completar el proceso de ingesta, seleccione Finalizar.

Captura de pantalla de la pestaña inspeccionar.

Opcionalmente:

Editar columnas

Nota:

  • En el caso de formatos tabulares (CSV, TSV, PSV), no se puede asignar una columna dos veces. Para asignar a una columna existente, elimine primero la nueva columna.
  • No se puede cambiar un tipo de columna existente. Si intenta asignar a una columna con un formato diferente, puede acabar con columnas vacías.

Los cambios que pueda realizar a una tabla dependerán de los siguientes parámetros:

  • El tipo de tabla es nuevo o existente
  • El tipo de asignación es nuevo o existente
Tipo de tabla. Tipo de asignación Ajustes disponibles
Tabla nueva Asignación nueva Cambio del nombre de columna, cambio del tipo de datos, cambio del origen de datos, la asignación de transformaciones, adición de columna, eliminación de columna
Tabla existente Asignación nueva Adición de columna (en la que puede cambiar el tipo de datos, cambiar el nombre y actualizar)
Tabla existente Asignación existente None

Captura de pantalla de las columnas abiertas para su edición.

Asignación de transformaciones

Algunas de las asignaciones de formato de datos (Parquet, JSON y Avro) admiten transformaciones sencillas en el momento de la ingesta. Para aplicar la asignación de transformaciones, cree o actualice una columna en la ventana Editar columnas.

La asignación de transformaciones se puede realizar en una columna de tipo string o datetime y un origen con un tipo de datos int o long. Las asignaciones de transformaciones que se admiten son:

  • DateTimeFromUnixSeconds
  • DateTimeFromUnixMilliseconds
  • DateTimeFromUnixMicroseconds
  • DateTimeFromUnixNanoseconds

Opciones avanzadas basadas en el tipo de datos

Tabular (CSV, TSV, PSV):

  • Si va a ingerir formatos tabulares en una tabla existente, puede seleccionar Opciones avanzadas>Mantener esquema de tabla. Los datos tabulares no incluyen necesariamente los nombres de columna que se usan para asignar datos de origen a las columnas existentes. Cuando se activa esta opción, la asignación se realiza por orden y el esquema de tabla es el mismo. Si esta opción está desactivada, se crean nuevas columnas para los datos entrantes, independientemente de la estructura de datos.

  • Para usar la primera fila como nombres de columna, seleccione Opciones avanzadas>La primera fila es el encabezado de la columna.

    Captura de pantalla de opciones avanzadas de CSV.

JSON:

  • Para determinar la división de columnas de datos JSON, seleccione Opciones avanzadas>Niveles anidados, de 1 a 100.

  • Si selecciona Opciones avanzadas>Omitir líneas JSON con errores, los datos se ingieren en formato JSON. Si no selecciona esta casilla, los datos se ingieren en formato de JSON múltiple.

    Captura de pantalla de opciones avanzadas de JSON.

Resumen

En la ventana Preparación de datos, los tres pasos se marcan con marcas de verificación verdes cuando la ingesta de datos se haya completado correctamente. Puede seleccionar una tarjeta a la que consultar, quitar los datos ingeridos o ver un panel del resumen de ingesta.

Captura de pantalla de la página de resumen con una ingesta completada correctamente.