Inicio rápido: Obtención de datos en OneLake

OneLake es el único lago de datos unificado para Microsoft Fabric. Cada carga de trabajo de Fabric lee y escribe datos a través de OneLake, por lo que solo es necesario cargar los datos una vez para utilizarlos en cualquier lugar. Puede incluir datos en OneLake de varias maneras:

  • Cargue archivos directamente en un lakehouse o almacén de datos.
  • Ingerir datos mediante canalizaciones, flujos de datos o experiencias de streaming.
  • Conéctese a datos externos mediante accesos directos o creación de reflejo.

En esta guía de inicio rápido, incorporará datos a OneLake de dos maneras: cargará un archivo CSV en un lakehouse y creará un acceso directo de OneLake desde un segundo lakehouse que apunta de nuevo a los mismos datos sin copiarlos. Cuando haya terminado, dispondrá de una tabla Delta que se puede consultar y de un acceso directo, ambos disponibles para todos los motores de Fabric a través de OneLake.

Prerequisites

Creación de un almacén de lago de datos

Cuando crea un elemento de Fabric, como un lakehouse, un almacén o un eventhouse, ese elemento aprovisiona almacenamiento en OneLake en su nombre. En este inicio rápido, creará una instancia de Lakehouse, que proporciona un área de archivos (Archivos) para datos no estructurados o semiestructurados y un área de tabla Delta (Tablas) para datos estructurados y consultables. Todo lo que coloque en cualquier área se almacena en OneLake y se puede acceder inmediatamente a otras cargas de trabajo de Fabric.

  1. Inicie sesión en el portal Fabric y seleccione el área de trabajo.

  2. Seleccione Nuevo elemento.

  3. En el panel Nuevo elemento , busque y seleccione Lakehouse.

  4. Escriba un nombre, como DataLakehouse, y seleccione Crear.

    El lakehouse se abre en la vista Explorador, que muestra las secciones vacías Tablas y Archivos. Ambas secciones ya están respaldadas por OneLake y están listas para el contenido.

Cargar datos de ejemplo

En este inicio rápido, usará Dim_Products.csv desde un conjunto de datos de ejemplo de Fabric disponible públicamente. Es una pequeña tabla de información de productos de un distribuidor de café de ejemplo.

  1. Abra un explorador y vaya a https://fabrictutorialdata.blob.core.windows.net/sampledata/Coffee/Dim_Products.csv.
  2. Cuando se le solicite, guarde el archivo como Dim_Products.csv en una carpeta del equipo.

En esta sección, carga Dim_Products.csv en Files para tener datos de origen sin procesar en OneLake. El área Files de un lago es una zona de almacenamiento de uso general en OneLake. Piense en ella como la zona de aterrizaje para los datos sin procesar en cualquier formato que llegue. Puede incorporar CSV, JSON, Parquet, imágenes, registros o cualquier otra cosa sin tener que definir antes un esquema.

  1. En el Explorador de lakehouse, mantenga el puntero sobre Archivos, seleccione el menú más opciones (...) y, a continuación, seleccione Cargar>archivos.

  2. En el panel Cargar archivos , seleccione el icono de carpeta y vaya a Dim_Products.csv en el equipo.

  3. Seleccione Cargar y cierre el panel de carga.

  4. Seleccione la carpeta Archivos para ver su contenido y confirmar que Dim_Products.csv aparece.

  5. Seleccione Dim_Products.csv para ver sus datos.

    Captura de pantalla del portal de Fabric en la que se muestran datos CSV no estructurados en la sección Archivos de un lakehouse.

El archivo ahora está en OneLake, pero, como es un CSV sin procesar, todavía no es algo que SQL o Spark puedan consultar como una tabla.

Cargar el archivo en una tabla Delta

Fabric adopta Delta Lake como formato de tabla estándar en OneLake. Al cargar un archivo en el área Tables, Fabric lee el archivo de origen, deduce un esquema y escribe los datos como una tabla Delta. Desde ese momento, cada motor de Fabric puede consultar la misma tabla sin copiar ni convertir los datos de nuevo.

  1. En el Explorador de lakehouse, abra la carpeta Archivos .

  2. Mantenga el puntero sobre el Dim_Products.csv archivo y seleccione el menú más opciones (...) y, a continuación, seleccione Cargar en tablas>Nueva tabla.

  3. En el cuadro de diálogo Cargar en tabla , escriba dim_products para el nombre de la tabla, mantenga los valores predeterminados y seleccione Cargar.

  4. Una vez finalizada la carga, expanda Tablas y seleccione dim_products para obtener una vista previa de las filas. El CSV sin procesar en Archivos permanece sin cambios, y dim_products es una nueva tabla Delta creada a partir de este.

    Captura de pantalla que muestra los datos estructurados de la tabla Delta en la sección Tablas de un lago.

  5. Mantenga el puntero sobre dim_products y seleccione el menú más opciones (...) y, a continuación, seleccione Propiedades.

    La pantalla Propiedades muestra los diversos detalles de la tabla, incluida la dirección URL y la ruta de Azure Blob File System (ABFS) que puede utilizar para hacer referencia a esta tabla en otros motores.

Reutilice los datos con un acceso directo desde un segundo lakehouse

La carga y la ingestión son una forma de introducir datos en OneLake. El otro patrón clave es hacer referencia a datos que ya existen en otro lugar, sin duplicarlos. Eso es un acceso directo: un vínculo en OneLake que hace referencia a datos almacenados en otro lakehouse, en otra área de trabajo de Fabric o en orígenes admitidos fuera de Fabric, como Azure Data Lake Storage o Amazon S3. Los datos no se copian; permanece en la ubicación de origen, pero puede leerlo a través de OneLake como si fuera local. Las actualizaciones del origen están visibles inmediatamente a través del acceso directo, por lo que no es necesario mantener copias de los datos.

En esta sección, crea un segundo lakehouse y agrega un acceso directo desde este a la tabla dim_products de su primer lakehouse. Esto refleja cómo suelen trabajar los equipos, en el que un equipo es responsable de los datos seleccionados y otros equipos o proyectos los consumen mediante accesos directos en sus propios espacios de trabajo.

  1. En el área de trabajo, seleccione Nuevo elemento.
  2. En el panel Nuevo elemento , busque y seleccione Lakehouse.
  3. Escriba un nombre, como ShortcutLakehouse, y seleccione Crear.
  4. En el nuevo Explorador de Lakehouse, mantenga el puntero sobre Tablas, seleccione el menú más opciones (...) y, a continuación, seleccione Nuevo acceso directo.
  5. En la página Nuevo acceso directo, en Orígenesinternal, seleccione Microsoft OneLake.
  6. En el explorador de orígenes de datos, seleccione el primer lakehouse que creó para esta guía de inicio rápido y, a continuación, seleccione Siguiente.
  7. Expanda Tablas, seleccione la dim_products tabla y, a continuación, seleccione Siguiente.
  8. Revise la selección y seleccione Crear.
  9. Expanda Tablas en ShortcutLakehouse y confirme que dim_products aparece con un icono de acceso directo (una imagen de vínculo pequeña sobre el icono de tabla). Selecciónelo para obtener una vista previa de las filas. La tabla es la misma que en el lago original, pero no se copió ningún dato.
  10. Mantenga el puntero sobre la dim_products tabla, seleccione más opciones (...) y, a continuación, seleccione Administrar acceso directo. En el panel Administrar acceso directo , puede ver los detalles del acceso directo, incluido el destino de acceso directo donde se almacenan los datos originales.

Limpieza de recursos

Si no tiene previsto continuar con los otros inicios rápidos de OneLake, elimine los almacenes de lago para evitar que se apliquen cargos de almacenamiento de OneLake a su capacidad de Fabric.

  1. En el espacio de trabajo, sitúe el cursor sobre el Lakehouse que desea eliminar.
  2. Seleccione el menú más opciones (...) situado junto a lakehouse, seleccione Eliminar y confirme la eliminación.

Al eliminar los lakehouses también se elimina el contenido que contienen: el archivo cargado, la tabla dim_products Delta y el acceso directo.