Compartir a través de


Explora los datos en tu base de datos reflejada usando cuadernos

Puede explorar los datos replicados desde la base de datos reflejada con consultas de Spark en cuadernos.

Los cuadernos son un elemento de código eficaz para que pueda desarrollar trabajos de Apache Spark y experimentos de aprendizaje automático en los datos. Puede usar cuadernos en Fabric Lakehouse para explorar las tablas reflejadas.

Prerrequisitos

Crear un acceso directo

En primer lugar, debe crear un acceso directo desde las tablas replicadas en el Lakehouse y, a continuación, crear blocs de notas con consultas de Spark en el Lakehouse.

  1. En el portal de Fabric, abra Ingeniería de datos.

  2. Si aún no tiene una instancia de Lakehouse creada, seleccione Lakehouse y cree una nueva instancia de Lakehouse ; para ello, asígnele un nombre.

  3. Seleccione Obtener datos ->Nuevo acceso directo.

  4. Seleccione Microsoft OneLake.

  5. Puede ver todas sus bases de datos reflejadas en el espacio de trabajo Fabric.

  6. Seleccione la base de datos replicada que desea agregar al Lakehouse como acceso directo.

  7. Seleccione las tablas deseadas de la base de datos reflejada.

  8. Seleccione Siguiente y, a continuación, Crear.

  9. En el Explorador, ahora puede ver los datos de tabla seleccionados en su Lakehouse. Captura de pantalla del portal de Fabric, en la que se muestra el Explorador de Lakehouse que muestra las tablas y los datos de la base de datos reflejadas.

    Sugerencia

    Puede agregar otros datos directamente en Lakehouse o traer atajos como S3 o ADLS Gen2. Puede ir al punto de conexión de SQL Analytics de Lakehouse y unir los datos en todos estos orígenes con datos reflejados sin problemas.

  10. Para explorar estos datos en Spark, seleccione los ... puntos situados junto a cualquier tabla. Seleccione Nuevo cuaderno o Cuaderno existente para comenzar el análisis. Captura de pantalla del portal de Fabric que muestra el menú contextual para abrir una tabla de base de datos reflejada en un cuaderno.

  11. El cuaderno se abrirá automáticamente y cargará el dataframe con una SELECT ... LIMIT 1000 consulta de Spark SQL.

    • Los nuevos cuadernos pueden tardar hasta dos minutos en cargarse completamente. Puede evitar este retraso mediante el uso de un cuaderno existente con una sesión activa. Captura de pantalla del portal de Fabric que muestra los datos de una tabla de base de datos reflejada en un nuevo cuaderno con una consulta de Spark SQL.