Obtención de datos de streaming en lakehouse y acceso con el punto de conexión de SQL

En este inicio rápido se explica cómo crear una definición de trabajo de Spark que contenga código de Python con Spark Structured Streaming para aterrizar datos en un lago y, a continuación, servirlos a través de un punto de conexión de SQL. Después de completar este inicio rápido, tendrá una definición de trabajo de Spark que se ejecuta continuamente y el punto de conexión de SQL puede ver los datos entrantes.

Importante

Microsoft Fabric está actualmente en versión preliminar. Esta información está relacionada con un producto en versión preliminar que puede modificarse considerablemente antes de su lanzamiento. Microsoft no ofrece ninguna garantía, expresa o implícita, con respecto a la información que se ofrece aquí.

Creación de un script de Python

  1. Use el siguiente código de Python que usa el streaming estructurado de Spark para obtener datos en una tabla de Lakehouse.

    Captura de pantalla que muestra el script de Python

  2. Guarde el script como archivo de Python (.py) en el equipo local.

Creación de un almacén de lago

Siga estos pasos para crear un lago:

  1. En Microsoft Fabric, seleccione la experiencia de Ingeniería de datos synapse.

  2. Vaya al área de trabajo deseada o cree una nueva si es necesario.

  3. Para crear un lago, seleccione el icono de Lakehouse en la sección Nuevo del panel principal.

    Captura de pantalla en la que se muestra el cuadro de diálogo nuevo lakehouse

  4. Escriba el nombre de lakehouse y seleccione Crear.

Creación de una definición de trabajo de Spark

Siga estos pasos para crear una definición de trabajo de Spark:

  1. En la misma área de trabajo en la que creó un lago, seleccione el icono Crear en el menú izquierdo.

  2. En "Ingeniería de datos", seleccione Definición de trabajo de Spark.

    Captura de pantalla que muestra el cuadro de diálogo Nueva definición de trabajo de Spark

  3. Escriba el nombre de la definición del trabajo de Spark y seleccione Crear.

  4. Seleccione Cargar y seleccione el archivo de Python que creó en el paso anterior.

  5. En Referencia de Lakehouse , elija la instancia de Lakehouse que ha creado.

Establecimiento de la directiva de reintento para la definición de trabajo de Spark

Siga estos pasos para establecer la directiva de reintento para la definición del trabajo de Spark:

  1. En el menú superior, seleccione el icono Configuración .

    Captura de pantalla que muestra el icono de configuración de definición de trabajo de Spark

  2. Abra la pestaña Optimización y establezca Activado el desencadenador de directiva de reintento.

    Captura de pantalla que muestra la pestaña Optimización de definición de trabajos de Spark

  3. Defina el número máximo de reintentos o active Permitir intentos ilimitados.

  4. Especifique la hora entre cada intento de reintento y seleccione Aplicar.

Ejecución y supervisión de la definición del trabajo de Spark

  1. En el menú superior, seleccione el icono Ejecutar .

    Captura de pantalla que muestra el icono de ejecución de definición de trabajo de Spark

  2. Compruebe si la definición del trabajo de Spark se envió correctamente y ejecutó.

Visualización de datos mediante un punto de conexión de SQL

  1. En la vista del área de trabajo, seleccione su instancia de Lakehouse.

  2. En la esquina derecha, seleccione Lakehouse y seleccione Punto de conexión de SQL.

  3. En la vista punto de conexión de SQL en Tablas, seleccione la tabla que usa el script para aterrizar los datos. A continuación, puede obtener una vista previa de los datos desde el punto de conexión de SQL.

Pasos siguientes