Tutorial: Escribir en una tabla delta almacenada en Azure Data Lake Storage Gen2 (versión preliminar pública)

En este tutorial se muestra cómo puede crear un trabajo de Stream Analytics para escribir en una tabla Delta de Azure Data Lake Storage Gen2. En este tutorial, aprenderá a:

  • Implementar un generador de eventos que envía datos de ejemplo al centro de eventos
  • Creación de un trabajo de Stream Analytics
  • Configurar Azure Data Lake Storage Gen2 con una tabla delta
  • Ejecución del trabajo de Stream Analytics

Requisitos previos

Antes de empezar, complete los pasos siguientes:

Creación de un trabajo de Stream Analytics

  1. Inicie sesión en Azure Portal.

  2. Seleccione Todos los servicios en el menú de la izquierda.

  3. Mueva el mouse sobre Trabajos de Stream Analytics en la sección Analytics y seleccione + (más).

    Screenshot that shows the selection of Stream Analytics jobs in the All services page.

  4. Haga clic en Crear un recurso en la esquina superior izquierda de Azure Portal.

  5. Seleccione Analytics>Trabajo de Stream Analytics en la lista de resultados.

  6. En la página Nuevo trabajo de Stream Analytics, siga estos pasos:

    1. En Suscripción, seleccione su suscripción de Azure.
    2. En Grupo de recursos, seleccione el mismo recurso que usó anteriormente en la implementación de TollApp.
    3. En Nombre, escriba un nombre para el trabajo. Debe tener una longitud de entre 3 y 63 caracteres, y solo puede incluir caracteres alfanuméricos, guiones y guiones bajos.
    4. En Entorno de hospedaje, confirme que la opción Nube está seleccionada.
    5. En Unidades de streaming, seleccione 1. Las unidades de streaming representan los recursos informáticos que se necesitan para ejecutar un trabajo. Para información sobre el escalado de unidades de streaming, consulte el artículo Descripción y ajuste de las unidades de streaming.

    Screenshot that shows the Create Stream Analytics job page.

  7. En la parte inferior de la página, seleccione Revisar y crear.

  8. En la página Revisar y crear, revise la configuración y seleccione Crear para crear una página de Stream Analytics.

  9. En la página de implementación, seleccione Ir al recurso para ir a la página Trabajo de Stream Analytics.

Configuración de la entrada del trabajo

El paso siguiente consiste en definir un origen de entrada para que el trabajo lea los datos mediante el centro de eventos que se creó en la implementación de TollApp.

  1. Busque el trabajo de Stream Analytics que se creó en la sección anterior.

  2. En la sección Topología de trabajo del trabajo de Stream Analytics, seleccione Entradas.

  3. Haga clic en Agregar entrada y seleccione Centro de eventos.

    Screenshot that shows the Inputs page.

  4. Rellene el formulario de entrada con los valores siguientes, creados mediante la plantilla de TollApp de Azure:

    1. Escriba entrystream como Alias de entrada.

    2. Elija Seleccionar centro de eventos de entre las suscripciones.

    3. En Suscripción, seleccione su suscripción de Azure.

    4. En Espacio de nombres del centro de eventos, seleccione el espacio de nombres del centro de eventos que creó en la sección anterior.

    5. Use las opciones predeterminadas en el resto de los valores y seleccione Guardar.

      Screenshot that shows the selection of the input event hub.

Configuración de la salida del trabajo

El paso siguiente consiste en definir un receptor de salida en el que el trabajo pueda escribir los datos. En este tutorial, escribirá una salida en una tabla Delta en Azure Data Lake Storage Gen2.

  1. En la sección Topología de trabajo del trabajo de Stream Analytics, seleccione la opción Salidas.

  2. Seleccione +Agregar salida>Blob storage/ADLS Gen2.

    Screenshot that shows the Outputs page.

  3. Rellene el formulario con los siguientes detalles y seleccione Guardar:

    1. En Alias de salida, escriba DeltaOutput.

    2. Elija Seleccionar almacenamiento de blobs/ADLS Gen2 de entre las suscripciones.

    3. En Suscripción, seleccione su suscripción de Azure.

    4. En Cuenta de almacenamiento, elija la cuenta de ADLS Gen2 (la que empieza por tollapp) que creó.

    5. Para contenedor, seleccione Crear nuevo y proporcione un nombre de contenedor único.

    6. En Formato de serialización de eventos, seleccione Delta Lake (versión preliminar). Aunque Delta Lake aparece aquí como una de las opciones, no es un formato de datos. Delta Lake usa archivos Parquet con versiones para almacenar los datos. Para obtener más información sobre Delta Lake.

    7. Como ruta de acceso de la tabla delta, escriba carpeta del tutorial/tabla delta.

    8. Use las opciones predeterminadas en el resto de los valores y seleccione Guardar.

      Screenshot that shows configuration of the output.

Creación de consultas

En este momento, tiene un trabajo de Stream Analytics configurado para leer un flujo de datos entrantes. El siguiente paso consiste en crear una consulta que analice los datos en tiempo real. Las consultas usan un lenguaje de tipo SQL que tiene algunas extensiones específicas para Stream Analytics.

  1. Ahora, seleccione Consulta en Topología de trabajo en el menú de la izquierda.

  2. Introduzca la siguiente consulta en la ventana de consulta. En este ejemplo, la consulta lee los datos de Event Hubs y copia los valores seleccionados en una tabla Delta de ADLS Gen2.

     SELECT State, CarModel.Make, TollAmount
     INTO DeltaOutput
     FROM EntryStream TIMESTAMP BY EntryTime
    
  3. Seleccione Guardar consulta en la barra de herramientas.

    Screenshot that shows query for the job.

Inicio del trabajo de Stream Analytics y consulta de la salida

  1. Vuelva a la página de información general del trabajo en Azure Portal y seleccione Iniciar.

    Screenshot that shows the selection of Start job button on the Overview page.

  2. En la página Iniciar trabajo, confirme que la opción Ahora está seleccionada para la hora de inicio de la salida del trabajo y, a continuación, seleccione Iniciar en la parte inferior de la página.

    Screenshot that shows the selection of Start job page.

  3. Al cabo de unos minutos, en el portal, busque la cuenta de almacenamiento y el contenedor que ha configurado como salida para el trabajo. Ahora puede ver la tabla delta en la carpeta especificada en el contenedor. El trabajo tarda unos minutos en iniciarse por primera vez; una vez iniciado, continuará ejecutándose a medida que llegan los datos.

    Screenshot that shows output data files in the container.

Limpieza de recursos

Cuando no los necesite, elimine el grupo de recursos, el trabajo de Stream Analytics y todos los recursos relacionados. La eliminación del trabajo evita la facturación de las unidades de streaming utilizadas por el trabajo. Si piensa utilizar el trabajo en el futuro, puede detenerlo y volver a iniciarlo más adelante cuando sea necesario. Si no va a seguir usando este trabajo, siga estos pasos para eliminar todos los recursos creados en este tutorial:

  1. En el menú de la izquierda de Azure Portal, seleccione Grupos de recursos y luego el nombre del recurso que creó.
  2. En la página del grupo de recursos, seleccione Eliminar, escriba el nombre del recurso que quiere eliminar en el cuadro de texto y, luego, seleccione Eliminar.

Pasos siguientes

En este tutorial, ha creado un trabajo sencillo de Stream Analytics, ha filtrado los datos entrantes y ha escrito los resultados en una tabla Delta en la cuenta de ADLS Gen2. Para obtener más información sobre los trabajos de Stream Analytics: