Compartir a través de


Captura de datos de Event Hubs en formato Parquet

En este artículo se explica cómo usar el editor de no código para capturar automáticamente datos de streaming en Event Hubs en una cuenta de Azure Data Lake Storage Gen2 en formato Parquet.

Requisitos previos

  • Un espacio de nombres de Azure Event Hubs con un centro de eventos y una cuenta de Azure Data Lake Storage Gen2 con un contenedor para almacenar los datos capturados. Estos recursos deben ser accesibles públicamente y no puede estar detrás de un firewall o protegidos en una red virtual de Azure.

    Si no tiene un centro de eventos, cree uno siguiendo las instrucciones de Inicio rápido: Creación de un centro de eventos.

    Si no tiene una cuenta de Data Lake Storage Gen2, cree una siguiendo las instrucciones de Creación de una cuenta de almacenamiento

  • Los datos de Event Hubs deben serializarse en formato JSON, CSV o Avro. Para fines de prueba, seleccione Generar datos (versión preliminar) en el menú de la izquierda, seleccione Datos de acciones para el conjunto de datos y, a continuación, seleccione Enviar.

    Captura de pantalla que muestra la página Generar datos para generar datos de inventarios de ejemplo.

Configuración de un trabajo para capturar datos

Siga estos pasos para configurar un trabajo de Stream Analytics para capturar datos en Azure Data Lake Storage Gen2.

  1. En Azure Portal, vaya al centro de eventos.

  2. En el menú de la izquierda, seleccione Procesar datos en Características. A continuación, seleccione Iniciar en la tarjeta Capturar datos a ADLS Gen2 en formato Parquet.

    Captura de pantalla que muestra las tarjetas de inicio de datos del procesamiento de Event Hubs.

  3. Escriba un nombre para el trabajo de Stream Analytics y, a continuación, seleccione Crear.

    Captura de pantalla que muestra la ventana Nuevo trabajo de Stream Analytics donde se especifica el nombre del trabajo.

  4. Especifique el tipo de Serialización de los datos en Event Hubs y el Método de autenticación que usa el trabajo para conectarse a Event Hubs. A continuación, seleccione Conectar.

    Captura de pantalla que muestra la configuración de conexión de Event Hubs.

  5. Cuando la conexión se establezca correctamente, verá lo siguiente:

    • Campos que están presentes en los datos de entrada. Puede elegir Agregar campo o puede seleccionar el símbolo de los tres puntos junto a un campo para, opcionalmente, eliminar, renombrar o cambiar su nombre.

    • Ejemplo dinámico de datos entrantes en la tabla de Vista previa de los datos en la vista de diagrama. Se actualiza periódicamente. Puede seleccionar Pausar la versión preliminar del streaming para ver una vista estática de la entrada de la muestra.

      Captura de pantalla que muestra datos de ejemplo en Vista previa de datos.

  6. Seleccione el mosaico Azure Data Lake Storage Gen2 para editar la configuración.

  7. En la página de configuración de Azure Data Lake Storage Gen2, siga estos pasos:

    1. Seleccione la suscripción, el nombre de la cuenta de almacenamiento y el contenedor en el menú desplegable.

    2. Una vez seleccionada la suscripción, el método de autenticación y la clave de la cuenta de almacenamiento deberían rellenarse automáticamente.

    3. Seleccione Parquet en el formato de serialización.

      Captura de pantalla que muestra la página de configuración de Data Lake Storage Gen2.

    4. En el caso de los blobs de streaming, se espera que el patrón de ruta de acceso del directorio sea un valor dinámico. Es necesario para que la fecha forme parte de la ruta de acceso de archivo del blob, a la que se hace referencia como {date}. Para más información sobre los patrones de ruta de acceso personalizados, consulte Creación de particiones de salida de blobs personalizados de Azure Stream Analytics.

      Primera captura de pantalla que muestra la ventana Blob donde se edita una configuración de conexión de blob.

    5. Seleccione Conectar.

  8. Cuando se establezca la conexión, verá los campos que están presentes en los datos de salida.

  9. Seleccione Guardar en la barra de comandos para guardar la configuración.

    Captura de pantalla que muestra el botón Guardar seleccionado en la barra de comandos.

  10. Seleccione Iniciar en la barra de comandos para iniciar el flujo de streaming y capturar datos. A continuación, en la ventana Iniciar trabajo de Stream Analytics:

    1. Seleccione la hora de inicio de la salida.

    2. Seleccione el plan de precios.

    3. Seleccione el número de Unidades de streaming (SU) con las que se ejecuta el trabajo. Las unidades de streaming representan los recursos informáticos que se asignan para ejecutar un trabajo de Stream Analytics. Para más información, consulte Unidades de streaming en Azure Stream Analytics.

      Captura de pantalla que muestra la ventana Inicio del trabajo de Stream Analytics donde se especifica la hora de inicio de salida, las unidades de streaming y el control de errores.

  11. Debería ver el trabajo de Stream Analytics en la pestaña Trabajo de Stream Analytics de la página Procesar datos del centro de eventos.

    Captura de pantalla que muestra el trabajo de Stream Analytics en la página Procesar datos.

Comprobar salida

  1. En la página Instancia de Event Hubs, seleccione Generar datos, seleccione Datos de inventario para el conjunto de datos y, a continuación, seleccione Enviar para enviar algunos datos de muestra al centro de eventos.

  2. Compruebe que los archivos Parquet se han generado en el contenedor de Azure Data Lake Storage.

    Captura de pantalla que muestra los archivos Parquet generados en el contenedor de Azure Data Lake Storage.

  3. Seleccione Procesar datos en el menú de la izquierda. Cambie a la pestaña Trabajos de Stream Analytics. Seleccione Abrir métricas para supervisarlo.

    Captura de pantalla que muestra el vínculo Abrir métricas seleccionado.

    Esta es una captura de pantalla de ejemplo de las métricas que muestran los eventos de entrada y salida.

    Captura de pantalla que muestra las métricas del trabajo de Stream Analytics.

Consideraciones al usar la característica de replicación geográfica de Event Hubs

Azure Event Hubs lanzó recientemente característica Replicación geográfica en versión preliminar pública. Esta característica es diferente de la característica de Recuperación ante desastres geográfica de Azure Event Hubs.

Cuando el tipo de conmutación por error es Forzado y la coherencia de la replicación es Asincrónico, el trabajo de Stream Analytics no garantiza exactamente una salida una vez en una salida de Azure Event Hubs.

Azure Stream Analytics, como productor con un centro de eventos una salida, podría observar el retraso de la marca de agua en el trabajo durante la duración de la conmutación por error y durante la limitación por Event Hubs en caso de que el retraso de replicación entre principal y secundario alcance el retraso máximo configurado.

Azure Stream Analytics, como consumidor con Event Hubs como entrada, puede observar el retraso de la marca de agua en el trabajo durante la duración de la conmutación por error y podría omitir los datos o buscar datos duplicados una vez completada la conmutación por error.

Debido a estas advertencias, se recomienda reiniciar el trabajo de Stream Analytics con la hora de inicio adecuada justo después de que se complete la conmutación por error de Event Hubs. Además, dado que la característica de replicación geográfica de Event Hubs está en versión preliminar pública, no se recomienda usar este patrón para trabajos de Stream Analytics de producción en este momento. El comportamiento actual de Stream Analytics mejorará antes de que la característica de replicación geográfica de Event Hubs esté disponible con carácter general y se pueda usar en trabajos de producción de Stream Analytics.

Pasos siguientes

Ahora sabe cómo usar el editor de código de Stream Analytics para crear un trabajo que capture los datos de Event Hubs para Azure Data Lake Storage Gen2 en formato Parquet. A continuación, puede obtener más información sobre Azure Stream Analytics y cómo supervisar el trabajo que ha creado.