Partekatu honen bidez:


Materialización de datos en Azure Cosmos DB mediante Stream Analytics editor sin código

En este artículo se describe cómo puede usar el editor sin código para crear fácilmente un trabajo de Stream Analytics. El trabajo lee continuamente de Event Hubs y hace agregaciones como recuento, suma y promedio. Los campos se seleccionan para agruparlos a lo largo de un período de tiempo y, a continuación, el trabajo escribe los resultados continuamente en Azure Cosmos DB.

Requisitos previos

  • Los recursos de Azure Event Hubs y Azure Cosmos DB deben ser accesibles públicamente y no pueden estar detrás de un firewall o protegidos en una instancia de Azure Virtual Network.
  • Los datos de Event Hubs deben serializarse en formato JSON, CSV o Avro.

Desarrollo de un trabajo de Stream Analytics

Siga estos pasos para desarrollar un trabajo de Stream Analytics con el fin de materializar los datos en Azure Cosmos DB.

  1. En Azure Portal, busque y seleccione su instancia de Azure Event Hubs.
  2. En Características, seleccione Procesar datos. A continuación, seleccione Iniciar en la tarjeta titulada Materializar datos en Azure Cosmos DB.
    Captura de pantalla en la que se muestra el flujo de datos Iniciar materialización.
  3. Escriba un nombre para el trabajo y seleccione Crear.
  4. Especifique el tipo de Serialización de los datos en centro de eventos y el Método de autenticación que usará el trabajo para conectarse a Event Hubs. A continuación, seleccione Conectar.
  5. Si la conexión se establece correctamente y tiene flujos de datos dirigidos a su instancia de Event Hubs, verá inmediatamente dos cosas:
    • Campos que están presentes en la carga de entrada. Seleccione el símbolo de tres puntos junto a un campo para,opcionalmente, quitar, cambiar el nombre o cambiar el tipo de datos del campo.
      Captura de pantalla en la que se muestran los campos del centro de eventos para que se puedan revisar.
    • Una muestra de los datos de entrada en el panel inferior en Vista previa de datos que se actualiza automática y periódicamente. Puede seleccionar Pausar vista previa de streaming si prefiere tener una vista estática de los datos de entrada de muestra.
      Captura de pantalla en la que se muestran datos de entrada de ejemplo.
  6. En el paso siguiente, especifique el campo y el agregado que quiere calcular, como Promedio y Recuento. También puede especificar el campo que quiere agrupar por junto con el período de tiempo. A continuación, puede validar los resultados del paso en la sección Vista previa de datos.
    Captura de pantalla en la que se muestra el área Agrupar por.
  7. Elija la base de datos y el contenedor de Cosmos DB donde quiere escribir los resultados.
  8. Para iniciar el trabajo de Stream Analytics, seleccione Iniciar.
    Captura de pantalla en la que se muestra la definición en la que se selecciona Inicio.
    Para iniciar el trabajo, debe especificar:
    • El número de Unidades de streaming (SU) con las que se ejecutan los trabajos. Las SU representan la cantidad de procesos y memoria asignadas al trabajo. Se recomienda empezar con tres y ajustar la cantidad según sea necesario.
    • El control de errores de datos de salida permite especificar el comportamiento que desea cuando se produce un error en la salida de un trabajo en el destino debido a errores de datos. De manera predeterminada, el trabajo reintenta hasta que la operación de escritura se realiza correctamente. También puede optar por quitar eventos de salida.
  9. Después de seleccionar Iniciar, el trabajo comienza a ejecutarse en dos minutos. Vea el trabajo en la sección Procesar datos en la pestaña de trabajos de Stream Analytics.Puede explorar las métricas del trabajo y detenerlo o reiniciarlo, según sea necesario.

Consideraciones al usar la característica de replicación geográfica de Event Hubs

Azure Event Hubs lanzó recientemente la característica Replicación geográfica en versión preliminar pública. Esta característica es diferente de la característica de Recuperación ante desastres geográfica de Azure Event Hubs.

Cuando el tipo de conmutación por error es Forzado y la coherencia de la replicación es Asincrónica, el trabajo de Stream Analytics no garantiza exactamente una salida una vez en una salida de Azure Event Hubs.

Azure Stream Analytics, como productor con un centro de eventos una salida, podría observar el retraso de la marca de agua en el trabajo durante la duración de la conmutación por error y durante la limitación por Event Hubs en caso de que el retraso de replicación entre principal y secundario alcance el retraso máximo configurado.

Azure Stream Analytics, como consumidor con Event Hubs como entrada, puede observar el retraso de la marca de agua en el trabajo durante la duración de la conmutación por error y podría omitir los datos o buscar datos duplicados una vez completada la conmutación por error.

Debido a estas advertencias, se recomienda reiniciar el trabajo de Stream Analytics con la hora de inicio adecuada justo después de que se complete la conmutación por error de Event Hubs. Además, dado que la característica de replicación geográfica de Event Hubs está en versión preliminar pública, no se recomienda usar este patrón para trabajos de producción de Stream Analytics en este momento. El comportamiento actual de Stream Analytics mejorará antes de que la característica de replicación geográfica de Event Hubs esté disponible con carácter general y se pueda usar en trabajos de producción de Stream Analytics.

Pasos siguientes

Ahora sabe cómo usar el editor sin código de Stream Analytics para desarrollar un trabajo que lea de Event Hubs y calcule agregados como recuentos, promedios y lo escriba en el recurso de Azure Cosmos DB.