Materialización de datos en Azure Cosmos DB mediante Stream Analytics editor sin código
En este artículo se describe cómo puede usar el editor sin código para crear fácilmente un trabajo de Stream Analytics. El trabajo lee continuamente de Event Hubs y hace agregaciones como recuento, suma y promedio. Los campos se seleccionan para agruparlos a lo largo de un período de tiempo y, a continuación, el trabajo escribe los resultados continuamente en Azure Cosmos DB.
Requisitos previos
- Los recursos de Azure Event Hubs y Azure Cosmos DB deben ser accesibles públicamente y no pueden estar detrás de un firewall o protegidos en una instancia de Azure Virtual Network.
- Los datos de Event Hubs deben serializarse en formato JSON, CSV o Avro.
Desarrollo de un trabajo de Stream Analytics
Siga estos pasos para desarrollar un trabajo de Stream Analytics con el fin de materializar los datos en Azure Cosmos DB.
- En Azure Portal, busque y seleccione su instancia de Azure Event Hubs.
- En Características, seleccione Procesar datos. A continuación, seleccione Iniciar en la tarjeta titulada Materializar datos en Azure Cosmos DB.
- Escriba un nombre para el trabajo y seleccione Crear.
- Especifique el tipo de Serialización de los datos en centro de eventos y el Método de autenticación que usará el trabajo para conectarse a Event Hubs. A continuación, seleccione Conectar.
- Si la conexión se establece correctamente y tiene flujos de datos dirigidos a su instancia de Event Hubs, verá inmediatamente dos cosas:
- Campos que están presentes en la carga de entrada. Seleccione el símbolo de tres puntos junto a un campo para,opcionalmente, quitar, cambiar el nombre o cambiar el tipo de datos del campo.
- Una muestra de los datos de entrada en el panel inferior en Vista previa de datos que se actualiza automática y periódicamente. Puede seleccionar Pausar vista previa de streaming si prefiere tener una vista estática de los datos de entrada de muestra.
- Campos que están presentes en la carga de entrada. Seleccione el símbolo de tres puntos junto a un campo para,opcionalmente, quitar, cambiar el nombre o cambiar el tipo de datos del campo.
- En el paso siguiente, especifique el campo y el agregado que quiere calcular, como Promedio y Recuento. También puede especificar el campo que quiere agrupar por junto con el período de tiempo. A continuación, puede validar los resultados del paso en la sección Vista previa de datos.
- Elija la base de datos y el contenedor de Cosmos DB donde quiere escribir los resultados.
- Para iniciar el trabajo de Stream Analytics, seleccione Iniciar.
Para iniciar el trabajo, debe especificar:- El número de Unidades de streaming (SU) con las que se ejecutan los trabajos. Las SU representan la cantidad de procesos y memoria asignadas al trabajo. Se recomienda empezar con tres y ajustar la cantidad según sea necesario.
- El control de errores de datos de salida permite especificar el comportamiento que desea cuando se produce un error en la salida de un trabajo en el destino debido a errores de datos. De manera predeterminada, el trabajo reintenta hasta que la operación de escritura se realiza correctamente. También puede optar por quitar eventos de salida.
- Después de seleccionar Iniciar, el trabajo comienza a ejecutarse en dos minutos. Vea el trabajo en la sección Procesar datos en la pestaña de trabajos de Stream Analytics.Puede explorar las métricas del trabajo y detenerlo o reiniciarlo, según sea necesario.
Consideraciones al usar la característica de replicación geográfica de Event Hubs
Azure Event Hubs lanzó recientemente la característica Replicación geográfica en versión preliminar pública. Esta característica es diferente de la característica de Recuperación ante desastres geográfica de Azure Event Hubs.
Cuando el tipo de conmutación por error es Forzado y la coherencia de la replicación es Asincrónica, el trabajo de Stream Analytics no garantiza exactamente una salida una vez en una salida de Azure Event Hubs.
Azure Stream Analytics, como productor con un centro de eventos una salida, podría observar el retraso de la marca de agua en el trabajo durante la duración de la conmutación por error y durante la limitación por Event Hubs en caso de que el retraso de replicación entre principal y secundario alcance el retraso máximo configurado.
Azure Stream Analytics, como consumidor con Event Hubs como entrada, puede observar el retraso de la marca de agua en el trabajo durante la duración de la conmutación por error y podría omitir los datos o buscar datos duplicados una vez completada la conmutación por error.
Debido a estas advertencias, se recomienda reiniciar el trabajo de Stream Analytics con la hora de inicio adecuada justo después de que se complete la conmutación por error de Event Hubs. Además, dado que la característica de replicación geográfica de Event Hubs está en versión preliminar pública, no se recomienda usar este patrón para trabajos de producción de Stream Analytics en este momento. El comportamiento actual de Stream Analytics mejorará antes de que la característica de replicación geográfica de Event Hubs esté disponible con carácter general y se pueda usar en trabajos de producción de Stream Analytics.
Pasos siguientes
Ahora sabe cómo usar el editor sin código de Stream Analytics para desarrollar un trabajo que lea de Event Hubs y calcule agregados como recuentos, promedios y lo escriba en el recurso de Azure Cosmos DB.