Tutorial: Migrar datos capturados de Event Hubs desde Azure Storage a Azure Synapse Analytics usando Azure Event Grid y Azure Functions
Artículo
En este tutorial, migrará los datos capturados de Event Hubs de Azure Blob Storage a Azure Synapse Analytics, específicamente un grupo de SQL dedicado, usando Azure Event Grid y Azure Functions.
En este diagrama se muestra el flujo de trabajo de la solución que se compila en este tutorial:
Los datos que se envían a un centro de eventos de Azure se capturan en una instancia de Azure Blob Storage.
Una vez que se completa la captura de los datos, se genera un evento y se envía a Azure Event Grid.
Azure Event Grid reenvía estos datos del evento a una aplicación de funciones de Azure.
La aplicación de función usa la dirección URL del blob de los datos del evento para recuperar el blob desde el almacenamiento.
La aplicación de funciones migra los datos del blob a una instancia de Azure Synapse Analytics.
En este artículo, podrá llevar a cabo estos pasos:
Implementación de la infraestructura necesaria para el tutorial
Publicar código en una aplicación de Functions
Creación de una suscripción de Event Grid
Transmisión de datos de ejemplo a una instancia de Event Hubs
Comprobación de los datos capturados en Azure Synapse Analytics
Requisitos previos
Para realizar este tutorial, necesitará lo siguiente:
Suscripción a Azure. Si no tiene una suscripción a Azure, cree una cuenta gratuita antes de empezar.
Visual Studio con cargas de trabajo para: desarrollo de escritorio de .NET, desarrollo de Azure, desarrollo web y de ASP.NET, desarrollo de Node.js y desarrollo de Python.
WindTurbineDataGenerator: un publicador simple que envía datos de turbina eólica de ejemplo a un centro de eventos con la característica Capture habilitada.
FunctionDWDumper: una función de Azure que recibe una notificación de Azure Event Grid cuando se captura un archivo Avro en el blob de Azure Storage. Recibe la ruta de acceso del identificador URI del blob, lee su contenido y envía estos datos a Azure Synapse Analytics (grupo de SQL dedicado).
Implementar la infraestructura
En este paso, implementará la infraestructura requerida con una plantilla de Resource Manager. Cuando implemente la plantilla, se crearán estos recursos:
Un centro de eventos con la característica Captura habilitada.
Una cuenta de almacenamiento para los archivos capturados.
Un plan de App Service para hospedar la aplicación de función
Una aplicación de función para procesar el evento
Un servidor SQL Server para hospedar el almacenamiento de datos
Azure Synapse Analytics (grupo de SQL dedicado) para el almacenamiento de los datos migrados
Uso de la CLI de Azure para implementar la infraestructura
Seleccione el botón Cloud Shell que se encuentra en la parte superior.
Verá Cloud Shell abierto en la parte inferior del explorador.
Si usa Cloud Shell por primera vez:
Si ve una opción para elegir entre Bash y PowerShell, seleccione Bash.
Cree una cuenta de almacenamiento seleccionando Crear almacenamiento. Azure Cloud Shell requiere una cuenta de Azure Storage donde almacenar algunos archivos.
Espere hasta que se inicialice Cloud Shell.
En Cloud Shell, seleccione Bash si aún no está seleccionado, como se muestra en la imagen anterior.
Para crear un grupo de recursos de Azure, ejecute el comando de la CLI siguiente:
Copie y pegue este comando en la ventana Cloud Shell. Cambie el nombre del grupo de recursos y su ubicación si lo desea.
Para implementar todos los recursos mencionados en la sección anterior (centro de eventos, cuenta de almacenamiento, aplicación de funciones, instancia de Azure Synapse Analytics), ejecute el siguiente comando de la CLI:
Copie y pegue el comando en la ventana Cloud Shell. También puede copiar y pegar en el editor que prefiera, establecer valores y luego copiar el comando en Cloud Shell. Si ve un error debido a un nombre de recurso de Azure, elimine el grupo de recursos, corrija el nombre y vuelva a intentar el comando.
Importante
Especifique valores para las entidades siguientes antes de ejecutar el comando:
Nombre del grupo de recursos que creó anteriormente.
Nombre del espacio de nombres del centro de eventos.
Nombre del centro de eventos. Puede dejar el valor sin modificaciones (hubdatamigration).
Nombre del servidor SQL Server.
Nombre del usuario y la contraseña de SQL.
Nombre de la base de datos.
Nombre de la cuenta de almacenamiento.
Nombre de la aplicación de función.
az deployment group create \
--resource-group rgDataMigration \
--template-uri https://raw.githubusercontent.com/Azure/azure-docs-json-samples/master/event-grid/EventHubsDataMigration.json \
--parameters eventHubNamespaceName=<event-hub-namespace> eventHubName=hubdatamigration sqlServerName=<sql-server-name> sqlServerUserName=<user-name> sqlServerPassword=<password> sqlServerDatabaseName=<database-name> storageName=<unique-storage-name> functionAppName=<app-name>
Presione ENTRAR en la ventana Cloud Shell para ejecutar el comando. Este proceso puede tardar un poco debido a que se están creando varios recursos. En el resultado del comando, asegúrese de que no se produjo ningún error.
Para cerrar Cloud Shell, seleccione el botón Cloud Shell en el portal (o) el botón X que se encuentra en la esquina superior derecha de la ventana de Cloud Shell.
Comprobación de la creación de los recursos
En Azure Portal, seleccione Grupos de recursos en el menú de la izquierda.
Para filtrar la lista de grupos de recursos, escriba el nombre del grupo de recursos en el cuadro de búsqueda.
Seleccione el grupo de recursos en la lista.
Confirme que ve los recursos siguientes en el grupo de recursos:
Creación de una tabla en Azure Synapse Analytics
En esta sección va a crear una tabla en el grupo de SQL dedicado que creó anteriormente.
En la lista de recursos del grupo de recursos, seleccione el grupo de SQL dedicado.
En la página Dedicated SQL pool (Grupo de SQL dedicado), en la sección Tareas comunes del menú de la izquierda, seleccione Editor de consultas (versión preliminar) .
Escriba el nombre de usuario y la contraseña del servidor SQL Server y seleccione Aceptar. Si ve un mensaje sobre cómo permitir que el cliente acceda a SQL Server, seleccione IP de la lista de permitidos <su dirección IP> en el servidor <su servidor SQL Server> y, a continuación, seleccione Aceptar.
En la ventana de consulta, copie y ejecute el script SQL siguiente:
Mantenga abierta esta pestaña o ventana para poder comprobar que los datos se crean al final del tutorial.
Publicar la aplicación de Azure Functions
En primer lugar, obtenga el perfil de publicación de la aplicación de Functions desde Azure Portal. Después, use el perfil de publicación para publicar el proyecto o la aplicación de Azure Functions desde Visual Studio.
Obtención del perfil de publicación
En la página Grupo de recursos, seleccione la aplicación de Azure Functions en la lista de recursos.
En la página Aplicación de Functions de la aplicación, seleccione Obtener perfil de publicación en la barra de comandos.
Descargue y guarde el archivo en la subcarpeta FunctionEGDDumper de la carpeta EventHubsCaptureEventGridDemo.
Uso del perfil de publicación para publicar la aplicación de Functions
Inicie Visual Studio.
Abra la solución EventHubsCaptureEventGridDemo.sln que descargó de GitHub como parte de los requisitos previos. Se encuentra en la carpeta /samples/e2e/EventHubsCaptureEventGridDemo.
En el Explorador de soluciones, haga clic con el botón derecho en el proyecto FunctionEGDWDumper y seleccione Publicar.
En la pantalla siguiente, seleccione Iniciar o Agregar un perfil de publicación.
En el cuadro de diálogo Publicar, seleccione Importar perfil en Destino y después Siguiente.
En la pestaña Importar perfil, seleccione el archivo de configuración de publicación que ha guardado anteriormente en la carpeta FunctionEGDWDumper y después seleccione Finalizar.
Cuando Visual Studio haya configurado el perfil, seleccione Publicar. Confirme que la publicación se ha realizado correctamente.
En el explorador web que tiene la página Función de Azure abierta, seleccione Funciones en el panel central. Confirme que la función EventGridTriggerMigrateData aparece en la lista. Si no la ve, intente publicar de nuevo desde Visual Studio y, a continuación, actualice la página en el portal.
Después de publicar la función, estará listo para suscribirse al evento.
Nos suscribiremos al evento.
En una pestaña o ventana nueva de un explorador web, inicie sesión en Azure Portal.
En Azure Portal, seleccione Grupos de recursos en el menú de la izquierda.
Para filtrar la lista de grupos de recursos, escriba el nombre del grupo de recursos en el cuadro de búsqueda.
Seleccione el grupo de recursos en la lista.
Seleccione el espacio de nombres de Event Hubs en la lista de recursos.
En la página Espacio de nombres de Event Hubs, seleccione Eventos en el menú de la izquierda y, a continuación, seleccione + Suscripción de eventos en la barra de herramientas.
En la página Crear suscripción de eventos, siga estos pasos:
Escriba un nombre para la suscripción a eventos.
Escriba un nombre para el tema del sistema. Un tema del sistema proporciona un punto de conexión para que el remitente envíe eventos. Para más información, vea Temas del sistema.
En Tipo de punto de conexión, seleccione Función de Azure.
En Punto de conexión, seleccione el vínculo.
En la página Seleccionar la función de Azure, siga estos pasos si no se rellenan automáticamente.
Seleccione la suscripción de Azure que tenga la función de Azure.
Seleccione el grupo de recursos para la función.
Seleccione la aplicación de funciones.
Seleccione la ranura de implementación.
Seleccione la función EventGridTriggerMigrateData.
En la página Seleccionar la función de Azure, seleccione Confirmar selección.
De nuevo, en la página Crear suscripción de eventos, seleccione Crear.
Compruebe que se haya creado la suscripción a eventos. Cambie a la pestaña Suscripciones a eventos de la página Eventos del espacio de nombres de Event Hubs.
Ejecutar la aplicación para generar datos
Ya ha terminado de configurar el centro de eventos, el grupo de SQL dedicado (anteriormente SQL Data Warehouse), la aplicación de funciones de Azure y la suscripción a eventos. Hay que configurar algunos valores antes de ejecutar una aplicación que genere los datos del centro de eventos.
En Azure Portal, vaya al grupo de recursos como lo hizo anteriormente.
Seleccione el espacio de nombres de Event Hubs.
En la página Espacio de nombres de Event Hubs, seleccione Directivas de acceso compartido en el menú de la izquierda.
Seleccione RootManageSharedAccessKey en la lista de directivas.
Seleccione el botón Copiar que está junto al cuadro de texto Cadena de conexión: clave principal.
Vuelva a la solución de Visual Studio.
Haga clic con el botón derecho en el proyecto WindTurbineDataGenerator y seleccione Establecer como proyecto de inicio.
En el proyecto WindTurbineDataGenerator, abra program.cs.
Reemplace <EVENT HUBS NAMESPACE CONNECTION STRING> por la cadena de conexión que copió en el portal.
Si ha usado un nombre para el centro de eventos distinto de hubdatamigration, reemplace <EVENT HUB NAME> por el nombre del centro de eventos.
Compile la solución. Ejecute la aplicación WindTurbineGenerator.exe.
Después de un par de minutos, en la otra pestaña del explorador donde tiene abierta la ventana de consulta, consulte la tabla del almacenamiento de datos para obtener los datos migrados.
select * from [dbo].[Fact_WindTurbineMetrics]
Importante
Usamos la cadena de conexión para la autenticación en el espacio de nombres de Azure Event Hubs para simplificar el tutorial. Recomendamos usar la autenticación de Microsoft Entra ID en entornos de producción. Al usar una aplicación, puede habilitar la identidad administrada para la aplicación y asignar a la identidad un rol apropiado (propietario de Azure Event Hubs, emisor de datos de Azure Event Hubs o receptor de datos de Azure Event Hubs) en el espacio de nombres de Event Hubs. Para más información, vea Autorización del acceso a Event Hubs mediante Microsoft Entra ID.
Supervisión de la solución
Esta sección le ayuda a supervisar o solucionar problemas de la solución.
Visualización de datos capturados en la cuenta de almacenamiento
Desplácese hasta el grupo de recursos y seleccione la cuenta de almacenamiento usada para capturar datos de eventos.
En la página Cuenta de almacenamiento, seleccione Explorador de almacenamiento en el menú de la izquierda.
Expanda CONTENEDORES DE BLOBSy seleccione windturbinecapture.
Abra la carpeta con el mismo nombre que el espacio de nombres de Event Hubs en el panel derecho.
Abra la carpeta con el mismo nombre que el centro de eventos (hubdatamigration).
Profundice en las carpetas hasta que vea los archivos AVRO. Este es un ejemplo:
Comprobación de que el desencadenador de Event Grid invocó la función
Desplácese al grupo de recursos y seleccione la aplicación de funciones.
Seleccione la pestaña Funciones en el panel central.
Seleccione la función EventGridTriggerMigrateData de la lista.
En la página Función, seleccione Supervisión en el menú de la izquierda.
Seleccione Configurar para configurar Application Insights para que capture registros de invocación.
Cree un nuevo recurso de Application Insights o use uno existente.
Vuelva a la página Supervisión de la función.
Confirme que la aplicación cliente (WindTurbineDataGenerator) que está enviando los eventos todavía se está ejecutando. Si no es así, ejecute la aplicación.
Espere unos minutos (5 minutos o más) y seleccione el botón Actualizar para ver las invocaciones de función.
Seleccione una invocación para ver los detalles.
Event Grid distribuye datos del evento a los suscriptores. En el ejemplo siguiente se muestran los datos de eventos que se generan cuando el flujo de datos a través de un centro de eventos se captura en un blob. En concreto, observe que la propiedad fileUrl del objeto data apunta al blob en el almacenamiento. La aplicación de función usa esta dirección URL para recuperar el archivo de blob con los datos capturados.
En este tutorial, ha creado una suscripción de eventos para el evento CaptureFileCreated. Para más información sobre este evento y todos los eventos admitidos por Azure Blob Storage, consulte Azure Event Hubs como origen de Event Grid.
Demostrar la comprensión de las tareas comunes de ingeniería de datos para implementar y administrar cargas de trabajo de ingeniería de datos en Microsoft Azure mediante una serie de servicios de Azure.