Entender bien los equipos y las funciones del análisis a escala de nube en Azure

Para el análisis a escala de la nube, se recomienda mover equipos, como los de ingesta, procesamiento, análisis, consumo y visualización, del trabajo en equipos en silos horizontales al trabajo en equipos ágiles, entre dominios verticales en cada nivel. Los equipos de plataforma, como los de operaciones de plataforma de datos y operaciones de plataforma, se agrupan en un grupo de plataformas común.

Diagram of cloud-scale analytics teams.

Grupo de plataforma

El grupo de plataformas consta de dos equipos:

  • Operaciones de plataforma: las operaciones de plataforma forman parte del grupo de plataformas. Opera y posee la plataforma de nube. Este equipo es responsable de crear instancias de la zona de aterrizaje de administración de datos y el andamiaje de la zona de aterrizaje de datos, como redes, emparejamiento, servicio principal y supervisión en el análisis a escala de nube.

Normalmente ayudan a las operaciones de plataforma de datos a desarrollar interfaces de Administración de servicios de TI para los roles en la zona de aterrizaje de datos al principio de la implementación del análisis a escala de nube. Estas interfaces tienden a ser llamadas de API REST a un servicio para incorporar productos de datos, establecer la seguridad y agregar servicios a las zonas de aterrizaje de datos.

  • Operaciones de plataforma de datos: el grupo de operaciones de plataforma de datos se hospeda en el grupo de plataformas. Las operaciones de plataforma de datos proporcionan servicios, como los de supervisión central, catalogación y directivas reutilizables para productos y zonas de aterrizaje de datos. Las operaciones de plataforma de datos poseen la zona de aterrizaje de administración de datos. Las demás responsabilidades del equipo son:

Desarrollo de la infraestructura

  • Desarrollar plantillas de infraestructura como código la zona de aterrizaje de datos; las plantillas deben actualizarse y mantenerse con el tiempo, y pueden abarcar varios escenarios.
  • Priorice las plantillas y agregue nuevas funcionalidades según el ciclo de comentarios de otros equipos.
  • Trabaje en un marco ágil con el objetivo común de generar plantillas de infraestructura estándar.

Respuesta a nuevas solicitudes de zona de aterrizaje de datos

El equipo de operaciones de plataforma de datos debe proporcionar las herramientas y los servicios para admitir las plantillas que ha creado. Las herramientas de Administración de servicios de TI, como ServiceNow, pueden controlar las solicitudes de vales aprobadas por el equipo de operaciones de plataforma de datos para crear nuevas zonas de aterrizaje de datos. Una vez aprobada, una nueva zona de aterrizaje se bifurcaría a partir de la plantilla base para crear un nuevo proyecto de DevOps, y las canalizaciones implementarían plantillas en un nuevo entorno.

Bucle de mejoras y comentarios de las operaciones de plataforma de datos

Hay dos opciones disponibles para mejorar las plantillas:

  • Los equipos a cargo de las instancias de plantillas de infraestructura mejorarían sus plantillas e implementaciones de DevOps. Si los equipos detectan problemas en las plantillas, las operaciones de plataforma de datos pueden ayudar a los equipos y combinar los cambios de la bifurcación en la plantilla.

  • Otros equipos de zona de aterrizaje de datos deberían poder crear vales de mejoras y trabajos pendientes que mejorarían las plantillas según la priorización de los vales.

Directivas de Azure para análisis a escala de la nube

Entre los principios del análisis a escala de nube destacan la agilidad del autoservicio y las barreras de protección de datos, costos y patrones. Las operaciones de plataforma de datos funcionan con las operaciones de plataforma para definir la calidad. Estos equipos colaboran para implementar directivas de datos específicas. Las operaciones de plataforma de datos deben seguir un proceso de revisión para actualizar y mantener las nuevas características que se agregan a los productos.

Implementación y funcionamiento de zonas de aterrizaje de administración de datos

Las operaciones de plataforma de datos y las operaciones de plataforma funcionan conjuntamente para implementar y operar zonas de aterrizaje de administración de datos. Una zona de aterrizaje de administración de datos proporciona servicios compartidos a las zonas de aterrizaje de datos, lo que la convierte en una pieza fundamental del análisis a escala de nube.

Operaciones de zona de aterrizaje de datos

Las operaciones de zona de aterrizaje de datos operan y mantienen su instancia de zona de aterrizaje de datos a la vez que responden a solicitudes de equipos de aplicaciones de datos. Proporcionan muchos de los servicios que ofrecen las operaciones de plataforma de datos, pero se limitan a su zona de aterrizaje de datos.

Funcionan fuera del repositorio bifurcado que se crea al crear una zona de aterrizaje de datos. Para solicitar cambios de directiva, deben generar vales para las operaciones de plataforma de datos a fin de permitir estas excepciones.

Compatibilidad con el equipo de aplicaciones de datos para personalizar productos de datos

El equipo de operaciones de zona de aterrizaje de datos ofrece soporte al equipo de aplicaciones de datos mediante el uso de solicitudes de extracción para enviar nuevas plantillas de producto a sus respectivos repositorios de productos de datos.

Como propietario de la zona de aterrizaje, Azure DevOps enrutaría la aprobación de los cambios a las operaciones de zona de aterrizaje de datos:

  • Si se aprueban, los cambios de la plantilla se trasladan a la rama principal y se implementan en producción a través de la integración continua o el desarrollo continuo, lo que provoca la actualización de la plataforma o la infraestructura de productos de datos.

  • Si se deniega, las operaciones de zona de aterrizaje de datos trabajarían con el equipo de aplicaciones de datos para corregir los cambios.

Respuesta a nuevas solicitudes de productos de datos

El equipo de operaciones de la zona de aterrizaje de datos da soporte a los equipos de aplicaciones de datos para crear nuevos productos de datos. Cuando los equipos de aplicaciones de datos solicitan asistencia, una solución de administración de servicios de TI, como una aplicación lógica de automatización, orquesta la aprobación o implementación de un nuevo repositorio de aplicación de datos. Las operaciones de zona de aterrizaje de datos recibirán notificaciones de nuevas solicitudes y aprobarán o rechazarán las implementaciones. Después de la aprobación, se crea un proyecto de DevOps, la plantilla principal y los artefactos se bifurcan, y se implementa una nueva aplicación de datos.

Seguimiento del Marco de buena arquitectura de Azure

Las operaciones de zona de aterrizaje de datos son responsables de la zona de aterrizaje de datos. Se recomienda que el equipo sea experto en el Marco de buena arquitectura de Azure, que proporciona instrucciones sobre optimización de costos, confiabilidad y seguridad.

Hacer negocio como de costumbre

Las operaciones de zona de aterrizaje de datos son responsables de las tareas empresariales, que incluyen la recopilación de solicitudes de comentarios y mejoras. Estas solicitudes se priorizan y se comparten con las operaciones de plataforma de datos de forma periódica. El equipo supervisa la zona de aterrizaje de datos en busca de incidentes y eventos de mantenimiento. Interactuará con otros equipos de operaciones durante incidentes graves con fines de mitigación, restauración de copias de seguridad, conmutación por error y escalado de servicios.

Equipos de aplicaciones de datos

El equipo de aplicaciones de datos entrega nuevos productos de datos a la empresa. Se abastecen de almacenes de datos de lectura de integraciones de datos y los transforman en soluciones empresariales. Todo lo que transforma datos para su uso se clasifica como un producto de datos. Este equipo suele ser una combinación de especialistas técnicos y expertos en la materia que pueden ayudar a la empresa a lograr valor rápidamente. Los productos de datos pueden abarcar desde informes simples y nuevos productos de datos hasta configuraciones personalizadas con aplicaciones web de Kubernetes controladas por datos.

Nuevos productos de datos

Los propietarios de productos y los representantes empresariales crean solicitudes de nuevos productos de datos cuando son necesarios. La oficina de datos evalúa los requisitos y monta un nuevo equipo de aplicaciones de datos con conocimientos diversos. El equipo identifica los productos de datos necesarios para el producto de datos y solicita permiso para el recurso de datos. Si se necesita un nuevo producto de datos, el equipo de aplicaciones de datos recibe una incidencia para insertarlo. El equipo identifica los servicios necesarios para el nuevo producto de datos y solicita un nuevo producto de datos a través del proceso de implementación de aplicaciones de datos. El equipo de aplicaciones de datos recibe un repositorio bifurcado de la plantilla de aplicaciones de datos maestros para implementar la aplicación de datos.

Certificación de productos de datos

En una plataforma de autoservicio, cualquiera puede crear informes, mantener productos de datos en una cuenta de almacenamiento de desarrollador de Azure Data Lake y lanzar productos de datos para que los use la empresa. Las solicitudes de revisión de productos de datos se producen cuando:

  • Los patrocinadores empresariales registran vales para certificar productos de datos.
  • Las operaciones de plataforma de datos nominan productos de datos en función de la popularidad.

Un equipo de aplicaciones de datos puede impulsar un proceso de certificación, para la definición de las operaciones de plataforma de datos y la seguridad digital. El proceso puede incluir lo siguiente:

  • Pruebas ideadas para validar transformaciones de datos y lógica de negocios.
  • Evaluaciones de seguridad, cumplimiento o impacto en el rendimiento.

Tras la certificación, los artefactos se intercalan y cargan en un repositorio de productos de datos, se publica la documentación y se notifica al equipo de aplicaciones de datos.

Asistencia de productos

Los usuarios pueden enviar comentarios con una solución de Administración de servicios de TI o directamente en el producto, ya que un vale se enruta al propietario del producto de datos. Esta evaluación individual evalúa la prioridad de la solicitud y determina si se debe escalar al equipo de aplicaciones de datos para corregir o escribir comentarios en un trabajo pendiente del producto y revisarlos durante los ciclos de planeamiento del producto.

Equipo de aplicaciones de ciencia de datos

Aunque el equipo de productos de ciencia de datos crea productos de datos, es distinto porque sus funciones dan productos de datos. El resultado son modelos publicados que se convierten en productos de datos para que otros usuarios los usen. El patrón sigue un modelo de operaciones de Machine Learning asociado a la zona de aterrizaje de datos.

Para empezar, el equipo de productos de ciencia de datos busca y encuentra productos de datos pertinentes para su caso de uso. Las soluciones de gobernanza de datos pueden revelar más detalles, como la calidad de los datos, el linaje o un conjunto de datos o perfil similar. El equipo investiga si un conjunto de datos de ejemplo está disponible y si los datos son pertinentes para el proyecto. Una vez que se concede acceso a los datos a través de un catálogo de datos o un paquete de acceso de Microsoft Entra, el equipo usa los servicios de la zona de aterrizaje de datos para explorar y analizar los datos.

Antes de procesar todos los datos, el equipo usa el proceso local o remoto para procesar y analizar productos de datos de ejemplo. Puede optimizar los destinos de proceso remotos con productos de datos más grandes para entrenar y desarrollar modelos de aprendizaje automático con ejecuciones, salidas y modelos de los que se realiza un seguimiento en Azure Machine Learning.

Cuando el equipo ha desarrollado modelos de aprendizaje automático, empiezan a ponerlos en marcha. Para ello, amplían el equipo para incluir ingenieros de DataOps y aprendizaje automático que pueden ayudar a mover los modelos a un nuevo producto de datos, como se describe en un rol de equipo de aplicaciones de datos.

El equipo de ciencia de datos seguirá trabajando con los propietarios de productos de datos asociados para capturar comentarios, soporte técnico y modelos resueltos y actualizados en producción mediante una metodología de operaciones de aprendizaje automático.

Analista

Los analistas representan un grupo grande que incluye analistas de negocios, usuarios avanzados y, por lo general, cualquier persona de la organización con interés en optimizar datos para crear nuevos datos empresariales. La habilitación de autoservicio es un principio clave que permite a los analistas acceder a análisis y datos sin tener que proteger el presupuesto y los recursos de TI formales.

Sugerencia

Las empresas deben ver la información creada por los analistas como el siguiente conjunto de posibles productos de datos que se certificarán para que otros usuarios puedan usarlos en la empresa.

Búsqueda y solicitud de datos

Los analistas consultan catálogos o marketplaces de datos para descubrir productos de datos pertinentes.

  • Si el recurso de datos no se encuentra o no existe, los analistas abren una vale de soporte técnico con un equipo aplicaciones de datos. El equipo aplicaciones de datos ayuda a encontrar el conjunto de datos o agrega la solicitud a su trabajo pendiente para evaluarlo en otro ciclo de desarrollo.

  • Si el conjunto de datos existe, el análisis puede identificar la pertenencia a un grupo de Microsoft Entra para los recursos enumerados en el catálogo y usar el portal de paquetes de acceso de Azure para solicitar acceso al grupo de Microsoft Entra.

Creación de nuevos informes

Los analistas pueden usar herramientas como Microsoft Power BI para integrar productos de datos en informes. Estos informes pueden ser para uso individual o para la publicación de un producto de datos certificado. Antes de publicar el informe en toda la organización, debería certificarse con un proceso de certificación de productos de datos con fines de seguridad, cumplimiento y rendimiento.

Ejecución de consultas según sea necesario

El análisis a escala de nube tiene áreas de trabajo compartidas en las que los analistas pueden consultar datos, sujetos a permisos. Es habitual que los productos de datos proporcionen un proceso dedicado para ejecutar consultas según sea necesario. En ambos casos, el analista puede ejecutar consultas en productos de datos en las zonas de aterrizaje de datos. También está sujeto a permisos. Los resultados de las consultas se pueden almacenar en áreas de trabajo de Azure Data Lake para volver a usarlos.

Comentarios del usuario

Dado que los analistas pueden ofrecer información y mejoras como un origen sin usar, se recomienda encarecidamente a las empresas crear grupos de comentarios de usuarios para cada zona de aterrizaje de datos.

Además de participar en estos grupos de usuarios, los analistas deben enviar comentarios sobre los recursos de datos al equipo de aplicaciones de datos y problemas del catálogo de datos en la solución de Administración de servicios de TI o el catálogo de datos. Pueden enviar problemas de proceso de datos al equipo de aplicaciones de datos o a una solución de Administración de servicios de TI.

Nota:

Una solución de Administración de servicios de TI debe servir como ubicación central para enviar comentarios y escalar problemas. El envío de comentarios directos a equipos individuales puede parecer una solución más rápida, pero este enfoque no ofrece a la empresa visibilidad sobre los desafíos de la plataforma. Con una solución de Administración de servicios de TI con el enrutamiento correcto a equipos de aplicaciones de datos, pueden proporcionar al negocio una vista de toda la empresa.

Matriz de asignación de responsabilidades

  • Responsable: ¿quién realiza la tarea?
  • Encargado: ¿quién toma decisiones y emprende acciones para la tarea?
  • Consultado: ¿quién recibe comunicaciones sobre las decisiones y la tarea?
  • Informado: ¿quién recibe novedades sobre las decisiones y acciones durante el proyecto?
Rol Entorno en la nube Zona de aterrizaje de la administración de datos Zona de aterrizaje de datos Integración de datos Productos de datos
Propietario del servicio Informado Encargado Consultado informado Consultado informado Consultado informado
Propietario del servicio de la zona de aterrizaje de datos Informado Consultado informado Encargado Encargado Encargado
Operaciones de la plataforma de nube Responsable Consultado Consultado Consultado Consultado
Operaciones de la plataforma de datos Consultado Responsable Responsable Consultado Consultado
Operaciones de zona de aterrizaje de datos Informado Responsable Responsable Responsable Responsable
Equipos de aplicaciones de datos Informado Informado Informado Responsable

Pasos siguientes

Marco de buena arquitectura de Azure para cargas de trabajo de datos