Introducción a la analítica a escala de la nube para sectores regulados
El análisis a escala de la nube se basa en las zonas de aterrizaje de Azure para facilitar la implementación y la gobernanza. El propósito principal de una zona de aterrizaje de Azure es garantizar que, cuando una aplicación o una carga de trabajo aterriza en Azure, la infraestructura necesaria ya esté instalada. Antes de implementar la zona de aterrizaje de análisis a escala de la nube, debe haber trabajado ya a través del marco de adopción de la nube para implementar una arquitectura de zona de aterrizaje Azure con zonas de aterrizaje de plataforma.
Para cargas de trabajo soberanas, Microsoft dispone de la zona de aterrizaje soberana (SLZ), que es una variante de la zona de aterrizaje Azure a escala empresarial destinada a organizaciones que necesitan controles soberanos avanzados. La analítica a escala de nube puede implementarse en esta variante de la zona de aterrizaje de Azure.
El análisis a escala de la nube implica la implementación en zonas de aterrizaje de aplicaciones. Estas zonas suelen residir bajo el grupo de administración de zonas de aterrizaje, con políticas que se filtran a las plantillas de muestra proporcionadas por Microsoft.
Microsoft proporciona plantillas de ejemplo para empezar, que puede usar para implementaciones de Data Lakehouse y de malla de datos.
A menudo, un negocio busca claridad o instrucciones prescriptivas antes de empezar a establecer los detalles técnicos de un caso de uso específico, un proyecto o un análisis a escala de la nube de un extremo a otro. Cuando un negocio formula su estrategia general de datos, puede ser complicado asegurarse de que se han tenido en cuenta todos los principios estratégicos y necesarios para el ámbito del uso actual.
Para acelerar la entrega de este recorrido de información de un extremo a otro, mientras se tienen en cuenta estos desafíos, Microsoft ha desarrollado un escenario prescriptivo para el análisis a escala de la nube. Se alinea con los temas clave que se tratan en Develop a plan for cloud-scale analytics (Desarrollo de un plan para el análisis a escala de la nube).
El análisis a escala de la nube se basa en Microsoft Cloud Adoption Framework, al tiempo que aplica el objetivo del Marco de buena arquitectura de Microsoft Azure. Microsoft Cloud Adoption Framework proporciona instrucciones prescriptivas y procedimientos recomendados sobre los modelos operativos en la nube, la arquitectura de referencia y las plantillas de plataforma. Se basa en los aprendizajes reales de algunos de nuestros entornos más exigentes, sofisticados y complejos.
El análisis a escala de la nube allana el camino para que los clientes compilen y pongan en marcha zonas de aterrizaje para hospedar y ejecutar cargas de trabajo de análisis. Las bases de la creación de las zonas de aterrizaje son la seguridad, la gobernanza y el cumplimiento. Son escalables y modulares, al tiempo que compatibles con la autonomía y la innovación.
A finales de la década de 1980, se introdujo el almacenamiento de datos de generación 1, que combinaba orígenes de datos dispares de toda la empresa. A finales de la década de 2000 llegó Gen2, con la introducción de ecosistemas de macrodatos, como Hadoop y el lago de datos. A mediados de la década de 2010, apareció la plataforma de datos en la nube. Era similar a las generaciones anteriores, pero con la introducción de la ingesta de datos de streaming, como las arquitecturas kappa o lambda. A principios de 2020 presentamos el concepto de lago de datos, malla de datos, tejido de datos y patrones operativos centrados en datos.
A pesar de estos avances, muchas organizaciones siguen usando la plataforma monolítica centralizada, generación 1. Este sistema funciona bien, hasta cierto punto. Sin embargo, pueden producirse cuellos de botella debido a procesos interdependientes, componentes estrechamente acoplados y equipos hiperespecializados. Los trabajos de extracción, transformación y carga (ETL) pueden llegar a destacar mucho y ralentizar las escalas de tiempo de entrega.
El almacenamiento de datos y el lago de datos siguen siendo valiosos y desempeñan un papel importante en la arquitectura general. En la documentación siguiente, hemos resaltado algunos de los desafíos que pueden producirse al usar estas prácticas tradicionales para escalar. Estos desafíos son especialmente relevantes en una organización compleja, donde los orígenes de datos, los requisitos, los equipos y las salidas sufren cambios.
Su arquitectura de datos analíticos y modelo operativo actuales pueden incluir estructuras de almacén de datos, lago de datos y data lakehouse, tejido de datos o malla de datos.
Cada modelo de datos tiene sus propios méritos y desafíos. El análisis a escala de la nube le ayuda a trabajar desde la configuración actual para cambiar el enfoque a la administración de datos y así poder evolucionar con la infraestructura.
Puede admitir cualquier plataforma de datos y cualquier escenario para crear un marco de análisis a escala de la nube de un extremo a otro, que sirva como base y permita el escalado.
Una de las primeras áreas de enfoque es activar la estrategia de datos para satisfacer los desafíos, mediante la compilación iterativa de una plataforma de datos moderna escalable y ágil.
En lugar de sobrecargarse con los vales de servicio e intentar satisfacer las necesidades competitivas de la empresa, una plataforma de datos moderna le permite desempeñar un papel más consultivo, liberando su tiempo para centrarse en trabajos más valiosos. Proporcione líneas de negocio con la plataforma y los sistemas para satisfacer directamente las necesidades de datos y análisis.
Las áreas recomendadas del enfoque inicial son:
Mejore la calidad de los datos, facilite la confianza y obtenga información para tomar decisiones empresariales guiadas por los datos.
Implemente sin problemas datos, administración y análisis holísticos a escala en toda la organización.
Establezca una gobernanza de datos sólida que permita el autoservicio y la flexibilidad de las líneas de negocio.
Mantenga la seguridad y el cumplimiento legal en un entorno totalmente integrado.
Cree rápidamente la base para las funcionalidades de análisis avanzadas, con una solución inmediata de patrones modulares, repetibles y de buena arquitectura.
En segundo lugar hay que determinar la forma en que la organización implementa la gobernanza de datos.
La gobernanza de datos es la forma de garantizar que los datos que se usan en las operaciones, los informes y los análisis empresariales son reconocibles, precisos, de confianza y se pueden proteger.
Para muchas empresas, la expectativa es que los datos y la IA generen una ventaja competitiva. Como resultado, los ejecutivos están dispuestos a patrocinar iniciativas de IA en su determinación de basarse en datos. Sin embargo, para que la IA sea eficaz, los datos que usa deben ser de confianza. De lo contrario, la precisión de las decisiones podría verse comprometida, las decisiones podrían retrasarse o se podrían perder acciones, lo que puede afectar al resultado final. Las empresas no quieren que la calidad de sus datos sea pobre. Al principio, es posible que parezca sencillo corregir la calidad de los datos, hasta que vea el efecto que la transformación digital ha tenido en ellos.
Con los datos distribuidos entre una nube múltiple híbrida y un entorno de datos distribuidos, las organizaciones tienen dificultades para saber dónde están sus datos y gobernarlos. Los datos sin administrar pueden tener un efecto considerable en la empresa. Una calidad deficiente de los datos afecta a las operaciones empresariales, porque los errores de datos provocan errores y retrasos en los procesos. La baja calidad de los datos también afecta a la toma de decisiones empresariales y el cumplimiento mantenido. A menudo se prefiere garantizar la calidad de los datos en el origen, ya que la corrección de problemas de calidad en el sistema analítico puede ser más compleja y costosa que aplicar reglas de calidad de datos al principio de la fase de ingesta. Para ayudar a realizar un seguimiento y controlar la actividad de los datos, la gobernanza de datos debe incluir:
- Detección de datos
- Calidad de los datos
- Creación de directivas
- Uso compartido de datos
- Metadatos
Otro factor importante para la gobernanza de datos es su protección. La protección de datos puede ayudarle a cumplir con la legislación normativa y puede evitar vulneraciones de datos. La privacidad de los datos y el creciente número de vulneraciones de datos han convertido la protección de datos en una prioridad principal en la sala de juntas. Estas infracciones resaltan el riesgo para los datos confidenciales, como datos de cliente de identificación personal. Las consecuencias de una infracción de la privacidad de datos o una infracción de la seguridad de datos son muchas y pueden incluir las siguientes:
- Pérdida o daños graves en la imagen de marca
- Pérdida de confianza del cliente y de cuota de mercado
- Caída del precio de las acciones, lo que afecta a la rentabilidad de la inversión de las partes interesadas y al salario ejecutivo
- Grandes penalizaciones financieras debido a errores de auditoría o cumplimiento
- Acción legal
- El efecto dominó de la vulneración; por ejemplo, los clientes podrían sufrir un robo de identidad
En la mayoría de los casos, estas empresas deben declarar estas vulneraciones. Si se producen vulneraciones, es más probable que los clientes culpen primero a la empresa, en lugar de al hacker. Es posible que el cliente boicotee a la empresa durante varios meses o que no vuelva nunca.
El incumplimiento de la legislación regulatoria sobre la privacidad de los datos podría dar lugar a importantes penalizaciones financieras. La regulación de los datos le ayudará a evitar estos riesgos.
La adopción de una plataforma de estrategia de datos moderna no solo cambia la tecnología que usa su organización, sino también su funcionamiento.
El análisis a escala de la nube proporciona instrucciones recomendadas para ayudarle a considerar cómo organizar y mejorar a sus personas y equipos, entre las que se incluyen:
- Definiciones de personajes, roles y responsabilidades
- Estructuras sugeridas para equipos ágiles, verticales y entre dominios
- Recursos de aptitudes, incluidas las certificaciones de IA y datos de Azure a través de Microsoft Learn
También es importante interactuar con los usuarios finales a lo largo del proceso de modernización y a medida que continúa evolucionando la plataforma e incorporando nuevos casos de uso.
Las zonas de aterrizaje de Azure representan la ruta de diseño estratégica y el estado técnico de destino para su entorno. Permiten facilitar la implementación y la gobernanza para proporcionar mayor agilidad y cumplimiento. Las zonas de aterrizaje de Azure también garantizan que, cuando una nueva aplicación o carga de trabajo llega a su entorno, la infraestructura adecuada ya está instalada. La administración de datos de Azure y las zonas de aterrizaje de datos, integradas con las soluciones de gobernanza y analítica de software como servicio de Microsoft, están diseñadas teniendo en cuenta estos mismos principios fundacionales y, cuando se combinan con los demás elementos de la analítica a escala de la nube, pueden ayudar a habilitar:
- Autoservicio
- Escalabilidad
- Inicio rápido
- Seguridad
- Privacidad
- Operaciones optimizadas
La zona de aterrizaje de administración de datos proporciona la base para la administración y gobernanza centralizadas de los datos de la plataforma en toda la organización. También facilita la comunicación para ingerir datos de todo el patrimonio digital, incluida la infraestructura híbrida y multinube.
La zona de aterrizaje de administración de datos admite muchas otras capacidades de administración y gobernanza de datos, como:
- Catálogo de datos
- Administración de calidad de datos
- Clasificación de datos
- Linaje de datos
- Repositorio de modelado de datos
- Catálogo de API
- Uso compartido de datos y contratos
Sugerencia
Si usa soluciones de socios para el catálogo de datos, la administración de la calidad de datos o las capacidades de linaje de datos, deben residir en la zona de aterrizaje de administración de datos. Alternativamente, Microsoft Purview puede implementarse como una solución de software como servicio, conectándose tanto a la zona de aterrizaje de administración de datos como a las zonas de aterrizaje de datos.
Las zonas de aterrizaje de datos acercan los datos a los usuarios y permiten el autoservicio, a la vez que mantienen la administración y gobernanza comunes a través de la conexión a la zona de aterrizaje de administración de datos.
Hospedan servicios estándar como redes, supervisión, ingesta y procesamiento de datos, al igual que personalizaciones, como productos de datos y visualizaciones.
Las zonas de aterrizaje de datos son vitales para habilitar la escalabilidad de la plataforma. En función del tamaño y las necesidades de su organización, puede empezar con una o varias zonas de aterrizaje.
A medida que decida entre una o varias zonas de aterrizaje, considere los requisitos de residencia de datos y dependencias regionales. Por ejemplo, ¿hay leyes o regulaciones locales que requieran que los datos permanezcan en una ubicación específica?
Independientemente de la decisión inicial, puede agregar o quitar zonas de aterrizaje de datos según sea necesario. Si va a empezar con una sola zona de aterrizaje, le recomendamos que planifique su ampliación a varias zonas de aterrizaje para evitar futuras necesidades de migración.
Nota
Cuando se ha implementado Microsoft Fabric, la zona de aterrizaje de datos aloja soluciones que no son de software como servicio, como lagos de datos y otros servicios de datos de Azure.
Para más información sobre las zonas de aterrizaje, consulte Azure landing zones for cloud-scale analytics (Zonas de aterrizaje de Azure para el análisis a escala de la nube).
Después de leer este conjunto de documentación, en particular las secciones de gobernanza, seguridad, funcionamiento y procedimientos recomendados, se recomienda configurar un entorno de prueba de concepto mediante las plantillas de implementación. Estas plantillas, junto con la guía de arquitectura, le ofrecen experiencia práctica con algunas de las tecnologías de software como servicio de Azure y Microsoft. Para más información, consulte Getting started checklist (Introducción: lista de comprobación).