Introducción al análisis a escala de la nube

El análisis a escala de la nube se basa en las zonas de aterrizaje de Azure para facilitar la implementación y la gobernanza. El propósito principal de una zona de aterrizaje de Azure es garantizar que, cuando una aplicación o una carga de trabajo aterriza en Azure, la infraestructura necesaria ya esté instalada. Antes de implementar la zona de aterrizaje del análisis a escala de la nube, debe haber establecido una o varias zonas de aterrizaje de Azure. Microsoft proporciona plantillas de ejemplo para empezar, que puede usar para implementaciones de Data Lakehouse y de malla de datos. Estas plantillas proporcionan agilidad y son compatibles con los requisitos de seguridad y gobernanza.

Evaluación del análisis a escala de la nube

A menudo, un negocio busca claridad o instrucciones prescriptivas antes de empezar a establecer los detalles técnicos de un caso de uso específico, un proyecto o un análisis a escala de la nube de un extremo a otro. Cuando un negocio formula su estrategia general de datos, puede ser complicado asegurarse de que se han tenido en cuenta todos los principios estratégicos y necesarios para el ámbito del uso actual.

Para acelerar la entrega de este recorrido de información de un extremo a otro, mientras se tienen en cuenta estos desafíos, Microsoft ha desarrollado un escenario prescriptivo para el análisis a escala de la nube. Se alinea con los temas clave que se tratan en Develop a plan for cloud-scale analytics (Desarrollo de un plan para el análisis a escala de la nube).

El análisis a escala de la nube se basa en Microsoft Cloud Adoption Framework, al tiempo que aplica el objetivo del Marco de buena arquitectura de Microsoft Azure. Microsoft Cloud Adoption Framework proporciona instrucciones prescriptivas y procedimientos recomendados sobre los modelos operativos en la nube, la arquitectura de referencia y las plantillas de plataforma. Se basa en los aprendizajes reales de algunos de nuestros entornos más exigentes, sofisticados y complejos.

El análisis a escala de la nube allana el camino para que los clientes compilen y pongan en marcha zonas de aterrizaje para hospedar y ejecutar cargas de trabajo de análisis. Las bases de la creación de las zonas de aterrizaje son la seguridad, la gobernanza y el cumplimiento. Son escalables y modulares, al tiempo que compatibles con la autonomía y la innovación.

Historia de la arquitectura de datos

A finales de la década de 1980, se introdujo el almacenamiento de datos de generación 1, que combinaba orígenes de datos dispares de toda la empresa. A finales de la década de 2000 llegó Gen2, con la introducción de ecosistemas de macrodatos, como Hadoop y el lago de datos. A mediados de la década de 2010, apareció la plataforma de datos en la nube. Era similar a las generaciones anteriores, pero con la introducción de la ingesta de datos de streaming, como las arquitecturas kappa o lambda. A principios de 2020 presentamos el concepto de lago de datos, malla de datos, tejido de datos y patrones operativos centrados en datos.

A pesar de estos avances, muchas organizaciones siguen usando la plataforma monolítica centralizada, generación 1. Este sistema funciona bien, hasta cierto punto. Sin embargo, pueden producirse cuellos de botella debido a procesos interdependientes, componentes estrechamente acoplados y equipos hiperespecializados. Los trabajos de extracción, transformación y carga (ETL) pueden llegar a destacar mucho y ralentizar las escalas de tiempo de entrega.

El almacenamiento de datos y el lago de datos siguen siendo valiosos y desempeñan un papel importante en la arquitectura general. En la documentación siguiente, hemos resaltado algunos de los desafíos que pueden producirse al usar estas prácticas tradicionales para escalar. Estos desafíos son especialmente relevantes en una organización compleja, donde los orígenes de datos, los requisitos, los equipos y las salidas sufren cambios.

Migración al análisis a escala de la nube

La arquitectura de datos analíticos y el modelo operativo actuales pueden incluir estructuras de almacenamiento de datos, lago de datos y Lakehouse de datos, o incluso un modelo emergente, como el tejido de datos o la malla de datos.

Cada modelo de datos tiene sus propios méritos y desafíos. El análisis a escala de la nube le ayuda a trabajar desde la configuración actual para cambiar el enfoque a la administración de datos y así poder evolucionar con la infraestructura.

Puede admitir cualquier plataforma de datos y cualquier escenario para crear un marco de análisis a escala de la nube de un extremo a otro, que sirva como base y permita el escalado.

Plataforma de datos moderna y resultados deseados

Una de las primeras áreas de enfoque es activar la estrategia de datos para satisfacer los desafíos, mediante la compilación iterativa de una plataforma de datos moderna escalable y ágil.

En lugar de sobrecargarse con los vales de servicio e intentar satisfacer las necesidades competitivas de la empresa, una plataforma de datos moderna le permite desempeñar un papel más consultivo, liberando su tiempo para centrarse en trabajos más valiosos. Proporcione líneas de negocio con la plataforma y los sistemas para satisfacer directamente las necesidades de datos y análisis.

Las áreas recomendadas del enfoque inicial son:

  • Mejore la calidad de los datos, facilite la confianza y obtenga información para tomar decisiones empresariales guiadas por los datos.

  • Implemente sin problemas datos, administración y análisis holísticos a escala en toda la organización.

  • Establezca una gobernanza de datos sólida que permita el autoservicio y la flexibilidad de las líneas de negocio.

  • Mantenga la seguridad y el cumplimiento legal en un entorno totalmente integrado.

  • Cree rápidamente la base para las funcionalidades de análisis avanzadas, con una solución inmediata de patrones modulares, repetibles y de buena arquitectura.

Gobernanza del estado del análisis

En segundo lugar hay que determinar la forma en que la organización implementa la gobernanza de datos.

La gobernanza de datos es la forma de garantizar que los datos que se usan en las operaciones, los informes y los análisis empresariales son reconocibles, precisos, de confianza y se pueden proteger.

Para muchas empresas, la expectativa es que los datos y la IA generen una ventaja competitiva. Como resultado, los ejecutivos están dispuestos a patrocinar iniciativas de IA en su determinación de basarse en datos. Sin embargo, para que la IA sea eficaz, los datos que usa deben ser de confianza. De lo contrario, la precisión de las decisiones podría verse comprometida, las decisiones podrían retrasarse o se podrían perder acciones, lo que puede afectar al resultado final. Las empresas no quieren que la calidad de sus datos sea pobre. Al principio, es posible que parezca sencillo corregir la calidad de los datos, hasta que vea el efecto que la transformación digital ha tenido en ellos.

Con los datos distribuidos entre una nube múltiple híbrida y un entorno de datos distribuidos, las organizaciones tienen dificultades para saber dónde están sus datos y gobernarlos. Los datos sin administrar pueden tener un efecto considerable en la empresa. Una calidad deficiente de los datos afecta a las operaciones empresariales, porque los errores de datos provocan errores y retrasos en los procesos. La baja calidad de los datos también afecta a la toma de decisiones empresariales y el cumplimiento mantenido. A menudo se prefiere garantizar la calidad de los datos en el origen, ya que la corrección de problemas de calidad en el sistema analítico puede ser más compleja y costosa que aplicar reglas de calidad de datos al principio de la fase de ingesta. Para ayudar a realizar un seguimiento y controlar la actividad de los datos, la gobernanza de datos debe incluir:

  • Detección de datos
  • Calidad de los datos
  • Creación de directivas
  • Uso compartido de datos
  • Metadatos

Asegurar el estado del análisis

Otro factor importante para la gobernanza de datos es su protección. La protección de datos puede ayudarle a cumplir con la legislación normativa y puede evitar vulneraciones de datos. La privacidad de los datos y el creciente número de vulneraciones de datos han convertido la protección de datos en una prioridad principal en la sala de juntas. Estas infracciones resaltan el riesgo para los datos confidenciales, como datos de cliente de identificación personal. Las consecuencias de una infracción de la privacidad de datos o una infracción de la seguridad de datos son muchas y pueden incluir las siguientes:

  • Pérdida o daños graves en la imagen de marca

  • Pérdida de confianza del cliente y de cuota de mercado

  • Caída del precio de las acciones, lo que afecta a la rentabilidad de la inversión de las partes interesadas y al salario ejecutivo

  • Grandes penalizaciones financieras debido a errores de auditoría o cumplimiento

  • Acción legal

  • El efecto dominó de la vulneración; por ejemplo, los clientes podrían sufrir un robo de identidad

En la mayoría de los casos, estas empresas deben declarar estas vulneraciones. Si se producen vulneraciones, es más probable que los clientes culpen primero a la empresa, en lugar de al hacker. Es posible que el cliente boicotee a la empresa durante varios meses o que no vuelva nunca.

El incumplimiento de la legislación regulatoria sobre la privacidad de los datos podría dar lugar a importantes penalizaciones financieras. La regulación de los datos le ayudará a evitar estos riesgos.

Modelo operativo y ventajas

La adopción de una plataforma de estrategia de datos moderna no solo cambia la tecnología que usa su organización, sino también su funcionamiento.

El análisis a escala de la nube proporciona instrucciones recomendadas para ayudarle a considerar cómo organizar y mejorar a sus personas y equipos, entre las que se incluyen:

  • Definiciones de personajes, roles y responsabilidades
  • Estructuras sugeridas para equipos ágiles, verticales y entre dominios
  • Recursos de aptitudes, incluidas las certificaciones de IA y datos de Azure a través de Microsoft Learn

También es importante interactuar con los usuarios finales a lo largo del proceso de modernización y a medida que continúa evolucionando la plataforma e incorporando nuevos casos de uso.

Arquitecturas

Las zonas de aterrizaje de Azure representan la ruta de diseño estratégica y el estado técnico de destino para su entorno. Permiten facilitar la implementación y la gobernanza para proporcionar mayor agilidad y cumplimiento. Las zonas de aterrizaje de Azure también garantizan que, cuando una nueva aplicación o carga de trabajo llega a su entorno, la infraestructura adecuada ya está instalada. Las zonas de aterrizaje de datos y administración de datos de Azure están diseñadas teniendo en cuenta estos mismos principios fundamentales y, cuando se combinan con los demás elementos del análisis a escala de la nube, pueden ayudar a habilitar:

  • Autoservicio
  • Escalabilidad
  • Inicio rápido
  • Seguridad
  • Privacidad
  • Operaciones optimizadas

Zona de aterrizaje de la administración de datos

La zona de aterrizaje de administración de datos proporciona la base para la administración y gobernanza centralizadas de los datos de la plataforma en toda la organización. También facilita la comunicación para ingerir datos de todo el patrimonio digital, incluida la infraestructura híbrida y multinube.

La zona de aterrizaje de administración de datos admite muchas otras capacidades de administración y gobernanza de datos, como:

  • Catálogo de datos
  • Clasificación de los datos
  • Linaje de datos
  • Administración de calidad de datos
  • Repositorio de modelado de datos
  • Catálogo de API
  • Uso compartido de datos y contratos

Zonas de aterrizaje de datos

Las zonas de aterrizaje de datos acercan los datos a los usuarios y permiten el autoservicio, a la vez que mantienen la administración y gobernanza comunes a través de la conexión a la zona de aterrizaje de administración de datos.

Hospedan servicios estándar como redes, supervisión, ingesta y procesamiento de datos, al igual que personalizaciones, como productos de datos y visualizaciones.

Las zonas de aterrizaje de datos son vitales para habilitar la escalabilidad de la plataforma. En función del tamaño y las necesidades de su organización, puede empezar con una o varias zonas de aterrizaje.

A medida que decida entre una o varias zonas de aterrizaje, considere los requisitos de residencia de datos y dependencias regionales. Por ejemplo, ¿hay leyes o regulaciones locales que requieran que los datos permanezcan en una ubicación específica?

Independientemente de la decisión inicial, puede agregar o quitar zonas de aterrizaje de datos según sea necesario. Si va a empezar con una sola zona de aterrizaje, le recomendamos que planifique su ampliación a varias zonas de aterrizaje para evitar futuras necesidades de migración.

Para más información sobre las zonas de aterrizaje, consulte Azure landing zones for cloud-scale analytics (Zonas de aterrizaje de Azure para el análisis a escala de la nube).

Conclusión

Después de leer este conjunto de documentación, en particular las secciones de gobernanza, seguridad, funcionamiento y procedimientos recomendados, se recomienda configurar un entorno de prueba de concepto mediante las plantillas de implementación. Estas plantillas, junto con las instrucciones de arquitectura, proporcionan experiencia práctica con algunas de las tecnologías de Azure. Para más información, consulte Getting started checklist (Introducción: lista de comprobación).

Pasos siguientes

Integración del análisis a escala de la nube en la estrategia de adopción de la nube