Tecnologías de Azure para el proceso de aprendizaje

Completado

En esta unidad, obtendrá información sobre cómo aplicar los resultados del paso de medida en el ciclo de vida de innovación. También obtendrá información sobre la importancia de la democratización de los datos.

Democratización de datos

Tal como ha descubierto en unidades anteriores, puede recopilar datos de los clientes mediante varios orígenes. Estos incluyen micro encuestas, datos de uso derivados de Azure Application Insights y marcas de características que los clientes pueden decidir habilitar o deshabilitar por sí mismos. Cuantos más datos tenga, mejor serán sus decisiones, pero necesita una manera de controlar este flujo de datos cada vez mayor.

En 2014, Satya Nadella habló sobre la importancia de la cultura de datos en una organización. Explicó que las decisiones no se deberían tomar en base a sentimientos u opiniones subjetivas, sino en el uso de datos para validarlas. También dijo que los datos deben estar disponibles para todos los usuarios que los necesiten y deben convertirse fácilmente en información útil a fin de facilitar las decisiones controladas por datos.

Una organización puede tomar decisiones de datos generalizadas solo si esas decisiones se basan en una plataforma de datos sólida y accesible. Este esfuerzo afecta a cuatro áreas:

  • Recopilación de datos: el primer paso para tomar decisiones controladas por datos es que siempre haya datos. La recopilación de datos puede tener varias formas: migración desde repositorios de datos existentes, generación de datos desde nuevos orígenes, como Azure Application Insights, o ingesta de datos desde otros orígenes.
  • Uso compartido de datos: los datos recopilados deben estar disponibles para todos los usuarios que los necesiten, no solo para los expertos en datos. Todas las personas de una organización deben poder usar datos para tomar sus decisiones.
  • Centralización de datos: las plataformas de datos centralizadas pueden simplificar el uso compartido y la gobernanza de datos.
  • Gobernanza de los datos: el uso compartido de datos no significa que todos los datos deban estar disponibles para todos los usuarios. Asegúrese de que los datos confidenciales estén protegidos, sometidos a un seguimiento y controlados antes de compartirlos.

Plataforma de datos de Azure

La plataforma de Azure abarca todo el ciclo de vida de los datos, algo fundamental para la toma de decisiones controlada por datos y la democratización de estos. Desde bases de datos ligeras a petición hasta almacenamientos de datos masivos o sistemas NoSQL flexibles, la plataforma de datos de Azure permite cubrir las cuatro áreas de actividad de datos.

datos, recopilación

El ecosistema de datos de Azure incluye servicios y herramientas para migrar, ingerir, almacenar y analizar datos. En la lista siguiente solo se muestran algunos de los mecanismos que se pueden usar para procesar los datos y hacer que estén disponibles para su uso compartido posterior, con el fin de facilitar la toma de decisiones controlada por datos:

  • Análisis de datos: Azure Synapse Analytics es un servicio de análisis empresarial que acelera el tiempo necesario para obtener información de los sistemas de almacenamientos de datos y de macrodatos. Azure Synapse Analytics reúne lo mejor de lo siguiente:
    • Tecnologías de SQL usadas en el almacenamiento de datos empresariales
    • Tecnologías de Spark usadas para los macrodatos.
    • Canalizaciones para la integración de datos, así como ETL (extracción, transformación y carga de datos) y ELT (extracción, carga y transformación de datos)
    • Integración profunda con otros servicios Microsoft, como Power BI, Azure Cosmos DB y Azure Machine Learning
  • Migración de datos: es posible que los datos ya se almacenen en orígenes existentes, pero deben migrarse a una plataforma moderna antes de que se puedan convertir en información útil. Azure Database Migration Service incluye herramientas que ayudan con las migraciones de datos desde sistemas como SQL Server, PostgreSQL, Oracle y MongoDB.
  • Procesamiento de datos: Azure incluye servicios para analizar y transformar flujos de datos con Azure Stream Analytics, y para ejecutar procesos ETL a gran escala con Azure Data Factory.

Uso compartido de datos

Microsoft Power BI es un conjunto de herramientas que consolidan los datos procedentes de orígenes dispares en visualizaciones interactivas integradas. Los usuarios pueden profundizar en los datos simplemente con el manejo de controles intuitivos. La capacidad de información está disponible para todos los usuarios de una organización, no solo para los profesionales de datos.

Los propietarios de áreas pueden crear informes y paneles que incluyan la información pertinente sobre aspectos específicos de la aplicación. Una vez que se introduce una función nueva para validar una hipótesis, los datos están disponibles para validar o rechazar la hipótesis en función del uso real del cliente.

Microsoft Power BI ayuda con el uso compartido de datos desde varias perspectivas. Estos son algunos ejemplos:

  • Uso compartido de datos con compañeros de trabajo y asociados: los paneles de Power BI simplifican el consumo de datos. Las visualizaciones permiten a las personas que no son expertos en datos explorar en profundidad estos sin necesidad de estar familiarizados con su estructura subyacente.
  • Generación rápida de información de datos: Power BI puede generar automáticamente visualizaciones de conjuntos de datos con su función Conclusiones rápidas. Se pueden crear paneles rápidamente y buscar correlaciones de datos que en un principio podrían no haber sido obvias.
  • Inserción de informes en un sitio web o portal: con Power BI, no solo puede acceder a las visualizaciones en el portal nativo de Power BI, sino que también puede insertar informes y paneles en otras aplicaciones web. De este modo, los usuarios no necesitan salir de sus sitios web corporativos conocidos a fin de encontrar los datos que necesitan para su proceso de toma de decisiones.

Centralización de los datos

El problema principal de la centralización de los datos es la escala en distintos niveles. A riesgo de simplificar demasiado, se puede reducir a las tres V de los macrodatos:

  • Volumen: Azure Data Lake Storage Gen2 es una plataforma de Azure rentable y escalable para el almacenamiento de datos. En función de la escalabilidad masiva que proporciona Azure Storage, Azure Data Lake Storage se ha diseñado para dar servicio a varios petabytes de información, a la vez que se mantienen cientos de gigabits de rendimiento.
  • Variedad: este término suele hacer referencia al hecho de que los datos no siempre están estructurados. Es posible que también tenga datos semiestructurados e incluso no estructurados. Azure Synapse destaca en esta área, ya que reúne lo mejor de las tecnologías de SQL usadas en el almacenamiento de datos empresariales con Spark, que a menudo se usan para los macrodatos.
  • Velocidad: un problema que suele encontrarse en las arquitecturas de datos antiguas es la interdependencia entre la capacidad de almacenamiento, la velocidad de análisis y las tasas de ingesta. En las soluciones de datos de Azure, una organización puede escalar dimensiones diferentes de la plataforma de forma independiente mediante el desacoplamiento. Los datos se pueden ingerir, procesar y compartir mediante canalizaciones de datos que usan los servicios de datos de Azure necesarios, como se muestra en la arquitectura de inteligencia empresarial.

Gobernanza de datos

En el mundo actual, los datos representan un recurso crítico y una responsabilidad importante. Los datos almacenados incluyen a menudo información confidencial que puede provocar daños personales o financieros si se filtra o se comparte de forma inapropiada. Almacenar y procesar datos implícitamente significa que una organización acepta esa responsabilidad. Las normativas legales pueden dar lugar a sanciones para aquellas organizaciones que manipulen datos personales o confidenciales de forma incorrecta.

Como consecuencia, la gobernanza de datos es fundamental para cualquier organización que cuente entre sus objetivos la democratización de los datos. El primer paso hacia la gobernanza de los datos es clasificar aquellos que deben tratarse de maneras específicas. Por ejemplo, Microsoft usa estas categorías de datos de forma interna para la clasificación de datos:

  • No empresarial: datos de la vida personal que no pertenecen a Microsoft.
  • Pública: datos comerciales públicamente disponibles y autorizados para uso público.
  • General: datos empresariales que no están destinados a todo el público.
  • Confidencial: datos empresariales que pueden causar daños a Microsoft si se compartieran en exceso.
  • Extremadamente confidencial: datos empresariales que podrían causar graves daños a Microsoft si se compartieran en exceso.

El paso siguiente después de la clasificación de datos es asegurarse de que cada categoría de datos está protegida contra el acceso no autorizado. Azure admite estas tecnologías que aplican confidencialidad:

  • Cifrado de datos en reposo: todos los datos de Azure se cifran cuando se almacenan en centros de datos de Microsoft. Algunos servicios de Azure ofrecen características de cifrado específicas, como cifrado de datos transparente en Azure Synapse y Azure SQL Database.
  • Cifrado de datos en movimiento: todos los servicios de datos de Azure cifran los datos con TLS o SSL antes de enviarlos mediante la red. Algunos servicios, como Azure Storage, pueden permitir de forma opcional tráfico sin cifrar. Las organizaciones deben deshabilitar cualquier comunicación sin cifrar para todos los tipos de datos confidenciales.
  • Control de acceso a los datos: Azure ofrece mecanismos sofisticados de autenticación y autorización para el acceso tanto a la plataforma Azure como a los propios datos. Control de acceso basado en roles de Azure, Acceso condicional y Privileged Identity Management son tres ejemplos de servicios fundamentales que permiten garantizar que solo las personas autorizadas tengan acceso a la información confidencial.
  • Auditoría de datos: muchos estándares de cumplimiento normativo exigen pruebas de los mecanismos de protección de datos, al documentar quién ha realizado determinadas operaciones y ha accedido a ciertos datos Tal como se describe en Auditoría para Azure SQL Database y Azure Synapse Analytics, la auditoría de datos en Azure contempla tres aspectos de la auditoría:
    • Conservación de una pista de auditoría de los eventos seleccionados, donde se pueden definir categorías de las acciones de datos que se auditarán.
    • Informe sobre la actividad de la base de datos, opcionalmente con informes y paneles configurados previamente para empezar a trabajar rápidamente.
    • Análisis de informes para revelar eventos sospechosos, actividad inusual y tendencias

Mentalidad de crecimiento

La fase de aprendizaje a veces ofrece malas noticias. Las hipótesis que pensaba que eran correctas podrían resultar erróneas. Estar abierto a ideas alternativas es clave para que el proceso de innovación fluya sin problemas. Tal vez toda la hipótesis era incorrecta o quizás el problema residía solo en la forma en que se ha desarrollado el prototipo.

En cualquier caso, las conclusiones deben estar siempre respaldadas por datos. El equipo debe avanzar y formular la hipótesis siguiente, posiblemente algún tipo de revisión o iteración de la inicial.

Es posible que los datos existentes no permitan concluir rotundamente si la hipótesis era correcta o incorrecta. En este caso, se debe mejorar el conjunto de datos que ayuda al proceso de decisión. Puede introducir puntos nuevos de telemetría en la aplicación o averiguar nuevas formas de obtener información sobre la experiencia del cliente.

En esta fase resulta fundamental una mentalidad de crecimiento. Piense en las hipótesis que se han demostrado erróneas o parcialmente erróneas como oportunidades de aprendizaje. Las organizaciones no deben perder tiempo en una innovación que no genere los resultados empresariales esperados.

Qué hacer después

Muchos de los conceptos de esta unidad se analizan más adelante en la documentación de Cloud Adoption Framework sobre la democratización de los datos.