Protección del patrimonio de la nube

2025-04-30

En este artículo se proporcionan procedimientos recomendados para mantener la confiabilidad y la seguridad del patrimonio en la nube de Azure. La confiabilidad garantiza que los servicios en la nube permanezcan operativos con un tiempo de inactividad mínimo. La seguridad protege la confidencialidad, integridad y disponibilidad de los recursos. Tanto la confiabilidad como la seguridad son fundamentales para las operaciones en la nube correctas.

Administración de la confiabilidad

La administración de confiabilidad implica el uso de la redundancia, la replicación y las estrategias de recuperación definidas para minimizar el tiempo de inactividad y proteger su negocio. En la tabla 1 se proporciona un ejemplo de tres prioridades de carga de trabajo, requisitos de confiabilidad (SLO de tiempo de actividad, tiempo de inactividad máximo, redundancia, equilibrio de carga, replicación) y escenarios de ejemplo que se alinean con los objetivos de nivel de servicio (SLO)

Tabla 1. Ejemplo de requisitos de prioridad y confiabilidad de la carga de trabajo.

Prioridad	Impacto empresarial	SLO de tiempo de actividad mínimo	Tiempo de inactividad máximo al mes	Redundancia de arquitectura	Equilibrio de carga	Replicación de datos y copias de seguridad	Escenario de ejemplo
Alto (crítico)	Efectos inmediatos y graves en la reputación o los ingresos de la empresa.	99,99 %	4.32 minutos	Varias regiones y varias zonas de disponibilidad en cada región	Activo-activo	Replicación y copias de seguridad de datos sincrónicas y entre regiones para la recuperación	Línea de base crítica
Mediana	Efectos medibles en la reputación o los ingresos de la empresa.	99,9 %	43,20 minutos	Varias regiones y varias zonas de disponibilidad en cada región	Activo-pasivo	Replicación de datos asincrónica y entre regiones y copias de seguridad para la recuperación	Patrón de aplicación web confiable
Bajo nivel	No hay ningún efecto en la reputación, los procesos o los beneficios de la empresa.	99 %	7,20 horas	Regiones únicas y varias zonas de disponibilidad	Redundancia en zonas de disponibilidad	Replicación sincrónica de datos entre zonas de disponibilidad y copias de seguridad para la recuperación	Línea base de App Service Línea de base de máquina virtual

Identificación de las responsabilidades de confiabilidad

Las responsabilidades de confiabilidad varían según el modelo de implementación. Use la tabla siguiente para identificar las responsabilidades de administración de la infraestructura (IaaS), la plataforma (PaaS), el software (SaaS) y las implementaciones locales.

Responsabilidad	En las instalaciones	IaaS (Azure)	PaaS (Azure)	SaaS
Datos	✔️	✔️	✔️	✔️
Código y tiempo de ejecución	✔️	✔️	✔️
Recursos en la nube	✔️	✔️	✔️
Hardware físico	✔️

Para obtener más información, consulte Responsabilidad compartida de confiabilidad.

Definición de los requisitos de confiabilidad

Los requisitos de confiabilidad claramente definidos son fundamentales para los objetivos de tiempo de actividad, la recuperación y la tolerancia a la pérdida de datos. Siga estos pasos para definir los requisitos de confiabilidad:

Priorice las cargas de trabajo. Asigne prioridades altas, medias (predeterminadas) o bajas a las cargas de trabajo basadas en la importancia empresarial y los niveles de inversión financiera. Revise periódicamente las prioridades para mantener la alineación con los objetivos empresariales.
Asigne el objetivo de nivel de servicio (SLO) de tiempo de actividad a todas las cargas de trabajo. El SLO influye en la arquitectura, las estrategias de administración de datos, los procesos de recuperación y los costos. Establecer objetivos de disponibilidad de acuerdo con la prioridad de la carga de trabajo. Las cargas de trabajo de mayor prioridad requieren objetivos de tiempo de actividad más estrictos.
Identificar indicadores de nivel de servicio (SLA). Use SLI para medir el rendimiento del tiempo de actividad con el SLO. Algunos ejemplos son la supervisión del estado del servicio y las tasas de errores.
Asigne un objetivo de tiempo de recuperación (RTO) a todas las cargas de trabajo. El RTO define el tiempo de inactividad máximo aceptable para la carga de trabajo. El RTO debe ser menor que la asignación de tiempo de inactividad anual. Por ejemplo, un SLO de 99,99 % de tiempo de actividad requiere menos de 52 minutos de tiempo de inactividad anual (4,32 minutos al mes). Para asignar un RTO, siga estos pasos:
1. Calcule el número de errores al año. En el caso de las cargas de trabajo con historial operativo, use los SLA. En el caso de las nuevas cargas de trabajo, realice un análisis del modo de error para obtener una estimación precisa.
2. Calcule el RTO. Divida el tiempo de inactividad permitido anual por el número estimado de errores. Si calcula cuatro errores al año, el RTO debe ser de 13 minutos o menos (52 minutos / 4 errores = RTO de 13 minutos).
3. Pruebe el tiempo de recuperación. Realice un seguimiento del tiempo medio necesario para recuperarse durante las pruebas de conmutación por error y los errores en directo. El tiempo que se tarda en recuperarse del error debe ser menor que el RTO.
Defina los objetivos de punto de recuperación (RPO) para todas las cargas de trabajo. El RPO influye en la frecuencia con la que replica y realiza una copia de seguridad de los datos. Determine la cantidad de pérdida de datos que su empresa puede tolerar.
Defina los objetivos de confiabilidad de la carga de trabajo. Para conocer los objetivos de confiabilidad de la carga de trabajo, consulte las recomendaciones de Well-Architected Framework para definir los objetivos de confiabilidad.

Administración de la confiabilidad de los datos

La confiabilidad de los datos implica la replicación de datos (réplicas) y las copias de seguridad (copias a un momento dado) para mantener la disponibilidad y la coherencia. Consulte la tabla 2 para obtener ejemplos de prioridad de carga de trabajo alineadas con los objetivos de confiabilidad de datos.

Tabla 2. Prioridad de la carga de trabajo con ejemplos de configuraciones de confiabilidad de datos.

Prioridad de la carga de trabajo	SLO de tiempo de actividad	Replicación de datos	Copias de seguridad de datos	Escenario de ejemplo
Alto	99,99 %	Replicación de datos sincrónica entre regiones Replicación de datos sincrónica entre zonas de disponibilidad	Copias de seguridad entre regiones de alta frecuencia. La frecuencia debe admitir RTO y RPO.	Plataforma de datos crucial para la misión
Mediana	99,9 %	Replicación de datos sincrónica entre regiones Replicación de datos sincrónica entre zonas de disponibilidad	Copias de seguridad entre regiones. La frecuencia debe admitir RTO y RPO.	Solución de base de datos y almacenamiento en el patrón Reliable Web App
Bajo nivel	99 %	Replicación de datos sincrónica entre zonas de disponibilidad	Copias de seguridad entre regiones. La frecuencia debe admitir RTO y RPO.	Resistencia de datos en la aplicación web de línea base con redundancia de zona

Debe alinear las configuraciones de confiabilidad de datos con los requisitos de RTO y RPO de las cargas de trabajo. Para realizar esa alineación, siga estos pasos:

Administrar la replicación de datos. Replique los datos de forma sincrónica o asincrónica según los requisitos de RTO y RPO de la carga de trabajo.

Distribución de datos	Replicación de datos	Configuración del equilibrio de carga
Entre zonas de disponibilidad	Sincrónico (casi en tiempo real)	La mayoría de los servicios PaaS controlan el equilibrio de carga entre zonas de forma nativa
Entre regiones (activo-activo)	Síncrono	Balanceo de carga activo-activo
Entre regiones (activo-pasivo)	Asincrónico (periódico)	Configuración activa-pasiva

Para obtener más información, consulte Replicación: redundancia para datos.

Administrar copias de seguridad de datos. Las copias de seguridad son para la recuperación ante desastres (error del servicio), la recuperación de datos (eliminación o daños) y la respuesta a incidentes (seguridad). Las copias de seguridad deben admitir los requisitos de RTO y RPO para cada carga de trabajo. Se prefieren soluciones de copia de seguridad integradas en el servicio de Azure, como las características nativas de copia de seguridad en Azure Cosmos DB y Azure SQL Database. Cuando las copias de seguridad nativas no estén disponibles, incluidos los datos locales, use Azure Backup. Para más información, consulte Backup and Azure Business Continuity Center (Copia de seguridad y Centro de continuidad empresarial de Azure).
Diseñe la confiabilidad de los datos de carga de trabajo. Para obtener el diseño de confiabilidad de los datos de carga de trabajo, consulte la guía de creación de particiones de datos de Well-Architected Framework y las guías de servicio de Azure (comience con la sección Confiabilidad).

Administración de código y confiabilidad en tiempo de ejecución

La confiabilidad del código y del tiempo de ejecución es una responsabilidad asociada a la carga de trabajo. Siga la guía de auto-reparación y auto-preservación del Well-Architected Framework.

Administración de la confiabilidad de los recursos en la nube

La administración de la confiabilidad de los recursos en la nube suele requerir redundancia de arquitectura (instancias de servicio duplicadas) y una estrategia eficaz de equilibrio de carga. Consulte la tabla 3 para obtener ejemplos de redundancia de arquitectura alineadas con la prioridad de la carga de trabajo.

Tabla 3. Ejemplos de redundancia de arquitectura y prioridad de carga de trabajo.

Prioridad de la carga de trabajo	Redundancia de arquitectura	Enfoque de equilibrio de carga	Solución de equilibrio de carga de Azure	Escenario de ejemplo
Alto	Dos regiones y zonas de disponibilidad	Activo-activo	Azure Front Door (HTTP) Azure Traffic Manager (no HTTP)	Plataforma de aplicación base de misión crítica
Mediana	Dos regiones y zonas de disponibilidad	Activo-pasivo	Azure Front Door (HTTP) Azure Traffic Manager (no HTTP)	Guía de arquitectura de patrones de aplicación web confiable
Bajo nivel	Regiones únicas y zonas de disponibilidad	Entre zonas de disponibilidad	Puerta de enlace de aplicaciones Azure Incorporación de Azure Load Balancer para máquinas virtuales	Línea base de App Service Línea de base de máquina virtual

El enfoque debe implementar la redundancia de arquitectura para cumplir los requisitos de confiabilidad de las cargas de trabajo. Siga estos pasos:

Calcule el tiempo de actividad de las arquitecturas. Para cada carga de trabajo, calcule el Acuerdo de Nivel de Servicio compuesto. Incluya únicamente los servicios que podrían provocar el fallo de la carga de trabajo (ruta crítica).

Enumere todos los servicios de la ruta crítica de la carga de trabajo. Recopile los SLA de tiempo de actividad de Microsoft de cada servicio del documento oficial.
Decida si la carga de trabajo incluye rutas críticas independientes. Se puede producir un error en una ruta independiente y la carga de trabajo permanece disponible.
Si tiene una ruta de acceso crítica, use la fórmula de una sola región: N = S₁ × S₂ × S₃ × ... × S_n.
Si tiene dos o más rutas de acceso críticas, use la fórmula de ruta de acceso independiente: N = S₁ x 1 - [(1 - S₂) × (1 - S₃)].
Las cargas de trabajo complejas suelen combinar ambos tipos de fórmulas. Ejemplo: N = S₁ × S₂ × S₃ × (S₄ x 1 - [(1 - S₅) × (1 - S₆)]).
Para las aplicaciones de varias regiones, use la fórmula para la fórmula de varias regiones: M = 1 - (1 - N)^R
Compare el tiempo de actividad calculado con el SLO de tiempo de actividad. Un déficit requiere acuerdos de nivel de servicio más altos o redundancia adicional. Recalcular después de cada cambio. Detener después de que el tiempo de actividad calculado supere el SLO.

Caso de uso	Fórmula	variables	Ejemplo	Explicación
Región única	N = S₁ × S₂ × S₃ × ... × S_n	N = Acuerdo de Nivel de Servicio compuesto. S = SLA del servicio de Azure. n = número de servicios en la ruta crítica.	N = 99,99% (aplicación) × 99,95% (base de datos) × 99,9% (caché)	Carga de trabajo sencilla con aplicación (99,99%), base de datos (99,95%) y caché (99,9%) en una única ruta crítica.
Rutas de acceso independientes	S₁ x 1 - [(1 - S₂) × (1 - S₃)]	S = SLA del servicio de Azure.	99,99 % (aplicación) × (1 - [(1 - 99,95 % base de datos) × (1 - 99,9 % caché)])	En la aplicación, la base de datos (99.95%) o la memoria caché (99.9%) pueden producir un error sin provocar tiempo de inactividad.
Varias regiones	M = 1 - (1 - N)^R	M = Acuerdo de Nivel de Servicio de varias regiones. N = Acuerdo de Nivel de Servicio de una sola región. R = Número de regiones.	Si N = 99,95% y R = 2, M = 1 - (1 - 99,95%)^2	Carga de trabajo implementada en dos regiones.

Ajuste los niveles de servicio. Antes de modificar las arquitecturas, evalúe si diferentes niveles de servicio (SKU) de Azure pueden cumplir los requisitos de confiabilidad. Algunos niveles de servicio de Azure pueden tener diferentes SLA de disponibilidad, como Azure Managed Disks.

Agregue redundancia de arquitectura. Si la estimación del tiempo de actividad actual es menor que el SLO, aumente la redundancia:

Use varias zonas de disponibilidad. Configure las cargas de trabajo para usar varias zonas de disponibilidad. La forma en que las zonas de disponibilidad mejoran el tiempo de actividad puede ser difícil de calcular. Solo algunos servicios disponen de SLA de tiempo de actividad que tienen en cuenta las zonas de disponibilidad. Donde los Acuerdos de Nivel de Servicio consideran las zonas de disponibilidad, utilícelos en las estimaciones de disponibilidad. Consulte la siguiente tabla para ver algunos ejemplos.

Tipo de servicio de Azure	Servicios de Azure con SLA de zona de disponibilidad
Plataforma de computación	Servicio de Aplicaciones Azure Kubernetes Service Máquinas virtuales
Almacén de datos	Azure Service Bus (bus de servicios de Azure) Cuentas de Azure Storage Caché de Azure para Redis Nivel Premium de Azure Files
Base de datos	Azure Cosmos DB (la base de datos de Azure Cosmos) Azure SQL Database Base de Datos Azure para MySQL Base de Datos de Azure para PostgreSQL Instancia administrada de Azure para Apache Cassandra
Equilibrador de carga	Application Gateway
Seguridad	Azure Firewall

Usar varias regiones. A menudo, se necesitan varias regiones para cumplir los SLO de tiempo de actividad. Use equilibradores de carga globales (Azure Front Door o Traffic Manager) para la distribución del tráfico. Las arquitecturas de varias regiones requieren una administración cuidadosa de la coherencia de los datos.

Administrar la redundancia de arquitectura. Decidir cómo usar redundancia: puede usar la redundancia de arquitectura como parte de las operaciones diarias (activas). O bien, puede usar redundancia de arquitectura en escenarios de recuperación ante desastres (pasivo). Para obtener ejemplos, consulte la tabla 3.
1. Equilibrio de carga entre zonas de disponibilidad. Use toda la disponibilidad activamente. Muchos servicios paaS de Azure administran automáticamente el equilibrio de carga entre zonas de disponibilidad. Las cargas de trabajo de IaaS deben usar un equilibrador de carga interno para equilibrar la carga entre zonas de disponibilidad.
2. Equilibrio de carga entre regiones. Determine si las cargas de trabajo de varias regiones deben ejecutar cargas de trabajo activas-activas o activas-pasivas en función de las necesidades de confiabilidad.
Administrar configuraciones de servicio. Aplique de forma coherente las configuraciones en instancias redundantes de recursos de Azure, por lo que los recursos se comportan de la misma manera. Use la infraestructura como código para mantener la coherencia. Para obtener más información, consulte Configuración de recursos duplicados.

Diseñe la confiabilidad de la carga de trabajo. Para obtener el diseño de confiabilidad de la carga de trabajo, consulte Well-Architected Framework:

Confiabilidad de la carga de trabajo	Orientación
Pilar de confiabilidad	Diseño de varias regiones de alta disponibilidad Diseño para redundancia Uso de zonas y regiones de disponibilidad
Guía de servicio	Guías de servicio de Azure (comience con la sección Confiabilidad)

Para obtener más información, consulte Redundancia.

Administración de la continuidad empresarial

La recuperación de un error requiere una estrategia clara para restaurar los servicios rápidamente y minimizar la interrupción para mantener la satisfacción del usuario. Siga estos pasos:

Prepárese para errores. Cree procedimientos de recuperación independientes para cargas de trabajo basadas en prioridades altas, medias y bajas. La confiabilidad de los datos, la confiabilidad del código y el entorno de ejecución, y la confiabilidad de los recursos en la nube son la base de la preparación para errores. Seleccione otras herramientas de recuperación para ayudar con la preparación de la continuidad empresarial. Por ejemplo, use Azure Site Recovery para cargas de trabajo de servidor locales y basadas en máquinas virtuales.
Pruebe y documente el plan de recuperación. Pruebe periódicamente los procesos de conmutación por error y conmutación por recuperación para confirmar que las cargas de trabajo cumplen los objetivos de tiempo de recuperación (RTO) y los objetivos de punto de recuperación (RPO). Documente claramente cada paso del plan de recuperación para facilitar la referencia durante los incidentes. Compruebe que las herramientas de recuperación, como Azure Site Recovery, cumplen de forma coherente el RTO especificado.
Detectar errores. Adopte un enfoque proactivo para identificar las interrupciones rápidamente, incluso si este método aumenta los falsos positivos. Priorice la experiencia del cliente minimizando el tiempo de inactividad y manteniendo la confianza del usuario.
1. Supervise los errores. Supervise las cargas de trabajo para detectar interrupciones en un minuto. Use Azure Service Health y Azure Resources Health y use alertas de Azure Monitor para notificar a los equipos pertinentes. Integre estas alertas con las herramientas de Administración de servicios de TI (ITSM) o Azure DevOps.
2. Recopilar indicadores de nivel de servicio (SLA). Realice un seguimiento del rendimiento definiendo y recopilando métricas que sirven como SLA. Asegúrese de que los equipos usan estas métricas para medir el rendimiento de la carga de trabajo con respecto a los objetivos de nivel de servicio (SLO).
Responder a errores. Alinee la respuesta de recuperación a la prioridad de la carga de trabajo. Implemente procedimientos de conmutación por error para redirigir las solicitudes a infraestructura redundante y réplicas de datos inmediatamente. Una vez que los sistemas se estabilicen, resuelvan la causa raíz, sincronicen los datos y ejecuten los procedimientos de recuperación. Para obtener más información, consulte Conmutación por error y conmutación por recuperación.
Analice los errores. Identifique las causas principales de los problemas y, a continuación, solucione el problema. Documente las lecciones y realice los cambios necesarios.
Administrar errores de carga de trabajo. Para la recuperación ante desastres de cargas de trabajo, consulte la guía de recuperación ante desastres de Well-Architected Framework y las guías de servicio de Azure (comience con la sección Confiabilidad).

Herramientas de confiabilidad de Azure

Caso de uso	Solución
Replicación de datos, copia de seguridad y continuidad empresarial	Guías de servicio de Azure (comience con la sección Confiabilidad) Referencia rápida: Azure Cosmos DB Azure SQL Database Azure Blob Storage Archivos de Azure
Copia de seguridad de datos	Azure Backup
Continuidad empresarial (IaaS)	Azure Site Recovery
Equilibrador de carga de varias regiones	Azure Front Door (HTTP) Azure Traffic Manager (no HTTP)
Equilibrador de carga de varias zonas de disponibilidad	Azure Application Gateway (HTTP) Azure Load Balancer (no HTTP)

Administración de la seguridad

Use un proceso de seguridad iterativo para identificar y mitigar las amenazas en el entorno en la nube. Siga estos pasos:

Administración de operaciones de seguridad

Administre los controles de seguridad para detectar amenazas en el patrimonio de la nube. Siga estos pasos:

Estandarizar las herramientas de seguridad. Use herramientas estandarizadas para detectar amenazas, corregir vulnerabilidades, investigar problemas, proteger datos, proteger los recursos y aplicar el cumplimiento a escala. Consulte Herramientas de seguridad de Azure.
Establece una línea base para tu entorno. Documenta el estado normal de tu entorno en la nube. Monitorear la seguridad y documentar los patrones de tráfico de red y los comportamientos de los usuarios. Use las líneas base de seguridad de Azure y las guías de servicio de Azure para desarrollar configuraciones de línea base para los servicios. Esta línea de base facilita la detección de anomalías y posibles puntos débiles de seguridad.
Aplicar controles de seguridad. Implementar medidas de seguridad, como controles de acceso, cifrado y autenticación multifactor, refuerza el entorno y reduce la probabilidad de que se ponga en peligro. Para obtener más información, consulte Administración de la seguridad.
Asigne responsabilidades de seguridad. Designe la responsabilidad de la supervisión de la seguridad en el entorno de nube. La supervisión y las comparaciones periódicas con la línea base permiten la identificación rápida de incidentes, como el acceso no autorizado o las transferencias de datos inusuales. Las actualizaciones y auditorías periódicas mantienen la base de referencia de seguridad eficaz frente a las amenazas en constante evolución.

Para obtener más información, consulte Caf Secure.

Administración de incidentes de seguridad

Adopte un proceso y herramientas para recuperarse de incidentes de seguridad, como ransomware, denegación de servicio o intrusiones de actor de amenazas. Siga estos pasos:

Prepárese para incidentes. Desarrolle un plan de respuesta a incidentes que defina claramente los roles para la investigación, mitigación y comunicación. Pruebe regularmente la eficacia de su plan. Evalúe e implemente herramientas de administración de vulnerabilidades, sistemas de detección de amenazas y soluciones de supervisión de infraestructura. Reduzca la superficie expuesta a ataques a través de la protección de la infraestructura y cree estrategias de recuperación específicas de la carga de trabajo. Consulte Introducción a la respuesta a incidentes y cuadernos de estrategias de respuesta a incidentes.
Detectar incidentes. Use la herramienta de administración de eventos e información de seguridad (SIEM), como Microsoft Sentinel, para centralizar los datos de seguridad. Use las funcionalidades de orquestación, automatización y respuesta de seguridad de Microsoft Sentinel (SOAR) para automatizar las tareas de seguridad rutinarias. Integre las fuentes de inteligencia sobre amenazas en su SIEM para obtener información sobre las tácticas de adversario relevantes para su entorno de nube. Use Microsoft Defender for Cloud para examinar periódicamente las vulnerabilidades de Azure. Microsoft Defender se integra con Microsoft Sentinel para proporcionar una vista unificada de los eventos de seguridad.
Responder a incidentes. Active inmediatamente el plan de respuesta a incidentes al detectar un incidente. Inicie rápidamente los procedimientos de investigación y mitigación. Active el plan de recuperación ante desastres para restaurar los sistemas afectados y comunique claramente los detalles del incidente al equipo.
Analice los incidentes de seguridad. Después de cada incidente, revise la inteligencia sobre amenazas y actualice el plan de respuesta a incidentes en función de las lecciones aprendidas y las conclusiones de los recursos públicos, como la base de conocimiento DE MITRE ATT&CK . Evalúe la eficacia de las herramientas de detección y administración de vulnerabilidades y refina las estrategias en función del análisis posterior al incidente.

Para obtener más información, consulte Administración de la respuesta a incidentes (CAF Secure).

Herramientas de seguridad de Azure

Funcionalidad de seguridad	Solución de Microsoft
Administración de identidades y acceso	Microsoft Entra ID
Control de acceso basado en roles	Control de acceso basado en rol de Azure
Detección de amenazas	Microsoft Defender for Cloud
Administración de información de seguridad	Microsoft Sentinel
Seguridad y gobernanza de datos	Microsoft Purview
Seguridad de los recursos en la nube	Líneas base de seguridad de Azure
Gobernanza de la nube	Azure Policy
Seguridad de los puntos de conexión	Microsoft Defender para punto de conexión
Seguridad de red	Azure Network Watcher
Seguridad industrial	Microsoft Defender para IoT
Seguridad de copia de seguridad de datos	Seguridad de Azure Backup

Pasos siguientes

Lista de comprobación de administración de CAF