Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo se proporcionan procedimientos recomendados para mantener la confiabilidad y la seguridad del patrimonio en la nube de Azure. La confiabilidad garantiza que los servicios en la nube permanezcan operativos con un tiempo de inactividad mínimo. La seguridad protege la confidencialidad, integridad y disponibilidad de los recursos. Tanto la confiabilidad como la seguridad son fundamentales para las operaciones en la nube correctas.
Administración de la confiabilidad
La administración de confiabilidad implica el uso de la redundancia, la replicación y las estrategias de recuperación definidas para minimizar el tiempo de inactividad y proteger su negocio. En la tabla 1 se proporciona un ejemplo de tres prioridades de carga de trabajo, requisitos de confiabilidad (SLO de tiempo de actividad, tiempo de inactividad máximo, redundancia, equilibrio de carga, replicación) y escenarios de ejemplo que se alinean con los objetivos de nivel de servicio (SLO)
Tabla 1. Ejemplo de requisitos de prioridad y confiabilidad de la carga de trabajo.
Prioridad | Impacto empresarial | SLO de tiempo de actividad mínimo | Tiempo de inactividad máximo al mes | Redundancia de arquitectura | Equilibrio de carga | Replicación de datos y copias de seguridad | Escenario de ejemplo |
---|---|---|---|---|---|---|---|
Alto (crítico) | Efectos inmediatos y graves en la reputación o los ingresos de la empresa. | 99,99 % | 4.32 minutos | Varias regiones y varias zonas de disponibilidad en cada región | Activo-activo | Replicación y copias de seguridad de datos sincrónicas y entre regiones para la recuperación | Línea de base crítica |
Mediana | Efectos medibles en la reputación o los ingresos de la empresa. | 99,9 % | 43,20 minutos | Varias regiones y varias zonas de disponibilidad en cada región | Activo-pasivo | Replicación de datos asincrónica y entre regiones y copias de seguridad para la recuperación | Patrón de aplicación web confiable |
Bajo nivel | No hay ningún efecto en la reputación, los procesos o los beneficios de la empresa. | 99 % | 7,20 horas | Regiones únicas y varias zonas de disponibilidad | Redundancia en zonas de disponibilidad | Replicación sincrónica de datos entre zonas de disponibilidad y copias de seguridad para la recuperación |
Línea base de App Service Línea de base de máquina virtual |
Identificación de las responsabilidades de confiabilidad
Las responsabilidades de confiabilidad varían según el modelo de implementación. Use la tabla siguiente para identificar las responsabilidades de administración de la infraestructura (IaaS), la plataforma (PaaS), el software (SaaS) y las implementaciones locales.
Responsabilidad | En las instalaciones | IaaS (Azure) | PaaS (Azure) | SaaS |
---|---|---|---|---|
Datos | ✔️ | ✔️ | ✔️ | ✔️ |
Código y tiempo de ejecución | ✔️ | ✔️ | ✔️ | |
Recursos en la nube | ✔️ | ✔️ | ✔️ | |
Hardware físico | ✔️ |
Para obtener más información, consulte Responsabilidad compartida de confiabilidad.
Definición de los requisitos de confiabilidad
Los requisitos de confiabilidad claramente definidos son fundamentales para los objetivos de tiempo de actividad, la recuperación y la tolerancia a la pérdida de datos. Siga estos pasos para definir los requisitos de confiabilidad:
Priorice las cargas de trabajo. Asigne prioridades altas, medias (predeterminadas) o bajas a las cargas de trabajo basadas en la importancia empresarial y los niveles de inversión financiera. Revise periódicamente las prioridades para mantener la alineación con los objetivos empresariales.
Asigne el objetivo de nivel de servicio (SLO) de tiempo de actividad a todas las cargas de trabajo. El SLO influye en la arquitectura, las estrategias de administración de datos, los procesos de recuperación y los costos. Establecer objetivos de disponibilidad de acuerdo con la prioridad de la carga de trabajo. Las cargas de trabajo de mayor prioridad requieren objetivos de tiempo de actividad más estrictos.
Identificar indicadores de nivel de servicio (SLA). Use SLI para medir el rendimiento del tiempo de actividad con el SLO. Algunos ejemplos son la supervisión del estado del servicio y las tasas de errores.
Asigne un objetivo de tiempo de recuperación (RTO) a todas las cargas de trabajo. El RTO define el tiempo de inactividad máximo aceptable para la carga de trabajo. El RTO debe ser menor que la asignación de tiempo de inactividad anual. Por ejemplo, un SLO de 99,99 % de tiempo de actividad requiere menos de 52 minutos de tiempo de inactividad anual (4,32 minutos al mes). Para asignar un RTO, siga estos pasos:
Calcule el número de errores al año. En el caso de las cargas de trabajo con historial operativo, use los SLA. En el caso de las nuevas cargas de trabajo, realice un análisis del modo de error para obtener una estimación precisa.
Calcule el RTO. Divida el tiempo de inactividad permitido anual por el número estimado de errores. Si calcula cuatro errores al año, el RTO debe ser de 13 minutos o menos (52 minutos / 4 errores = RTO de 13 minutos).
Pruebe el tiempo de recuperación. Realice un seguimiento del tiempo medio necesario para recuperarse durante las pruebas de conmutación por error y los errores en directo. El tiempo que se tarda en recuperarse del error debe ser menor que el RTO.
Defina los objetivos de punto de recuperación (RPO) para todas las cargas de trabajo. El RPO influye en la frecuencia con la que replica y realiza una copia de seguridad de los datos. Determine la cantidad de pérdida de datos que su empresa puede tolerar.
Defina los objetivos de confiabilidad de la carga de trabajo. Para conocer los objetivos de confiabilidad de la carga de trabajo, consulte las recomendaciones de Well-Architected Framework para definir los objetivos de confiabilidad.
Administración de la confiabilidad de los datos
La confiabilidad de los datos implica la replicación de datos (réplicas) y las copias de seguridad (copias a un momento dado) para mantener la disponibilidad y la coherencia. Consulte la tabla 2 para obtener ejemplos de prioridad de carga de trabajo alineadas con los objetivos de confiabilidad de datos.
Tabla 2. Prioridad de la carga de trabajo con ejemplos de configuraciones de confiabilidad de datos.
Prioridad de la carga de trabajo | SLO de tiempo de actividad | Replicación de datos | Copias de seguridad de datos | Escenario de ejemplo |
---|---|---|---|---|
Alto | 99,99 % | Replicación de datos sincrónica entre regiones Replicación de datos sincrónica entre zonas de disponibilidad |
Copias de seguridad entre regiones de alta frecuencia. La frecuencia debe admitir RTO y RPO. | Plataforma de datos crucial para la misión |
Mediana | 99,9 % | Replicación de datos sincrónica entre regiones Replicación de datos sincrónica entre zonas de disponibilidad |
Copias de seguridad entre regiones. La frecuencia debe admitir RTO y RPO. | Solución de base de datos y almacenamiento en el patrón Reliable Web App |
Bajo nivel | 99 % | Replicación de datos sincrónica entre zonas de disponibilidad | Copias de seguridad entre regiones. La frecuencia debe admitir RTO y RPO. | Resistencia de datos en la aplicación web de línea base con redundancia de zona |
Debe alinear las configuraciones de confiabilidad de datos con los requisitos de RTO y RPO de las cargas de trabajo. Para realizar esa alineación, siga estos pasos:
Administrar la replicación de datos. Replique los datos de forma sincrónica o asincrónica según los requisitos de RTO y RPO de la carga de trabajo.
Distribución de datos Replicación de datos Configuración del equilibrio de carga Entre zonas de disponibilidad Sincrónico (casi en tiempo real) La mayoría de los servicios PaaS controlan el equilibrio de carga entre zonas de forma nativa Entre regiones (activo-activo) Síncrono Balanceo de carga activo-activo Entre regiones (activo-pasivo) Asincrónico (periódico) Configuración activa-pasiva Para obtener más información, consulte Replicación: redundancia para datos.
Administrar copias de seguridad de datos. Las copias de seguridad son para la recuperación ante desastres (error del servicio), la recuperación de datos (eliminación o daños) y la respuesta a incidentes (seguridad). Las copias de seguridad deben admitir los requisitos de RTO y RPO para cada carga de trabajo. Se prefieren soluciones de copia de seguridad integradas en el servicio de Azure, como las características nativas de copia de seguridad en Azure Cosmos DB y Azure SQL Database. Cuando las copias de seguridad nativas no estén disponibles, incluidos los datos locales, use Azure Backup. Para más información, consulte Backup and Azure Business Continuity Center (Copia de seguridad y Centro de continuidad empresarial de Azure).
Diseñe la confiabilidad de los datos de carga de trabajo. Para obtener el diseño de confiabilidad de los datos de carga de trabajo, consulte la guía de creación de particiones de datos de Well-Architected Framework y las guías de servicio de Azure (comience con la sección Confiabilidad).
Administración de código y confiabilidad en tiempo de ejecución
La confiabilidad del código y del tiempo de ejecución es una responsabilidad asociada a la carga de trabajo. Siga la guía de auto-reparación y auto-preservación del Well-Architected Framework.
Administración de la confiabilidad de los recursos en la nube
La administración de la confiabilidad de los recursos en la nube suele requerir redundancia de arquitectura (instancias de servicio duplicadas) y una estrategia eficaz de equilibrio de carga. Consulte la tabla 3 para obtener ejemplos de redundancia de arquitectura alineadas con la prioridad de la carga de trabajo.
Tabla 3. Ejemplos de redundancia de arquitectura y prioridad de carga de trabajo.
Prioridad de la carga de trabajo | Redundancia de arquitectura | Enfoque de equilibrio de carga | Solución de equilibrio de carga de Azure | Escenario de ejemplo |
---|---|---|---|---|
Alto | Dos regiones y zonas de disponibilidad | Activo-activo | Azure Front Door (HTTP) Azure Traffic Manager (no HTTP) |
Plataforma de aplicación base de misión crítica |
Mediana | Dos regiones y zonas de disponibilidad | Activo-pasivo | Azure Front Door (HTTP) Azure Traffic Manager (no HTTP) |
Guía de arquitectura de patrones de aplicación web confiable |
Bajo nivel | Regiones únicas y zonas de disponibilidad | Entre zonas de disponibilidad | Puerta de enlace de aplicaciones Azure Incorporación de Azure Load Balancer para máquinas virtuales |
Línea base de App Service Línea de base de máquina virtual |
El enfoque debe implementar la redundancia de arquitectura para cumplir los requisitos de confiabilidad de las cargas de trabajo. Siga estos pasos:
Calcule el tiempo de actividad de las arquitecturas. Para cada carga de trabajo, calcule el Acuerdo de Nivel de Servicio compuesto. Incluya únicamente los servicios que podrían provocar el fallo de la carga de trabajo (ruta crítica).
Enumere todos los servicios de la ruta crítica de la carga de trabajo. Recopile los SLA de tiempo de actividad de Microsoft de cada servicio del documento oficial.
Decida si la carga de trabajo incluye rutas críticas independientes. Se puede producir un error en una ruta independiente y la carga de trabajo permanece disponible.
Si tiene una ruta de acceso crítica, use la fórmula de una sola región: N = S1 × S2 × S3 × ... × Sn.
Si tiene dos o más rutas de acceso críticas, use la fórmula de ruta de acceso independiente: N = S1 x 1 - [(1 - S2) × (1 - S3)].
Las cargas de trabajo complejas suelen combinar ambos tipos de fórmulas. Ejemplo: N = S1 × S2 × S3 × (S4 x 1 - [(1 - S5) × (1 - S6)]).
Para las aplicaciones de varias regiones, use la fórmula para la fórmula de varias regiones: M = 1 - (1 - N)^R
Compare el tiempo de actividad calculado con el SLO de tiempo de actividad. Un déficit requiere acuerdos de nivel de servicio más altos o redundancia adicional. Recalcular después de cada cambio. Detener después de que el tiempo de actividad calculado supere el SLO.
Caso de uso Fórmula variables Ejemplo Explicación Región única N = S1 × S2 × S3 × ... × Sn N = Acuerdo de Nivel de Servicio compuesto.
S = SLA del servicio de Azure.
n = número de servicios en la ruta crítica.N = 99,99% (aplicación) × 99,95% (base de datos) × 99,9% (caché) Carga de trabajo sencilla con aplicación (99,99%), base de datos (99,95%) y caché (99,9%) en una única ruta crítica. Rutas de acceso independientes S1 x 1 - [(1 - S2) × (1 - S3)] S = SLA del servicio de Azure. 99,99 % (aplicación) × (1 - [(1 - 99,95 % base de datos) × (1 - 99,9 % caché)]) En la aplicación, la base de datos (99.95%) o la memoria caché (99.9%) pueden producir un error sin provocar tiempo de inactividad. Varias regiones M = 1 - (1 - N)^R M = Acuerdo de Nivel de Servicio de varias regiones.
N = Acuerdo de Nivel de Servicio de una sola región.
R = Número de regiones.Si N = 99,95% y R = 2, M = 1 - (1 - 99,95%)^2 Carga de trabajo implementada en dos regiones. Ajuste los niveles de servicio. Antes de modificar las arquitecturas, evalúe si diferentes niveles de servicio (SKU) de Azure pueden cumplir los requisitos de confiabilidad. Algunos niveles de servicio de Azure pueden tener diferentes SLA de disponibilidad, como Azure Managed Disks.
Agregue redundancia de arquitectura. Si la estimación del tiempo de actividad actual es menor que el SLO, aumente la redundancia:
Use varias zonas de disponibilidad. Configure las cargas de trabajo para usar varias zonas de disponibilidad. La forma en que las zonas de disponibilidad mejoran el tiempo de actividad puede ser difícil de calcular. Solo algunos servicios disponen de SLA de tiempo de actividad que tienen en cuenta las zonas de disponibilidad. Donde los Acuerdos de Nivel de Servicio consideran las zonas de disponibilidad, utilícelos en las estimaciones de disponibilidad. Consulte la siguiente tabla para ver algunos ejemplos.
Tipo de servicio de Azure Servicios de Azure con SLA de zona de disponibilidad Plataforma de computación Servicio de Aplicaciones
Azure Kubernetes Service
Máquinas virtualesAlmacén de datos Azure Service Bus (bus de servicios de Azure)
Cuentas de Azure Storage
Caché de Azure para Redis
Nivel Premium de Azure FilesBase de datos Azure Cosmos DB (la base de datos de Azure Cosmos)
Azure SQL Database
Base de Datos Azure para MySQL
Base de Datos de Azure para PostgreSQL
Instancia administrada de Azure para Apache CassandraEquilibrador de carga Application Gateway Seguridad Azure Firewall Usar varias regiones. A menudo, se necesitan varias regiones para cumplir los SLO de tiempo de actividad. Use equilibradores de carga globales (Azure Front Door o Traffic Manager) para la distribución del tráfico. Las arquitecturas de varias regiones requieren una administración cuidadosa de la coherencia de los datos.
Administrar la redundancia de arquitectura. Decidir cómo usar redundancia: puede usar la redundancia de arquitectura como parte de las operaciones diarias (activas). O bien, puede usar redundancia de arquitectura en escenarios de recuperación ante desastres (pasivo). Para obtener ejemplos, consulte la tabla 3.
Equilibrio de carga entre zonas de disponibilidad. Use toda la disponibilidad activamente. Muchos servicios paaS de Azure administran automáticamente el equilibrio de carga entre zonas de disponibilidad. Las cargas de trabajo de IaaS deben usar un equilibrador de carga interno para equilibrar la carga entre zonas de disponibilidad.
Equilibrio de carga entre regiones. Determine si las cargas de trabajo de varias regiones deben ejecutar cargas de trabajo activas-activas o activas-pasivas en función de las necesidades de confiabilidad.
Administrar configuraciones de servicio. Aplique de forma coherente las configuraciones en instancias redundantes de recursos de Azure, por lo que los recursos se comportan de la misma manera. Use la infraestructura como código para mantener la coherencia. Para obtener más información, consulte Configuración de recursos duplicados.
Diseñe la confiabilidad de la carga de trabajo. Para obtener el diseño de confiabilidad de la carga de trabajo, consulte Well-Architected Framework:
Confiabilidad de la carga de trabajo Orientación Pilar de confiabilidad Diseño de varias regiones de alta disponibilidad
Diseño para redundancia
Uso de zonas y regiones de disponibilidadGuía de servicio Guías de servicio de Azure (comience con la sección Confiabilidad)
Para obtener más información, consulte Redundancia.
Administración de la continuidad empresarial
La recuperación de un error requiere una estrategia clara para restaurar los servicios rápidamente y minimizar la interrupción para mantener la satisfacción del usuario. Siga estos pasos:
Prepárese para errores. Cree procedimientos de recuperación independientes para cargas de trabajo basadas en prioridades altas, medias y bajas. La confiabilidad de los datos, la confiabilidad del código y el entorno de ejecución, y la confiabilidad de los recursos en la nube son la base de la preparación para errores. Seleccione otras herramientas de recuperación para ayudar con la preparación de la continuidad empresarial. Por ejemplo, use Azure Site Recovery para cargas de trabajo de servidor locales y basadas en máquinas virtuales.
Pruebe y documente el plan de recuperación. Pruebe periódicamente los procesos de conmutación por error y conmutación por recuperación para confirmar que las cargas de trabajo cumplen los objetivos de tiempo de recuperación (RTO) y los objetivos de punto de recuperación (RPO). Documente claramente cada paso del plan de recuperación para facilitar la referencia durante los incidentes. Compruebe que las herramientas de recuperación, como Azure Site Recovery, cumplen de forma coherente el RTO especificado.
Detectar errores. Adopte un enfoque proactivo para identificar las interrupciones rápidamente, incluso si este método aumenta los falsos positivos. Priorice la experiencia del cliente minimizando el tiempo de inactividad y manteniendo la confianza del usuario.
Supervise los errores. Supervise las cargas de trabajo para detectar interrupciones en un minuto. Use Azure Service Health y Azure Resources Health y use alertas de Azure Monitor para notificar a los equipos pertinentes. Integre estas alertas con las herramientas de Administración de servicios de TI (ITSM) o Azure DevOps.
Recopilar indicadores de nivel de servicio (SLA). Realice un seguimiento del rendimiento definiendo y recopilando métricas que sirven como SLA. Asegúrese de que los equipos usan estas métricas para medir el rendimiento de la carga de trabajo con respecto a los objetivos de nivel de servicio (SLO).
Responder a errores. Alinee la respuesta de recuperación a la prioridad de la carga de trabajo. Implemente procedimientos de conmutación por error para redirigir las solicitudes a infraestructura redundante y réplicas de datos inmediatamente. Una vez que los sistemas se estabilicen, resuelvan la causa raíz, sincronicen los datos y ejecuten los procedimientos de recuperación. Para obtener más información, consulte Conmutación por error y conmutación por recuperación.
Analice los errores. Identifique las causas principales de los problemas y, a continuación, solucione el problema. Documente las lecciones y realice los cambios necesarios.
Administrar errores de carga de trabajo. Para la recuperación ante desastres de cargas de trabajo, consulte la guía de recuperación ante desastres de Well-Architected Framework y las guías de servicio de Azure (comience con la sección Confiabilidad).
Herramientas de confiabilidad de Azure
Caso de uso | Solución |
---|---|
Replicación de datos, copia de seguridad y continuidad empresarial |
Guías de servicio de Azure (comience con la sección Confiabilidad) Referencia rápida: Azure Cosmos DB Azure SQL Database Azure Blob Storage Archivos de Azure |
Copia de seguridad de datos | Azure Backup |
Continuidad empresarial (IaaS) | Azure Site Recovery |
Equilibrador de carga de varias regiones |
Azure Front Door (HTTP) Azure Traffic Manager (no HTTP) |
Equilibrador de carga de varias zonas de disponibilidad |
Azure Application Gateway (HTTP) Azure Load Balancer (no HTTP) |
Administración de la seguridad
Use un proceso de seguridad iterativo para identificar y mitigar las amenazas en el entorno en la nube. Siga estos pasos:
Administración de operaciones de seguridad
Administre los controles de seguridad para detectar amenazas en el patrimonio de la nube. Siga estos pasos:
Estandarizar las herramientas de seguridad. Use herramientas estandarizadas para detectar amenazas, corregir vulnerabilidades, investigar problemas, proteger datos, proteger los recursos y aplicar el cumplimiento a escala. Consulte Herramientas de seguridad de Azure.
Establece una línea base para tu entorno. Documenta el estado normal de tu entorno en la nube. Monitorear la seguridad y documentar los patrones de tráfico de red y los comportamientos de los usuarios. Use las líneas base de seguridad de Azure y las guías de servicio de Azure para desarrollar configuraciones de línea base para los servicios. Esta línea de base facilita la detección de anomalías y posibles puntos débiles de seguridad.
Aplicar controles de seguridad. Implementar medidas de seguridad, como controles de acceso, cifrado y autenticación multifactor, refuerza el entorno y reduce la probabilidad de que se ponga en peligro. Para obtener más información, consulte Administración de la seguridad.
Asigne responsabilidades de seguridad. Designe la responsabilidad de la supervisión de la seguridad en el entorno de nube. La supervisión y las comparaciones periódicas con la línea base permiten la identificación rápida de incidentes, como el acceso no autorizado o las transferencias de datos inusuales. Las actualizaciones y auditorías periódicas mantienen la base de referencia de seguridad eficaz frente a las amenazas en constante evolución.
Para obtener más información, consulte Caf Secure.
Administración de incidentes de seguridad
Adopte un proceso y herramientas para recuperarse de incidentes de seguridad, como ransomware, denegación de servicio o intrusiones de actor de amenazas. Siga estos pasos:
Prepárese para incidentes. Desarrolle un plan de respuesta a incidentes que defina claramente los roles para la investigación, mitigación y comunicación. Pruebe regularmente la eficacia de su plan. Evalúe e implemente herramientas de administración de vulnerabilidades, sistemas de detección de amenazas y soluciones de supervisión de infraestructura. Reduzca la superficie expuesta a ataques a través de la protección de la infraestructura y cree estrategias de recuperación específicas de la carga de trabajo. Consulte Introducción a la respuesta a incidentes y cuadernos de estrategias de respuesta a incidentes.
Detectar incidentes. Use la herramienta de administración de eventos e información de seguridad (SIEM), como Microsoft Sentinel, para centralizar los datos de seguridad. Use las funcionalidades de orquestación, automatización y respuesta de seguridad de Microsoft Sentinel (SOAR) para automatizar las tareas de seguridad rutinarias. Integre las fuentes de inteligencia sobre amenazas en su SIEM para obtener información sobre las tácticas de adversario relevantes para su entorno de nube. Use Microsoft Defender for Cloud para examinar periódicamente las vulnerabilidades de Azure. Microsoft Defender se integra con Microsoft Sentinel para proporcionar una vista unificada de los eventos de seguridad.
Responder a incidentes. Active inmediatamente el plan de respuesta a incidentes al detectar un incidente. Inicie rápidamente los procedimientos de investigación y mitigación. Active el plan de recuperación ante desastres para restaurar los sistemas afectados y comunique claramente los detalles del incidente al equipo.
Analice los incidentes de seguridad. Después de cada incidente, revise la inteligencia sobre amenazas y actualice el plan de respuesta a incidentes en función de las lecciones aprendidas y las conclusiones de los recursos públicos, como la base de conocimiento DE MITRE ATT&CK . Evalúe la eficacia de las herramientas de detección y administración de vulnerabilidades y refina las estrategias en función del análisis posterior al incidente.
Para obtener más información, consulte Administración de la respuesta a incidentes (CAF Secure).
Herramientas de seguridad de Azure
Funcionalidad de seguridad | Solución de Microsoft |
---|---|
Administración de identidades y acceso | Microsoft Entra ID |
Control de acceso basado en roles | Control de acceso basado en rol de Azure |
Detección de amenazas | Microsoft Defender for Cloud |
Administración de información de seguridad | Microsoft Sentinel |
Seguridad y gobernanza de datos | Microsoft Purview |
Seguridad de los recursos en la nube | Líneas base de seguridad de Azure |
Gobernanza de la nube | Azure Policy |
Seguridad de los puntos de conexión | Microsoft Defender para punto de conexión |
Seguridad de red | Azure Network Watcher |
Seguridad industrial | Microsoft Defender para IoT |
Seguridad de copia de seguridad de datos | Seguridad de Azure Backup |