Cambios y conmutaciones por error
Se aplica a: Exchange Server 2010
Última modificación del tema: 2009-12-07
Los cambios y las conmutaciones por error son las dos formas de interrupciones en Microsoft Exchange Server 2010. Un cambio es una interrupción programada de una base de datos o un servidor iniciada explícitamente por un administrador, en general, al preparar una operación de mantenimiento. Los cambios implican que un administrador mueva la copia activa de la base de datos de buzones de correo a otro servidor en el grupo de disponibilidad de base de datos (DAG).
Una conmutación por error es un evento inesperado que hace que los datos, los servicios o ambos no estén disponibles. Una conmutación por error implica que el sistema se recupere automáticamente de un error al activar una copia pasiva de la base de datos de buzones de correo para convertirla en la copia activa de la base de datos de buzones de correo.
La plataforma de alta disponibilidad en Exchange 2010 está diseñada para manejar tanto cambios como conmutaciones por error.
¿Está buscando tareas de administración relacionadas con la alta disponibilidad y la resistencia del sitio? Consulte Administración de la alta disponibilidad y la resistencia de sitios.
Cambios
Existen tres tipos de cambios en Exchange 2010:
- Cambios de base de datos
- Cambios de servidor
- Cambios de centro de datos
Cambios de base de datos
Un cambio de base de datos es el proceso por el cual una base de datos activa individual se pasa a otra copia de la base de datos (una copia pasiva), y dicha copia de la base de datos se convierte en la nueva copia activa de la base de datos. Los cambios de base de datos pueden ocurrir tanto dentro de los centros de datos como entre ellos. Un cambio de base de datos se puede realizar usando la Consola de administración de Exchange (EMC) o el Shell de administración de Exchange. Independientemente de la interfaz que se usa, el proceso de cambio es el mismo:
- El administrador inicia un cambio de base de datos para mover la copia actualmente activa de la base de datos de buzones de correo a otro servidor. El cambio se puede iniciar mediante el cmdlet Move-ActiveMailboxDatabase o mediante el Asistente para activar copias de base de datos.
- El cliente usado para la tarea realiza una llamada RPC al servicio de replicación de Microsoft Exchange en un miembro del DAG.
- Si el miembro del DAG no cuenta con la función de administrador activo principal (PAM), el miembro del DAG envía la tarea al PAM.
- La tarea realiza una llamada RPC al servicio de replicación de Microsoft Exchange en el PAM.
- El PAM lee y actualiza la información de la ubicación de la base de datos que está almacenada en la base de datos del clúster para el DAG.
- El PAM se pone en contacto con el servicio de replicación de Microsoft Exchange en el miembro del DAG cuya copia pasiva se está activando como la nueva copia activa de la base de datos de buzones de correo.
- El servicio de replicación de Microsoft Exchange en el servidor de destino solicita a los servicios de replicación de Microsoft Exchange en todos los demás miembros del DAG que determinen el mejor origen del registro para la copia de la base de datos.
- La base de datos se desmonta del servidor actual, y el servicio de replicación de Microsoft Exchange en el servidor de destino copia los registros restantes en el servidor de destino.
- El servicio de replicación de Microsoft Exchange en el servidor de destino solicita un montaje de base de datos.
- El servicio de almacén de información de Microsoft Exchange en el servidor de destino reproduce los archivos de registro y monta la base de datos.
- Los códigos de error se devuelven al servicio de replicación de Microsoft Exchange en el servidor de destino.
- El PAM actualiza la información del estado de la copia de la base de datos en la base de datos del clúster para el DAG.
- Los códigos de error son devueltos por el servicio de replicación de Microsoft Exchange en el servidor de destino al servicio de replicación de Microsoft Exchange en el PAM.
- El servicio de replicación de Microsoft Exchange en el PAM devuelve los errores a la interfaz administrativa en la cual se llamó a la tarea.
- PowerShell en remoto devuelve los resultados de la operación a la interfaz administrativa que realiza la llamada.
Para obtener instrucciones detalladas acerca de cómo realizar un cambio de base de datos, consulte Activar una copia de la base de datos de buzones.
Cambios de servidor
Un cambio de servidor es el proceso por el cual todas las bases de datos activas en un miembro del DAG se activan en uno o más miembros del DAG. Al igual que los cambios de base de datos, un cambio de servidor puede ocurrir tanto dentro de un centro de datos como entre centros de datos, y puede ser iniciado mediante el uso de la EMC y el Shell. Independientemente de la interfaz que se usa, el proceso de cambio es el mismo:
- El administrador inicia un cambio de servidor para mover todas las copias actualmente activas de la base de datos de buzones de correo a uno o más servidores. El cambio se puede iniciar mediante el cmdlet Move-ActiveMailboxDatabase o mediante la interfaz de usuario del servidor de cambio.
- La tarea realiza los mismos pasos detallados anteriormente en este tema para los cambios de base de datos (pasos 2 a 4) de cada una de las bases de datos activas en el servidor actual.
- El PAM lee y actualiza la información de la ubicación de la base de datos que está almacenada en la base de datos del clúster para el DAG.
- El PAM se pone en contacto con el servicio de replicación de Microsoft Exchange en cada miembro del DAG en el cual se está activando una copia pasiva.
- El servicio de replicación de Microsoft Exchange en los servidores de destino solicita a los servicios de replicación de Microsoft Exchange en todos los demás miembros del DAG que determinen el mejor origen del registro para la copia de la base de datos.
- La base de datos se desmonta del servidor actual, y el servicio de replicación de Microsoft Exchange en cada servidor de destino copia los registros restantes.
- El servicio de replicación de Microsoft Exchange en cada servidor de destino solicita un montaje de base de datos.
- El servicio de almacén de información de Microsoft Exchange en cada servidor de destino reproduce los archivos de registro y monta la base de datos.
- Los códigos de error se devuelven al servicio de replicación de Microsoft Exchange en el servidor de destino.
- El PAM actualiza la información del estado de la copia de la base de datos en la base de datos del clúster para el DAG.
- Los códigos de error son devueltos por el servicio de replicación de Microsoft Exchange en el servidor de destino al servicio de replicación de Microsoft Exchange en el PAM.
- El servicio de replicación de Microsoft Exchange en el PAM devuelve los errores a la interfaz administrativa en la cual se llamó a la tarea.
- PowerShell en remoto devuelve los resultados de la operación a la interfaz administrativa que realiza la llamada.
Para obtener instrucciones detalladas acerca de cómo realizar un cambio de servidor, consulte Realizar un cambio de servidor.
Cambios de centro de datos
Un error en el sitio o el centro de datos se administra de manera diferente de los tipos de errores que pueden provocar la conmutación por error de un servidor o una base de datos. En una configuración de alta disponibilidad, la recuperación automática es iniciada por el sistema, y el error, por lo general, deja el sistema de mensajería en un estado completamente funcional. Por otro lado, un error en el centro de datos se considera un evento de recuperación ante desastres y, como tal, la recuperación debe realizarse y completarse de forma manual para que el servicio de cliente se restaure y para que la interrupción finalice. El proceso que realiza se denomina cambio de centro de datos. Como sucede con muchas situaciones de recuperación ante desastres, la planificación y la preparación anticipadas de un cambio de centro de datos pueden simplificar el proceso de recuperación y reducir la duración de la interrupción.
Para obtener más información acerca de los cambios de centro de datos, además de instrucciones detalladas acerca de cómo realizar un cambio de centro de datos, consulte Cambios en el centro de datos.
Conmutaciones por error
Una conmutación por error es un proceso de activación automático que puede ocurrir en las bases de datos o en los servidores. Las conmutaciones por error ocurren en respuesta a un error que afecta a una base de datos individual (por ejemplo, una pérdida de almacenamiento aislada) o un servidor completo (por ejemplo, un error en la placa base o una pérdida de energía).
Los DAG y las copias de bases de datos de buzones de correo proporcionan una redundancia completa (y, por lo tanto, una recuperación rápida) de los datos y los servicios que permiten obtener acceso a los datos. En la siguiente tabla, se describen las acciones de recuperación previstas para diversos errores. Algunos errores requieren que el administrador inicie la recuperación, mientras que otros son administrados automáticamente por el sistema.
Descripción | Activación automática | Acción de reparación automática | Estado durante la reparación: Activo | Estado durante la reparación: Pasivo | Acciones de reparación | Comentarios |
---|---|---|---|---|---|---|
Error en la base de datos de software del motor de almacenamiento extensible (ESE): Las unidades que almacenan la base de datos devuelven errores en algunas lecturas (por ejemplo, un error -1018). |
Posible interrupción breve. Posible conmutación por error automática. |
Aplicación de revisión automática de página errónea. |
Cambio manual, conmutación por error automática o reparación en línea. |
Error |
Reconstruir RAID, reparar copia de base de datos y base de datos, restaurar y ejecutar la recuperación, y luego aplicar la revisión de páginas, o aplicar la revisión de páginas de la copia. |
Puede haber otros códigos de error de base de datos de software. No se incluyen errores de bloqueo del sistema de archivos NTFS. Si se realiza una conmutación por error o un cambio, se actualiza el servidor host. |
Error en la base de datos "semisoft" de ESE: Las unidades que almacenan la base de datos devuelven errores en algunas escrituras. |
Interrupción breve durante la conmutación por error automática. |
Reconstrucción automática de volumen o disco después de un posible reemplazo de unidad. |
Desmontar si no se puede recuperar. |
Error |
La reconstrucción de RAID puede resolver el problema. Copiar y reparar, restaurar y ejecutar una recuperación, o reconstruir el disco o volumen después de un posible reemplazo. |
Un error de escritura semisoft de ESE significa que algunas escrituras son correctas. No se incluye un error de bloqueo de NTFS. |
Error en el registro "semisoft" de ESE: Las unidades que almacenan los datos del registro devuelven errores no recuperados en algunas lecturas o escrituras. |
Interrupción breve durante la conmutación por error automática. |
Reconstrucción automática de volumen o disco después de un posible reemplazo de unidad. |
Desmontar si no se puede recuperar. |
Error |
La reconstrucción de RAID puede resolver el problema. Copiar y reparar, restaurar y ejecutar una recuperación, o reconstruir el disco o volumen después de un posible reemplazo. |
Un error de lectura o escritura semisoft de ESE significa que algunas lecturas o escrituras son correctas. Si la base de datos falla, una recuperación automática ocurrirá antes de que comience el proceso de recuperación de datos del registro. |
Agotamiento de recursos o error de software de ESE: Un error en el cual ESE termina la instancia (por ejemplo, Id. de evento 1022, gran profundidad de punto de control). |
Interrupción breve durante la conmutación por error automática. |
Ninguna. |
Desmontar si no se puede recuperar. |
Error |
Solucionar problema de recursos subyacente. |
Este error podría ser el error expuesto de otros casos. |
Errores de bloqueo de NTFS: Las unidades que almacenan la base de datos o los registros experimentan un error de escritura o lectura en una estructura de control de NTFS. |
Interrupción breve durante la conmutación por error automática. |
Volumen reconstruido completamente después de un posible reemplazo de unidad. |
Desmontar si no se puede recuperar. |
Error |
La reconstrucción de RAID puede resolver el problema. Las utilidades de NTFS pueden resolver los problemas de NTFS. Es posible que se requiera la recuperación de Exchange. |
Esto es más probable que ocurra cuando RAID no está en uso. Si esto afecta el volumen activo del registro, algunos archivos de registro recientes se perderán. No se incluyen errores corregidos de manera automática por NTFS, su software subyacente ni su pila de hardware. |
Error en la unidad de base de datos o de registro: Una unidad que almacena la base de datos o los registros ha fallado completamente y no se puede obtener acceso a ella. |
Interrupción breve durante la conmutación por error automática. |
Unidad reformateada o reemplazada, seguida de una reconstrucción completa del volumen. |
Desmontar si no se puede recuperar. |
Error |
Reemplazo de unidad, seguido de una posible reconstrucción de RAID. Reemplazo de unidad, seguido de una reconstrucción completa del volumen. Reconstrucción completa del volumen. |
No disponible. |
Error en el volumen de base de datos o de registro: Se produce un error en el volumen debido a problemas de nivel más bajo de volumen o NTFS. |
Interrupción breve durante la conmutación por error automática. |
Unidad reformateada o reemplazada. |
Desmontar si no se puede recuperar. |
Error |
Reemplazo de unidad, seguido de una posible reconstrucción de RAID. Reemplazo de unidad, seguido de una reconstrucción completa del volumen. Reconstrucción completa del volumen. |
No disponible. |
Volumen de base de datos o registro sin espacio: El sistema de archivos NTFS con los archivos de registro o base de datos no tiene espacio. |
Conmutación por error automática si otra copia no está en un estado similar. |
Ninguna. |
Desmontado. |
Error |
Ejecutar copias de seguridad incrementales o completas; eliminar registros de forma manual; esperar; reanudar la copia de la base de datos; o reparar la copia de la base de datos que falló. |
No disponible. |
El administrador desmonta la base de datos incorrecta. |
Si la conmutación por error automática no es bloqueada por el administrador, ocurrirá una breve interrupción. Si la conmutación por error automática es evitada, habrá una interrupción hasta que la base de datos se monte. |
Ninguna. |
Desmontado. |
No disponible |
El administrador corrige el error. |
No disponible. |
El administrador suspende la copia de la base de datos incorrecta. |
En función de la configuración y la copia afectada, puede evitarse la recuperación automática. |
Ninguna. |
No disponible. |
Suspendido |
El administrador corrige el error. |
No disponible. |
El administrador desmonta una base de datos para el mantenimiento de almacenamiento, NTFS o volumen. |
Si la conmutación por error automática no es bloqueada por el administrador, ocurrirá una breve interrupción. Si la conmutación por error automática es bloqueada, habrá una interrupción hasta que el administrador complete la tarea. |
Ninguna. |
Desmontado. |
No disponible |
El administrador finaliza la tarea. |
No disponible. |
El administrador suspende una copia de la base de datos para el mantenimiento de almacenamiento, NTFS o volumen. |
En función de la configuración y la copia afectada, puede evitarse la recuperación automática. |
Ninguna. |
No disponible. |
Suspendido |
El administrador completa las acciones. |
No disponible. |
El administrador desmonta una base de datos para el mantenimiento de la base de datos sin conexión. |
Interrupción hasta que se haya reparado. |
Ninguna. |
Desmontado. |
Suspendido |
El administrador completa las acciones. |
Las copias activas y pasivas de la base de datos se separan. El administrador debe suspender las copias. |
Error de red de área de almacenamiento (SAN), disco o controlador de almacenamiento. |
Interrupción breve durante la conmutación por error automática. |
Ninguna. |
Desmontado. |
Cualquiera |
Reparar el hardware. |
Una copia pasiva de la base de datos estará en el estado en que se encontraba en el momento en que falló el sistema. |
Mantenimiento de hardware del servidor. |
Interrupción breve durante la conmutación por error automática (a menos que sea bloqueada por un administrador). |
Ninguna. |
Desmontado. |
Cualquiera |
Completar las acciones. |
Una copia pasiva de la base de datos estará en el estado en que se encontraba en el momento en que se apagó el sistema. |
Mantenimiento de software del servidor. |
Interrupción breve durante la conmutación por error automática (a menos que sea bloqueada por un administrador). |
Ninguna. |
Desmontado. |
Cualquiera |
Completar las acciones. |
Una copia pasiva de la base de datos estará en el estado en que se encontraba en el momento en que se apagó el sistema. |
El servicio de almacén de información de Microsoft Exchange se detiene o se pausa. |
Interrupción breve durante la conmutación por error automática (a menos que sea bloqueada por un administrador). |
Ninguna. |
Desmontado. |
Cualquiera |
Reiniciar el servicio de almacén de información de Microsoft Exchange. |
Una copia pasiva de la base de datos estará en el estado en que se encontraba en el momento en que se detuvo el servicio. |
Se produce un error en el servicio de almacén de información de Microsoft Exchange; el sistema operativo aún se está ejecutando. |
Interrupción breve durante la conmutación por error automática. |
El Administrador de control de servicios reinicia el servicio de almacén de información de Microsoft Exchange. |
Desmontado. |
Cualquiera |
Reiniciar de forma manual o automática el servicio de almacén de información de Microsoft Exchange. |
Una copia pasiva de la base de datos estará en el estado en que se encontraba cuando falló el servicio de almacén de información de Microsoft Exchange. |
Error parcial en el servicio de almacén de información de Microsoft Exchange; cierta parte del almacén de Exchange deja de funcionar, pero no se identifica como un error completo. |
Posible interrupción breve durante la conmutación por error automática. |
Ninguna. |
Montado y parcialmente funcional. |
Cualquiera, pero puede estar sólo parcialmente funcional |
Reiniciar el servidor, el sistema operativo o el servicio de almacén de información de Microsoft Exchange. |
No disponible. |
Error en el servidor: El servidor ha producido un error debido a una de las siguientes razones:
|
Interrupción breve durante la conmutación por error automática. |
Reiniciar el equipo. |
Desmontado. |
Cualquiera |
Restaurar la energía; cambiar la configuración del sistema operativo; cambiar la configuración del hardware; reemplazar el hardware; reiniciar el sistema operativo; reparar el sistema operativo; reparar el hardware; o reparar los problemas de comunicación. |
No disponible. |
El DAG tiene un error de quórum. |
Interrupción hasta que se haya reparado. |
Ninguna. |
Desmontado. |
Cualquiera |
Reparar el quórum que falló; asignar un nuevo quórum; o restaurar la red que está provocando el error de quórum. |
Una copia pasiva de la base de datos estará en el estado en que se encontraba en el momento en que falló el sistema. |
Error de comunicación de red MAPI: El servidor ya no está disponible en la red MAPI. |
Interrupción breve durante la conmutación por error automática; no deben existir pérdidas. |
Ninguna. La comunicación se sigue intentado. |
Desmontado. |
Cualquiera |
Solucionar problema de comunicación corrigiendo problemas de hardware o software. |
No disponible. |
Error de comunicación de red de replicación: El servidor no puede recibir latidos, copias de registro ni valores de inicialización por medio de la red de replicación que falló. |
Posible interrupción breve de inicialización o copia mientras la carga de trabajo se cambia a otra red. |
Ninguna. La comunicación se sigue intentado. |
Ninguna. |
Cualquiera |
Solucionar problema de comunicación corrigiendo problemas de hardware o software. |
Resistencia afectada por el error. |
Error múltiple de comunicación de red: El servidor no puede recibir latidos, copias de registro ni valores de inicialización por medio de varias redes. |
Interrupción breve durante la conmutación por error automática; no deben existir pérdidas. |
Ninguna. La comunicación se sigue intentado. |
Desmontado. |
Cualquiera |
Solucionar problema de comunicación corrigiendo problemas de hardware o software. |
Al menos una red todavía funciona. |
Error parcial de una o varias redes: Las redes tienen tasas de error elevadas. |
Error no detectado; sin acción. |
Ninguna. |
Montado; pero posibles problemas de rendimiento. |
Cualquiera |
Solucionar problema de comunicación corrigiendo problemas de hardware o software. |
La red tiene tasas de error superiores a las normales. |
Bloqueo del sistema operativo no detectado: El sistema operativo deja de responder; pero no se detecta mediante supervisión ni agrupación en clústeres. |
Ninguna. |
Ninguna. |
Cualquiera. |
Cualquiera |
Reiniciar o terminar los recursos que no responden. |
No se detectó el bloqueo, por lo que no se toma ninguna acción. Algunas funciones pueden estar operativas. |
La unidad del sistema operativo tiene un error. |
Interrupción breve durante la conmutación por error automática. |
Ninguna. |
Desmontado. |
Cualquiera |
Reemplazar la unidad y reconstruir el servidor, o reconstruir el volumen utilizando RAID. |
No disponible. |
La unidad del sistema operativo se ha quedado sin espacio. |
Interrupción breve durante la conmutación por error automática. |
Ninguna. |
Desmontado. |
Cualquiera |
Liberar manualmente espacio en el volumen. |
No disponible. |
La unidad que contiene archivos binarios de Exchange tiene un error en la unidad o en el volumen. |
Interrupción breve durante la conmutación por error automática. |
Ninguna. |
Desmontado. |
Cualquiera |
Reemplazar la unidad y volver a instalar la aplicación, o reconstruir el volumen usando RAID. |
No disponible. |
La unidad que contiene los archivos binarios de Exchange se ha quedado sin espacio. |
Interrupción breve durante la conmutación por error automática. |
Ninguna. |
Desmontado. |
Cualquiera |
Liberar manualmente espacio en el volumen. |
No disponible. |
Nuevo registro no válido detectado: La secuencia de registro es interrumpida por un archivo existente. |
Breve interrupción durante la conmutación por error automática; suponer que otras copias no tienen el mismo problema. |
Ninguna. |
Desmontado. |
Error |
Quitar registros perjudiciales después de determinar el origen. |
No se deben replicar los registros perjudiciales. |
La replicación continua detecta registro no válido: La reproducción detecta un registro inadecuado durante la copia o reproducción. |
No disponible. |
Descartar registro. |
No disponible. |
Error |
Descartar registro no válido; mover la secuencia de registro que afecta. |
No disponible. |
Conmutaciones por error de base de datos
Una conmutación por error de base de datos sucede cuando una copia de la base de datos que estaba activa ya no puede permanecer activa. Como parte de una conmutación por error de base de datos, ocurre lo siguiente:
- El error de base de datos es detectado por el servicio de almacén de información de Microsoft Exchange.
- El servicio de almacén de información de Microsoft Exchange escribe eventos de error en el registro de eventos del canal crimson.
- El administrador activo en el servidor que contiene la base de datos con error detecta los eventos de error.
- El administrador activo solicita el estado de la copia de la base de datos de otros servidores que contienen una copia de la base de datos.
- Los demás servidores devuelven el estado de la copia de la base de datos solicitado al administrador activo que lo solicita.
- El PAM comienza a mover la base de datos activa a otro servidor en el DAG.
- El PAM actualiza la ubicación de montaje de la base de datos en la base de datos del clúster para enviarla al servidor seleccionado.
- El PAM envía una solicitud al administrador activo en el servidor seleccionado para convertirse en el patrón de base de datos.
- El administrador activo en el servidor seleccionado solicita que el servicio de replicación de Microsoft Exchange intente copiar los últimos registros del servidor anterior y establezca la marca de montaje para la base de datos.
- El servicio de replicación de Microsoft Exchange determina el mejor origen del registro entre otros servidores al consultar el número de generación de registro más reciente de cada uno de los respondedores.
- Cada uno de los servidores activos responde con el número de generación de registro.
- El servicio de replicación de Microsoft Exchange copia los registros del servidor que tenía previamente la copia activa de la base de datos.
- El administrador activo lee el número de generación de registro máximo de la base de datos del clúster.
- El servicio de almacén de información de Microsoft Exchange monta la nueva copia activa de la base de datos.
Conmutaciones por error de servidor
Una conmutación por error de servidor sucede cuando el miembro del DAG ya no puede reparar la red MAPI, o cuando el Servicio de clúster en un miembro del DAG ya no puede ponerse en contacto con los miembros del DAG restantes. Como parte de una conmutación por error de servidor, ocurre lo siguiente:
- El Servicio de clúster en el PAM envía una notificación al PAM por una de las dos razones:
- Nodo inactivo El servidor es accesible, pero no puede participar en las operaciones del DAG.
- Red MAPI inactiva No se puede poner en contacto con el servidor mediante la red MAPI; por lo tanto, el servidor no puede participar en las operaciones del DAG.
- Si el servidor es accesible, el PAM contacta al administrador activo en el servidor afectado y solicita que se desmonten todas las bases de datos inmediatamente.
- Para cada copia de base de datos afectada:
- El PAM solicita el estado de la copia de la base de datos de todos los servidores en el DAG.
- El PAM recibe una respuesta de todos los miembros del DAG accesibles y activos.
- El PAM intenta determinar el mejor origen del registro entre todos los servidores que responden al consultar el número de generación de registro más reciente de cada uno de los respondedores.
- Cada uno de los servidores responde con el número de generación de registro.
- El PAM recupera el estado actual del catálogo del índice de búsqueda de la base de datos del clúster.
- Según el número de generación de registro y el estado del catálogo de la copia de cada base de datos, el PAM selecciona las mejores copias para activar.
- El PAM actualiza la ubicación montada de la base de datos en la base de datos del clúster.
- El PAM inicia la conmutación por error de base de datos comunicándose con el administrador activo en uno o más servidores.
- El administrador activo en los servidores seleccionados solicita que el servicio de replicación de Microsoft Exchange intente copiar los últimos registros del servidor anterior y establezca la marca de montaje.
- Cuando la base de datos se puede montar, el administrador activo en los servidores monta la base de datos.
Para obtener más información acerca del mejor proceso de selección de copia del administrador activo, consulte Descripción de Active Manager.