Freigeben über


Maßnahmen zur Fehlertoleranz auf Komponentenebene

 

Letztes Änderungsdatum des Themas: 2005-05-20

In diesem Abschnitt finden Sie Überlegungen und Strategien für die Erhöhung der Fehlertoleranz einer Exchange 2003-Organisation auf Komponentenebene. Komponentenebene bezieht sich auf die einzelnen Teile der Serverhardware, Speicherhardware und Netzwerkhardware in der Infrastruktur der Organisation. Mit einer effektiven Hardwarestrategie kann die allgemeine Verfügbarkeit eines Systems verbessert werden. Diese Strategien erstrecken sich von der Übernahme allgemeiner sinnvoller Methoden bis hin zur Verwendung kostenaufwendiger fehlertoleranter Geräte.

Die Hardware der Exchange 2003-Organisation umfasst Serverhardware und Netzwerkhardware. Beim Übernehmen einer Hardwarestrategie sollten Sie folgende Punkte beachten:

  • Stellen Sie sicher, dass die Hardware redundant ist.
  • Stellen Sie sicher, dass nur Hardware der Serverklasse implementiert wird.
  • Stellen Sie sicher, dass standardisierte Hardware verwendet wird.
  • Stellen Sie sicher, dass Ersatzhardware bereit steht.

Im folgenden Abschnitt werden die einzelnen Punkte ausführlich erläutert. Bei einer richtigen Auswahl und Bereitstellung kann die Hardware allgemein zum Erfüllen Ihrer Vereinbarungen zum Servicelevel beitragen.

Weitere Informationen zu Strategien für fehlertolerante Hardware und Entwürfe für ständig verfügbare Systeme finden Sie auf der Website zum Microsoft Solutions Framework.

Redundante Hardware

Hardwareredundanz bezieht sich auf die Verwendung mehrerer Hardwarekomponenten für dieselbe Aufgabe. Zum Minimieren der einzelnen Fehlerpunkte in der Exchange 2003-Organisation ist es von besonderer Bedeutung, redundante Server-, Netzwerk- und Speicherhardware zu verwenden. Durch die Hinzufügung von doppelten Hardwarekonfigurationen können ein Daten-E/A-Pfad oder die physischen Serverkomponenten eines Servers ausfallen, ohne den Betrieb eines Servers zu beeinträchtigen.

Welche Hardware zum Minimieren der Anzahl nur einmal vorhandener Systemkomponenten verwendet wird, hängt davon ab, für welche Komponenten Sie Redundanz einplanen möchten. Bei vielen Hardwareanbietern sind Produkte erhältlich, durch die für die entsprechende Server- oder Speicherlösungshardware Redundanz erreicht wird. Einige dieser Anbieter stellen auch vollständige Speicherlösungen zur Verfügung, einschließlich erweiterter Sicherungs- und Wiederherstellungshardware, die für die Verwendung mit Exchange 2003 entwickelt wurde.

Hardware der Serverklasse

Hardware der Serverklasse ist Hardware, mit der ein höherer Grad an Zuverlässigkeit erreicht wird als mit Hardware, die für Arbeitsstationen entwickelt wurde. Beim Auswählen von Hardware für Exchange 2003-Server, Speichersubsysteme und das Netzwerk sollten Sie auf Komponenten der Serverklasse zurückgreifen.

noteAnmerkung:
Traditionell sind bei Servern mit Hardware der Serverklasse auch spezielle Hardware- oder Softwareüberwachungsfeatures enthalten. Wenn in der erworbenen Hardware jedoch keine Überwachungsfeatures enthalten sind, achten Sie darauf, eine Überwachungslösung in Ihrem Entwurfs- und Bereitstellungsplan zu berücksichtigen. Weitere Informationen zur Überwachung als wichtiger Teil der Verwaltung einer fehlertoleranten Organisation finden Sie unter „Implementieren einer Überwachungsstrategie“ in Maßnahmen zur Fehlertoleranz auf Systemebene.

Serverhardware der Serverklasse

Serverhardware der Serverklasse schließt Folgendes ein:

  • Redundante Stromversorgung   Wenn die primäre Stromversorgung ausfällt, wird durch eine unterbrechungsfreie Stromversorgung (USV) und Akkureserven für redundante Server und Festplattenarrays eine sekundäre Stromversorgung zur Verfügung gestellt. Eine USV und eine Akkureserve bieten Schutz gegen Spannungsspitzen und kurzzeitige Stromausfälle, durch die die Server und die darauf gespeicherten Daten beschädigt werden können.

  • Redundante Lüfter   Wenn ein Lüfter nicht mehr funktioniert, wird durch redundante Lüfter sichergestellt, dass im Server eine ausreichende Kühlung erfolgt. Server ohne redundante Lüfter werden u. U. beim Ausfall eines Lüfters automatisch heruntergefahren.

    noteAnmerkung:
    Wenn in einem Serverraum eine bestimmte Temperatur überschritten wird, reichen redundante Lüfter ggf. für den ordnungsgemäßen Betrieb der Hardware nicht aus. Informationen zur Temperaturregelung und zu anderen Sicherheitsmaßnahmen finden Sie unter „Absichern der physikalischen Umgebungsbedingungen der Server“ in Maßnahmen zur Fehlertoleranz auf Systemebene.
  • Redundanter Speicher   Wenn eine Speicherbank ausfällt, wird durch redundanten Speicher sichergestellt, dass weiterhin Speicher zur Verfügung steht. Durch das Kopieren des physischen Speichers (auch als Speicherspiegelung bezeichnet) wird Fehlertoleranz geboten, da der Speicher repliziert wird. Zu den Verfahren der Speicherspiegelung gehören das Einschließen zweier Sätze von Arbeitsspeicher in einem Computer, die gegenseitig gespiegelt sind, sowie die Spiegelung des gesamten Systemstatus, einschließlich Arbeitsspeicher, CPU, Adapter und Bus. Die Speicherspiegelung muss in Zusammenarbeit mit dem OEM (Original Equipment Manufacturer) entwickelt und implementiert werden.

  • ECC-Speicher   Wenn ein Doppelbit-Fehler auftritt, werden von ECC-Speicher (Error Correction Code) Einzelbit-Fehler erkannt und behoben, und der Speicher wird deaktiviert.

  • Redundante Netzwerkschnittstellenkarten   Wenn eine Netzwerkschnittstellenkarte oder eine Netzwerkverbindung ausfällt, wird durch redundante Netzwerkschnittstellenkarten zugesichert, dass die Server weiterhin über Verbindungen mit dem Netzwerk verfügen.

  • Startüberwachungskomponenten   Beim ersten Einschalten des Servers werden Startfehlerbedingungen erkannt, z. B. zu hohe Temperatur oder ein ausgefallener Lüfter.

  • Fehleranzeichen-Überwachungskomponenten   Beim Betrieb des Servers werden Fehleranzeichenbedingungen überwacht. Wenn eine Komponente Anzeichen eines Ausfalls zeigt, z. B. ein Netzteil, eine Festplatte, ein Lüfter oder Speicher, wird vor dem tatsächlichen Ausfall ein Administrator benachrichtigt.
    Ein vom ECC-Speicher erkannter Fehler wird beispielsweise durch den Speicher korrigiert oder in den redundanten Speicher weitergeleitet, sodass ein Serverfehler verhindert wird. Eine sofortige Benachrichtigung wird an einen Administrator gesendet, der das Speicherproblem beheben kann.

  • Hardwareüberwachungskomponenten für Stromausfälle   Wenn ein Stromausfall auftritt, wird durch Software zum Herunterfahren des Systems das Herunterfahren gewährleistet, ggf. in Verbindung mit einer USV.

Speicherhardware der Serverklasse

  • Ein redundantes Speichersubsystem bietet Schutz gegen den Ausfall eines einzelnen Festplattenlaufwerks oder Controllers. Sie sollten die Implementierung der folgenden redundanten Komponenten in Betracht ziehen:
    • Redundante Hardware in den Back-End-Servern zum Anschluss an das externe Array
    • Redundante Pfade zum Festplattenarray
    • Redundante Speichercontroller
  • Darüber hinaus sollten Sie mit RAID-Systemen eine Redundanz der LUNs (Logical Unit Numbers) implementieren. Weitere Informationen zur Implementierung von Fehlertoleranzen für die Back-End-Speicherlösung finden Sie unter „Implementieren einer zuverlässigen Back-End-Speicherlösung“ in Maßnahmen zur Fehlertoleranz auf Systemebene.

Netzwerkhardware der Serverklasse

Netzwerkhardware der Serverklasse schließt Folgendes ein:

  • Redundante Hubs, Switches, Netzwerkadapter und Kabel   Informationen zur Implementierung dieser redundanten Hardware im Netzwerk erhalten Sie bei den Anbietern dieser Komponenten.
  • Redundante Router   Router fallen selten aus. Wenn dies jedoch eintritt, können ganze Serverorganisationen ausfallen. Daher ist es wichtig, über redundante Routingmöglichkeiten zu verfügen. Informationen über Schutzmöglichkeiten gegen Routerausfall erhalten Sie beim Anbieter Ihres Routers.
noteAnmerkung:
Verwenden Sie bei Servern, die besonders zuverlässig sein müssen, feste IP-Adressen (Internet Protocol), und verwenden Sie das DHCP-Protokoll (Dynamic Host Configuration Protocol) nicht. Dadurch wird verhindert, dass beim Ausfall des DHCP-Servers das ganze System betroffen ist. Auf diese Weise wird die Adressauflösung über DNS-Server verbessert, die die von DHCP zur Verfügung gestellte dynamische Zuweisung von Adressen nicht verarbeiten können.

Standardisierte Hardware

Um sicherzustellen, dass Ihre Hardware mit Windows-Betriebssystemen vollständig kompatibel ist, wählen Sie Hardware aus dem Windows Server Catalog.

Übernehmen Sie beim Auswählen von Hardware aus dem Windows Server-Katalog einen Standard für Hardware, und halten Sie sich an diesen Standard soweit wie möglich. Wählen Sie insbesondere einen Computertyp aus, und verwenden Sie in jedem erworbenen Computer die gleichen Komponenten (z. B. die gleichen Netzwerkkarten, Festplattencontroller und Grafikkarten). Die einzigen anzupassenden Parameter sind die Größe des Arbeitsspeichers, die Anzahl der CPUs und die Festplattenkonfigurationen.

Das Standardisieren der Hardware weist die folgenden Vorteile auf:

  • Beim Testen von Treiberaktualisierungen oder Aktualisierungen von Anwendungssoftware ist nur ein Test vor der Bereitstellung auf alle Computer notwendig.
  • Zum Bereitstellen einer angemessenen Menge von Ersatzhardware sind weniger Ersatzteile erforderlich.
  • Das Supportpersonal muss weniger geschult werden, da es mit einem begrenzten Satz von Hardwarekomponenten einfacher vertraut wird.

Ersatzkomponenten und Ersatzserver

Ziehen Sie beim Planen Ihres Hardwarebudgets Ersatzhardware, Ersatzserver und möglichst auch aktive Ersatzserver in Betracht. (In diesem Zusammenhang bedeutet aktiv, dass der Server eingeschaltet ist und jederzeit als Ersatz eines bestimmten Servertyps in der Organisation verwendet werden kann. Wenn diese Ersatzhardwarekomponenten und -server verfügbar sind, kann dies die Möglichkeit zum Ersatz beschädigter Hardware und zum Wiederherstellen nach Hardwareausfällen beträchtlich erhöhen.

Ersatzkomponenten

Berücksichtigen Sie in Ihrem Hardwarebudget unbedingt Ersatzkomponenten, und bewahren Sie diese Komponenten am Standort schnell verfügbar auf. Ein Vorteil bei der Verwendung von standardisierter Hardware besteht in der verringerten Anzahl von Ersatzkomponenten, die am Standort aufbewahrt werden müssen. Wenn beispielsweise alle Festplatten denselben Typ aufweisen und vom selben Hersteller stammen, müssen Sie weniger Ersatzfestplatten lagern.

Die Anzahl der Ersatzkomponenten, die verfügbar sein sollten, ist von der für Ihre Organisation höchstens akzeptablen Ausfallzeit abhängig. Die Marktverfügbarkeit der Ersatzkomponenten stellt eine weitere Erwägung dar. Einige Komponenten wie Speicher oder Prozessoren sind jederzeit einfach zu finden und zu erwerben. Andere Komponenten wie Festplatten werden häufig nicht mehr hergestellt und sind daher kurzfristig mitunter schwer zu finden. Für diese Komponenten sollten Sie den Erwerb von Ersatzteilen beim Kauf der Originalhardware einplanen. Wenn Sie Lösungen von Hardwareanbietern prüfen, sollten Sie außerdem auf Serviceunternehmen oder Anbieter zurückgreifen, die beschädigte Komponenten oder vollständige Server schnell ersetzen.

Ersatzserver

Denken Sie über die Möglichkeit nach, einen Ersatzserver bereitzustellen, möglicherweise sogar einen aktiven Ersatzserver, auf den die Daten automatisch repliziert werden. Wenn durch Systemausfallzeiten hohe Kosten anfallen und Cluster keine sinnvolle Option darstellen, können Sie die Wiederherstellungszeit mithilfe von Ersatzservern verringern. Die Verwendung von Ersatzservern kann auch einen wichtigen Faktor darstellen, wenn ein Serverausfall zu hohen Kosten führt, z. B. Einnahmeverluste durch Ausfallzeiten oder Vertragsstrafen aufgrund der Verletzung einer Vereinbarung zum Servicelevel.

Ein Ersatzserver kann zum schnellen Ersetzen eines ausgefallenen Servers oder in einigen Fällen als Quelle für Ersatzteile dienen. Wenn ein schwerwiegender Serverausfall eintritt, bei dem die Festplatten nicht betroffen sind, ist es außerdem u. U. möglich, die Laufwerke auf dem ausgefallenen Server in einem funktionsfähigen Server einzubauen (möglicherweise bei gleichzeitiger Wiederherstellung der Daten von Sicherungsmedien).

noteAnmerkung:
In einer Clusterumgebung wird dieser Datentransfer automatisch vorgenommen.

Einer der Vorteile bei der Verwendung eines Ersatzservers zum Wiederherstellen nach einem Ausfall besteht darin, dass der ausgefallene Server für ausführliche Analysen zur Verfügung steht. Die Analyse der Fehlerursache ist für die Vermeidung wiederholter Fehler von Bedeutung.

Ersatzserver sollten zertifiziert und ähnlich einem Produktionsserver rund um die Uhr betrieben werden.