Kein Unternehmen ist gegen Katastrophen gefeit – Schäden durch Naturgewalten und Unfälle lassen sich trotz aller Sicherheitsvorkehrungen niemals mit Sicherheit vermeiden. Besonders verwundbar sind Unternehmen heute im IT-Bereich. Daten auf Servern und in Rechenzentren beinhalten oft die wichtigsten Werte eines Unternehmens. Daher können sich Beeinträchtigungen in diesem sensiblen Bereich schnell als fatal erweisen. Ohne geeignete Vorkehrung wird eine solche Katastrophe schnell zu einem wirtschaftlichen Desaster. Maßnahmen, die ein Unternehmen gegen so kritischen Datenverlust absichern können, werden immer wichtiger. Die wichtigsten Konzepte in diesem Zusammenhang sind Business Continuity (BC) und Disaster Recovery (DR).
Unter dem Begriff Disaster Recovery fasst man Maßnahmen zusammen, die nach einem Unglücksfall für die erneute Funktionsfähigkeit der IT-Infrastruktur sorgen sollen. Disaster Recovery umfasst zunächst die Wiederherstellung der Daten, die durch eine Katastrophe gefährdet oder vorübergehend verloren sind, sowie die technischen Maßnahmen, die für diese Wiederherstellung eingeleitet werden müssen. Gleichzeitig gehört aber auch das Reparieren beschädigter oder das Ersetzen zerstörter Hardware zur Notfallwiederherstellung in der IT. Was bedeutet im Unterschied dazu der oft synonym verwendete Begriff Business Continuity?
Aufrechterhaltung des Betriebs
Disaster Recovery beschäftigt sich vorwiegend mit den Maßnahmen, die im Unternehmen die IT nach einem Schadenfall schnell wieder in Schwung bringen, Business Continuity verfolgt im Prinzip das gleiche Ziel – aber aus einer anderen Perspektive. Analog zum betriebswirtschaftlichen Kontinuitätsmanagement umfasst BC Maßnahmen, die ein Unternehmen auch unter übelsten Bedingungen weiter handlungsfähig halten sollen. Dieses Konzept stammt ursprünglich aus dem Militärischen – schon der Urvater der Militärstrategie Sun Tzu beschäftigte sich mit der Frage, wie ein Heerführer seine Pläne trotz unvorhersehbarer äußerer Einwirkungen fortsetzen kann. In dieser Tradition ist Business Continuity vor allem als Krisen- und Risikomangement zu verstehen und wird in Unternehmen oft auch in diese Bereiche eingeordnet. Während Business Continuity vor allem die Prozesskontinuität fokussiert und also auf das Fortsetzen des Betriebs abzielt, umfasst Disaster Recovery die Maßnahmen, die dann auf den Plan treten, wenn die BC-Pläne im Unternehmen aufgrund besonders schwerer Vorfälle den Betrieb nicht mehr sichern können.
Wie für den Ernstfall planen?
Gerade in mittelständischen Unternehmen führen die knappen Ressourcen oft dazu, dass IT-Verantwortliche sich trotz eines vorhandenen Bewusstseins für die Notwendigkeit der Vorsorge nicht ausreichend mit den Vorkehrungen für eine Katastrophe beschäftigen können. Business Continuity mit seinem ganzheitlichen, unterschiedliche Ebenen umspannenden Konzept muss daher oft hinter den – in der Regel wesentlich einfacher gehaltenen – Notfallplänen zurückstecken, die nur im Ernstfall hervorgeholt werden. Leider ist „hervorholen“ auch im Sinne von „herauskramen“ zu verstehen – zwar existieren in vielen Unternehmen Pläne für den Notfall, doch werden diese viel zu selten aktualisiert oder getestet. Dabei ist solche mangelhafte Vorsorge in vielen Fällen ein reines Vabanquespiel mit entsprechend hohem Risiko. Um dieses Risiko einzudämmen, ist eine praxisbezogene Disaster Recovery-Strategie notwendig, die sich an den spezifischen Anforderungen eines Unternehmens ausrichtet. Damit ein Unternehmen nach einem schweren Schaden schnell wieder handlungsfähig ist, muss zuerst sichergestellt werden, dass an den jeweiligen Standorten geschultes Personal für die Maßnahmen vorhanden ist. Andererseits muss sich das Wiederherstellungsverfahren an der maximalen Ausfallzeit (RTO = Recovery Time Objective) eines Unternehmens orientieren, also der Zeit, die vergehen darf, bis ein Server wieder in Betrieb genommen worden sein muss. Die RTO orientiert sich oft an der jeweiligen Branche, da beispielsweise ein Online-Broker andere Anforderungen an die IT-Verfügbarkeit stellt als ein Autohändler. Zusätzlich müssen Unternehmen sich bei der Planung die Frage stellen, wie viel Datenverlust bei einer Katastrophe maximal in Kauf genommen werden kann. Als Faustregel gilt: Je geringer der maximal tolerable Datenverlust, umso größer der Aufwand, der für die Absicherung im Ernstfall aufgewendet werden muss. Der in der Planung bestimmte Zielwert wird dann in Form eines Recovery Point Objectives (RPO) festgelegt.
Maßgeschneidert, aber zeitintensiv: manuelle Wiederherstellung
Wie schnell ein ausgefallener Server wiederhergestellt werden kann, hängt vor allem von der verwendeten Methode ab. Grundsätzlich besteht die Möglichkeit, einen neuen Server mithilfe eines vom alten Server gesicherten Abbilds einzurichten. Dabei können die meisten Vorgänge automatisiert werden (was normalerweise verschiedene Einschränkungen beim Aufbau der Infrastruktur mit sich bringt), oder die Neueinrichtung wird manuell vorgenommen. Bei dieser Methode muss das gesamte Serversystem von Grund auf neu installiert und konfiguriert werden – ein aufwändiger, zeitintensiver Prozess, der meistens mehrere Stunden in Anspruch nimmt und zudem eine hohe Kompetenz beim Administrator voraussetzt. Zwar hilft ein Abbild des alten Servers dabei, den Zustand zu einem bestimmten Zeitpunkt vor der Katastrophe so präzise wie möglich zu rekonstruieren, aber vor dem Hintergrund immer kürzer werdender RTOs ist diese Art der Wiederherstellung nicht mehr zeitgemäß.
Schnell und teuer: automatisierte Wiederherstellung
In den meisten Unternehmen können bei kritischen Applikationen wie E-Mail nur sehr geringe Ausfallzeiten toleriert werden. Daher verliert die manuelle Wiederherstellung zunehmend an Bedeutung: Sie ist zwar vergleichsweise kostengünstig, bringt aber zwangsläufig längere Wiederherstellungszeiten mit sich, in denen der Geschäftsbetrieb stark beeinträchtigt ist oder sogar stillsteht. Daher versuchen immer mehr Unternehmen, wesentliche Prozesse bei der Wiederherstellung zu automatisieren und so den manuellen Zeitaufwand zu reduzieren. Automatisierte Wiederherstellung erfolgt normalerweise über ein Abbild des ausgefallenen Servers, eventuell ergänzt durch Spiegelungs- und Replikationstechnologien, falls der Datenbestand hochverfügbar sein soll. Nach dem Start des Vorgangs genügen in der Regel wenige Mausklicks und der neue Server ist im Durchschnitt binnen weniger Minuten wieder einsatzbereit. Zudem erfordern automatisierte Vorgänge weniger Vorkenntnisse, so dass im Zweifelsfall auch weniger qualifizierte Mitarbeiter vor Ort im Auftrag des Systemadministrators einen Server neu aufsetzen können. Gerade bei einem umfassenden Ausfall, der das IT-Personal enorm in Anspruch nimmt, können so zusätzliche Ressourcen mobilisiert werden.
Plant ein Unternehmen, die Wiederherstellungsmaßnahmen zu automatisieren, treten allerdings mehrere typische Probleme auf. Das größte Hindernis bildete bislang die in den meisten Unternehmen vorherrschende heterogene Hardware-Umgebung. Wenn nicht zwei vollkommen identische Systeme vorliegen, was eher selten der Fall ist, ist das Abbild des ehemaligen Servers auf einer neuen Rechner-Hardware zunächst einmal nicht lauffähig. Die flächendeckende Anschaffung von Reservesystemen, die eine automatische Wiederherstellung sichern sollen, verursacht zudem Kosten, die schnell den Schaden eines Serverausfalls übersteigen können.
Noch schneller: Ausfallschutz durch Clustering
Alternativ kann ein zweiter Server im Stand-by-Betrieb bereitgehalten werden, der dann per Clustering den Betrieb des ausgefallenen Rechners übernimmt. Durch Failover werden im Ernstfall die Server-Funktionen auf einen anderen, dafür bereitstehenden Server übertragen – so ist die Datenverfügbarkeit zu jedem Zeitpunkt gewährleistet. Allerdings verursacht diese Art des Disaster Recovery auch bei Weitem die höchsten Kosten, da permanent Systeme auf Stand-by zur Verfügung gehalten werden müssen. Hier ist auch zu beachten, dass einfache Clustering-Lösungen nur auf identischer Hardware wiederherstellen können. Spezielle Enterprise Lösungen wie Veritas Cluster Server benötigen hingegen lediglich das gleiche Betriebssystem, können aber den Failover auch auf anderer Hardware realisieren. Dennoch empfehlen sich solche Lösungen nur dort, wo die Kosten eines Server-Ausfalls die Mehrkosten der zusätzlichen Hardware und Administration deutlich übersteigen.
Alternative: hardwareunabhängig, schnell und unkompliziert
Neue, hardwareunabhängige Lösungen wie Symantec Backup Exec System Recovery ermöglichen Unternehmen nun, diesen größten Kostentreiber bei der automatisierten Wiederherstellung erheblich zu reduzieren. Dadurch können die Server-Abbilder auf einem System wiederhergestellt werden, das auf Hardware-Ebene nicht mit dem ausgefallenen System identisch sein muss. Kern der automatischen und hardwareunabhängigen Wiederherstellung ist eine Notfall-CD mit einer umfangreichen Sammlung generischer Hardware-Treiber. Durch die Treiber kann auf einem neuen Server zunächst ein funktionsfähiges Windows-System eingerichtet werden, das alle unverzichtbaren Komponenten wie den Windows-Kernel, Treiber für Festplatten- bzw. Raid-Controller und das Plug&Play-System enthält. Auf dieser Basis erfolgt die Rücksicherung des Serverabbilds. Die bereits vorhandene Plug&Play-Fähigkeit des neuen Systems ermöglicht danach die unproblematische Erkennung und Installation aller zusätzlich benötigten Hardware-Treiber. Im Ergebnis liegt ein vollständig an die neue Hardware angepasstes Windows-System mit allen Einstellungen und Applikationen des alten Servers vor. Der einzige Benutzereingriff, der bei dieser Vorgehensweise nötig werden könnte, ist das Zuführen von Hardware-Treibern, die unter Umständen nicht im Pool der Notfall-CD enthalten sind. Diese Arbeit kann jedoch ganz einfach durch Einlegen der entsprechenden Treiber-CDs oder Angeben des Netzwerkpfads durchgeführt werden, erfordert also keine spezielle Qualifikation des Mitarbeiters.
Ob manuell oder automatisiert: Kein Unternehmen kann es sich erlauben, auf eine Vorsorge für Katastrophen vollständig zu verzichten. Welche Methode genau den Anforderungen eines Unternehmens entspricht, hängt dabei in erster Linie vom verfügbaren Budget ab. Die Definition von RTOs und RPOs bezieht äußere Notwendigkeiten mit ein und hilft dem Unternehmen dabei, bei der Wiederherstellung den richtigen Weg zwischen Wunsch und Wirklichkeit zu finden.
Bitte beachten Sie unsere Informationen zum Datenschutz.
blog comments powered by Disqus© 2012 FEiG & PARTNER