Konzeption und Umsetzung von Disaster Recovery-Strategien

 

Stillstand ist tödlich

 

(15.03.02) – Kern jeder Disaster Recovery-Strategie ist die richtige IT-Lösung für die schnelle Wiederherstellung der Systeme. Der Markt bietet heute ein breites Angebot an Technologien für Datensicherung und Hochverfügbarkeit. Je mehr Sicherheit sie liefern, desto kostspieliger und komplizierter sind diese Lösungen aber auch. Doch nicht jede IT-Umgebung stellt dieselben Anforderungen. IT SecCity zeigt Ihnen, worauf es bei Disaster Recovery-Strategien ankommt, welche Analysen gefahren werden müssen und welche Technologien zur Verfügung stehen.

Behandelte Themen in diesem Artikel:

Ø      Individuelle Anforderungen erkennen

Ø      Handlungsabläufe planen

Ø      Disaster Recovery: Wichtige Technologien

 

Vorbeugen besser als Heilen

 

Trotz aller Warnungen namhafter Experten sind viele Firmen noch immer nicht ausreichend auf Katastrophen vorbereitet, wie sie am Tag der Terroranschläge am 11. September Unternehmen und Regierungsstellen in New York und Washington erlebt haben. Dabei gibt es weit mehr Ursachen für einen Systemausfall, als man vielleicht denkt. Stürme und Hochwasser, Diebstahl und Sabotage, Brände, Stromausfälle, Computerviren sowie Fehler und Versagen von Soft- oder Hardware stellen ein permanentes Risiko für Computersysteme dar.

Auch das ungebrochen starke Datenwachstum ist ein Gefahrenpunkt: Laut einem Bericht der Gartner Group verzeichnen Rechenzentren im Schnitt einen jährlichen Datenzuwachs von 50 bis 80 Prozent. Größere Datenbestände bedeuten aber automatisch auch mehr Systeme und Anwendungen. So findet sich in Unternehmen heute eine Vielzahl Applikationen wie Datenbanken, CRM- oder ERP-Anwendungen, Workflow- und Office-Programme, Messaging-Systeme und natürlich Branchenlösungen und Eigenentwicklungen, die oft auf unterschiedlichsten Plattformen laufen und alle von Administratoren und Endanwendern beherrscht werden müssen. Je komplizierter und umfassender eine Umgebung ist, desto höher ist aber auch die Gefahr, dass Daten durch Kompatibilitätsprobleme zwischen Hard- und Software-Ressourcen oder einfach aus Versehen verändert, beschädigt oder sogar gelöscht werden.

Wie gravierend Versäumnisse bei der Vorsorge sein können, zeigt eine Studie der Gartner Group aus dem Jahr 2001: Danach müssen zwei von fünf Unternehmen, deren Systeme als Folge einer Katastrophe zerstört werden oder längere Zeit nicht verfügbar sind, innerhalb von fünf Jahren Konkurs anmelden.

Contingency Planning Research/Datamation berechnet den direkten finanziellen Verlust bei nur einer Stunde Ausfallzeit einer Anwendung für Flugreservierungen auf 108.000 Dollar. Bei einer Anwendung für Kreditkartentransaktionen beläuft sich diese Summe bereits auf 3.160.000 Dollar, und im Wertpapierhandel muss mit Einbußen von fast 8 Millionen Dollar in nur einer Stunde Downtime gerechnet werden.

Ein Ausfall zieht außerdem eine Reihe weiterer Konsequenzen nach sich, die ein Unternehmen schlimmstenfalls ihre Existenz kosten können. Dazu zählen etwa der Verlust bestehender und potenzieller Kunden, Kosten für Administrationspersonal oder Regressforderungen von Kunden und Geschäftspartnern. Nicht zu unterschätzen sind auch die negativen Auswirkungen auf das Image des Unternehmens in der Öffentlichkeit sowie der langfristige Einfluß auf Geschäftsbilanzen und Aktienkurs.

Haben Unternehmen jedoch ausreichende Disaster Recovery-Strategien, kann der Schaden erfolgreich eingegrenzt werden. So konnte Veritas Software die Daten von über 105 durch die Terroranschläge auf das World Trade Center betroffener Kunden zu 100 Prozent wiederherstellen. Dafür genügte in manchen Fällen schon eine einfache Sicherungskopie des Datenbestandes. Auch ein geringes Maß an Vorsorge kann also bereits eine große Wirkung haben kann, wenn dabei bestimmte Regeln beachtet werden.

 

 

Schritt 1: Individuelle Anforderungen erkennen                                            (zurück)

 

Kern jeder Disaster Recovery-Strategie ist die richtige IT-Lösung für die schnelle Wiederherstellung der Systeme. Der Markt bietet heute ein breites Angebot an Technologien für Datensicherung und Hochverfügbarkeit. Je mehr Sicherheit sie liefern, desto kostspieliger und komplizierter sind diese Lösungen aber auch. Doch nicht jede IT-Umgebung stellt dieselben Anforderungen.

Es sollte deshalb zunächst genau abgewägt werden, wie lange ein Unternehmen im Notfall auf seine Systeme verzichten könnte, ohne dauerhaft Schaden zu nehmen. Dazu dienen folgende Analysen:

 

Bestandsanalyse

Dabei wird genau aufgelistet, welche Anwendungen wo im Unternehmen implementiert sind, auf welchen Plattformen sie laufen und welche Ressourcen benötigt werden, um ihren reibungslosen Betrieb zu gewährleisten. Das garantiert, dass wirklich alle Organisationsebenen und Abteilungen eines Unternehmens vom High-End-Server bis hin zu Laptops und Desktops von Außendienstmitarbeitern und in Home Offices in die Disaster Recovery-Strategie einbezogen werden.

Gefahrenanalyse

Welche Gründe es für einen Daten-GAU geben kann, wurde bereits beschrieben. Die IT-Umgebung sollte genau auf alle Schwachstellen hin untersucht und ein individuelles Worst-Case-Szenario skizziert werden.

Anfälligkeitsanalyse

Wurden die potenziellen Risiken für das Unternehmen und die IT-Systeme identifiziert, müssen auch die individuellen Risiken für jede einzelne Anwendung analysiert werden. Daraus erkennt man, welche Geschäftsprozesse und Applikationen besser gesichert werden müssen und welche bereits mit minimalem Aufwand ausreichend geschützt werden können.

Kostenanalyse

Aus den nun gewonnenen Erkenntnissen über den individuellen Sicherheitsbedarf eines Unternehmens lässt sich berechnen, welche Kosten im Rahmen der Disaster Recovery-Strategie für den Schutz einzelner Anwendungen und des ganzen Unternehmens entstehen.

Risikoanalyse

Durch das Einbeziehen von Kriterien wie Service Level Agreements, Umsatz oder Personalkosten erkennt man schließlich, wie sich ein Systemausfall auf das gesamte Unternehmen auswirken könnte und wie lange er maximal dauern darf.

Wichtig ist aber nicht nur, wieviel Ausfallzeit ein Unternehmen verkraften kann, sondern ebenso, wie hoch der Datenverlust maximal sein darf. Auch das ist ausschlaggebend für die richtige Wahl der Disaster Recovery-Software. So müssen zum Beispiel Banken und Finanzdienstleister Datenverluste ganz ausschließen und setzen daher Technologien für synchrone Replikation ein, die die Erstellung einer konstant aktuellen Kopie des Datenbestandes ermöglichen. Andere Unternehmen kommen mit herkömmlichen Tape Backups aus: Wird damit täglich gesichert, gehen höchstens die Änderungen der letzten Stunden vor einem Ausfall verloren.

Die beiden Faktoren werden anhand der Kenngrößen Recovery Point Objective (RPO) für den möglichen Datenverlust und Recovery Time Objective (RTO) für die Ausfallzeit berechnet.

Auch innerhalb eines Unternehmens können unterschiedliche Anforderungen an RTO und RPO bestehen. Ein Datei- oder Print-Server etwa muss im Allgemeinen lange nicht so gut vor Systemausfällen und Datenverlust geschützt werden wie ein Online-Bestellsystem. RPO und RTO können auch völlig verschieden gewichtet werden: Ein Buchungssystem kann sich keinen Datenverlust erlauben und erfordert daher einen sehr hohen RPO-Wert, muss aber nicht unbedingt sofort nach einem Ausfall wieder in Betrieb gehen, wenn etwa außerhalb der Öffnungszeiten nicht auf die Daten zugegriffen wird. In diesem Fall kann das RTO weniger hoch sein. Auf der anderen Seite ist beispielsweise ein Web-Server gegenüber Datenverlusten relativ tolerant, muss aber konstant verfügbar sein. Daraus folgt für diese Anwendung ein hoher RTO- und ein niedriger RPO-Faktor.

Die Berechnungen, die der Implementierung einer Disaster Recovery-Lösung vorausgehen, sollten so genau wie nur möglich sein, denn auch eine kleine Lücke in der Planung kann im Katastophenfall unvorhersehbare Folgen haben. Auf Disaster Recovery spezialisierte IT-Hersteller bieten deshalb professionelle Consulting-Teams, die in Zusammenarbeit mit Unternehmen deren genauen Bedarf an Datensicherheit und -verfügbarkeit untersuchen. Diese Analyse sollte auch eine Prüfung der Effizienz bereits vorhandener Hochverfügbarkeits- und Disaster Recovery-Lösungen einschließen, deren Ergebnisse mit den errechneten Anforderungen verglichen werden. So lässt sich genau feststellen, wo Verbesserungen gemacht werden können, und oft können Neuinvestitionen in kostspielige Hardware durch eine effizientere Nutzung der bestehenden Ressourcen vermieden werden.

 

Schritt 2: Handlungsabläufe planen                                                               (zurück)

 

Auch ein durchdachter Handlungsablauf für den Fall eines Daten-GAUs ist essenzieller Bestandteil jeder wirksamen Katastrophenplanung. Die wichtigsten Schritte sind:

1.      Das Finden und Analysieren der Fehlerquelle

2.      Das Wiederherstellen der wichtigsten Daten

3.   Das Wiederherstellen des kompletten Systems

Für die Durchführung dieser drei Phasen ist es wichtig, dass die dafür nötigen Ressourcen jederzeit zugänglich und für mehrere Personen verfügbar sind. Was nützt Ihnen eine CD mit den wichtigsten Systemdaten für ein schnelles Disaster Recovery, wenn ihren Aufbewahrungsort nur der Mitarbeiter kennt, der gerade nicht erreichbar ist? Sinnvoll ist es deshalb, ein Team zu bilden, dessen Mitglieder immer alle über alle nötigen Informationen verfügen. So kann im Notfall jeder Einzelne das Kommando übernehmen. Es sollten dabei wenn möglich Mitarbeiter aus mehreren Niederlassungen einbezogen werden - schließlich war eines der größten Probleme bei der Wiederherstellung der Systeme nach dem 11. September 2001 ein extremer Mangel an Manpower und Know-how, da teilweise ganze IT-Abteilungen bei den Anschlägen umgekommen sind.

Die einzelnen Schritte des Disaster Recovery-Planes müssen schriftlich hinterlegt werden, damit sie auch dann verfügbar sind, wenn es der verantwortliche Administrator nicht ist. Der Aufbewahrungsort des schriftlichen Planes sowie wichtiger Ressourcen wie der Backup-Bänder muss bekannt und problemlos zugänglich sein. Wichtig ist es, immer wieder zu überprüfen, ob die Strategie noch zu den aktuellen Anforderungen passt. Die IT-Lösung sollte skalierbar und flexibel genug sein, um auch veränderten Geschäftsbedingungen noch gerecht zu werden. Regelmäßige Tests zeigen, ob der Plan im realen Fall funktionieren würde.

Kurze Entscheidungswege sparen im Notfall wertvolle Zeit, es sollte also nicht auf Hierarchien bestanden werden. Eine Verzögerung von nur zehn Minuten kann bereits immense Kosten verursachen, alle am Disaster Recovery-Team beteiligten Mitarbeiter müssen deshalb die Freiheit haben, schnell und konsequent zu handeln.

Je besser ein Unternehmen auf einen gravierenden Systemausfall vorbereitet ist und alle beschriebenen Punkte beachtet, desto geringer ist die Gefahr schwerwiegender Folgen, wenn es doch einmal zu einer Katastrophe kommt. Disaster Recovery-Strategien gehören heute deshalb nicht nur zur Verantwortung der IT-Abteilung, sondern auch auf die Agenda der Geschäftsleitung. (Achim Deboeser/ma)

 

 

 

Disaster Recovery: Einige wichtige Technologien

 

·         Backup: Das regelmäßige Kopieren von Daten auf Speichermedien, zum Beispiel Magnetbänder. Im Notfall können die Daten von den Sicherungskopien zurückgespielt werden.

·         Cluster: Ein gekoppeltes System von mindestens zwei Rechnern, auch Knoten genannt, das nach außen hin wie ein einzelnes System erscheint und trotz Ausfall von Systemkomponenten eine angeforderte Dienstleistung weiter liefern kann. Ein Cluster dient zur Verbesserung der Zuverlässigkeit, Verfügbarkeit, Administrierbarkeit und Performance eines Systems.

·         Failover: Übergabe aller aktiven Anwendungen eines havarierten auf den stellvertretenden Knoten. Der Anwender erfährt bei einem Failover nur eine minimale Unterbrechung und verliert lediglich die direkt vor dem Systemabsturz eingegebenen Daten.

·         Redundanz: Mehrfaches Vorkommen von Komponenten in einem System. Redundante Komponenten können die Services einer ausgefallenen Komponente sofort zu übernehmen, um ununterbrochenen Betrieb des Systems zu gewährleisten.

·         Spiegeln oder Mirroring: Daten werden gleichzeitig auf verschiedene Medien wie Festplatten geschrieben und damit maximale Redundanz gewährleistet. Fällt eine Festplatte aus, arbeitet das Betriebssystem mit der zweiten weiter, die über einen identischen Datenbestand verfügt.

·         Replikation: Das Kopieren von Daten, um maximale Verfügbarkeit sicherzustellen. Die Kopien sind oft in unterschiedlichen Standorten zu finden, was zusätzliche Sicherheit bietet.                                                   (zurück)

 

 

Das Grundlagenwissen dieses Artikels wurde uns von Veritas bereit gestellt. Achim Deboeser ist Geschäftsführer Deutschland und Regional Director von Veritas Software.

 

Weitere Informationen:

Veritas Software

Tel. (089) 94302-500

Fax (089) 94302-550

E-Mail: CE.Sales@veritas.com

Web: www.veritas.com

E-Mail-Service:

Sie sind an regelmäßigen

Informationen aus dem Bereich

IT-Security interessiert?

Nutzen Sie unseren kostenlosen

E-Mail-Service!

Sagen Sie uns Ihre Meinung:

Hat Ihnen der Artikel gefallen?

Haben Sie andere Erfahrungen

gemacht? Haben Sie Informationen

für uns?

Treten Sie mit uns in Kontakt!

 

 

Diesen Beitrag per E-Mail versenden Diesen Beitrag ausdrucken