Moderne Notfallplanung
Unternehmen müssen ihre Disaster-Recovery professionalisieren - Ob Ransomware oder Naturkatastrophe – wer im Notfall den Geschäftsbetrieb aufrechterhalten möchte, braucht Disaster-Recovery-Pläne. Worauf Unternehmen dabei achten müssen und wie sie eine orchestrierte Notfallwiederherstellung umsetzen können, beschreibt unser Autor.
Wer seine Daten im Ernstfall schützen will, muss einsehen, dass Disaster-Recovery-(DR)-Pläne einen hohen personellen und zeitlichen Aufwand erfordern, um auf die Anforderungen des Unternehmens abgestimmt zu sein. Bei DR geht es vor allem um eins: Die IT-Abhängigkeiten nach der Geschäftsfunktionalität auszurichten und dann zu bestimmen, wie diese Geschäftsprozesse fortbestehen können, falls die IT-Systeme unterbrochen werden. Dazu gehört nicht nur die Ausfallsicherung von Servern. Es geht auch um die Planung des Umzugs von IT-Ressourcen und die Gewährleistung, dass Pläne und Prozesse gut dokumentiert sind und so wenig wie möglich von Menschen abhängen.
Deshalb müssen Anwendungen digital widerstandsfähig sein, um Geschäftsprozesse aufrechterhalten zu können. Damit sie wiederum ausfallsicher sind, müssen auch Server wiederhergestellt werden können, nicht nur Daten. Der Prozess, das auf alternativen Infrastrukturen – vor Ort, außerhalb des Unternehmens oder in der Cloud – zu tun, ist nicht trivial und erfordert eine sorgfältige Planung. Dafür sind drei Dinge erforderlich:
- Orchestrierte Workflows, die zwar von Menschen geplant, aber automatisiert ausgeführt werden
- Routine-Tests dieser komplexen Workflows mit einer isolierten Sandbox, um das Produktionsnetzwerk und die Ressourcen nicht zu beeinträchtigen
- Service-Level-Agreements (SLA), die überwacht werden, sowie die Dokumentation der Prozesse und Bereitschaft im Ernstfall
Faktor Mensch
Wie so oft in der Cybersicherheit ist der menschliche Faktor eine Gefahr. Denn es zeigt sich immer wieder, dass viele Mitarbeiter die genannten drei Schlüsselanforderungen nicht fehlerfrei umsetzen können. Das hat beispielsweise folgende Ursachen:
- Inkonsistente Ausführung detaillierter Aufgaben auch unter Stress oder über mehrere verschiedene Server hinweg – und das oft gerade in Krisenzeiten wie einer Naturkatastrophe oder einem Cyberangriff
- Unvollständiges Prüfen, weil Mitarbeiter Tests oft als weniger wichtig ansehen oder im Alltag anderen Aufgaben unterordnen
- Die Verantwortlichen vernachlässigen die Überwachung und Dokumentation, weil sie diese Aufgaben als noch weniger dringlich und wichtig bewerten als das Testen
Silo vs. Orchestrierung
Um dem entgegenzuwirken und um die eigenen Daten vor physischen (zum Beispiel Bränden, Erdbeben, Überflutung, Sabotage) und digitalen Gefahren (beispielsweise Ransomware-Angriffen) zu schützen, sollten Unternehmen ihre DR-Maßnahmen aufeinander abstimmen. Eine solche Orchestrierung sollte stets in enger Kooperation mit der hauseigenen IT-Architektur stattfinden. Ist das nicht der Fall, spricht man von sogenannten Silo-Lösungen, die für sich allein stehen, aber nicht an andere Sicherheitslösungen im eigenen Netzwerk angepasst und daher zu vermeiden sind.
Wie wichtig die Integration von DR in die bestehende IT-Sicherheitsarchitektur ist, haben die meisten Firmen bereits erkannt: So haben einer Studie zufolge 82 Prozent aller Unternehmen ihre Disaster-Recovery- und Business-Continuity-Maßnahmen vollständig oder größtenteils an der IT-Sicherheit ausgerichtet (vgl. www.veeam.com/wp-data-protection-trends-report-2023.html). Vor dem Hintergrund, dass 85 Prozent der befragten Organisationen mindestens von einer Ransomware-Attacke jährlich getroffen werden und einer von vier Servern mindestens einmal im Jahr ausfällt, ist eine perfekt abgestimmte Orchestrierung für den Ernstfall wichtiger denn je.
Die zweite Frage, die sich Unternehmen stellen müssen, lautet, wo ihre Daten wiederhergestellt werden sollen. Der Status quo verteilt sich laut Studie auf zwei Szenarien: 54 Prozent aller Organisationen stellen ihre Daten On- Premises, also innerhalb des Firmennetzwerks, wieder her. 46 Prozent nutzen dafür die Cloud – meist mithilfe einer Hyperscaler-Lösung wie AWS, Azure oder Google Cloud und wahlweise über die Nutzung virtueller Maschinen oder dem automatischen Rückgriff auf die Backup-Server im Katastrophenfall. Da Unternehmen diese zwei Lösungen oft kombinieren, steigt die Komplexität und eine durchgeplante, automatisierte Strategie, die im Notfall greift, wird unumgänglich. Denn „von Hand“ ist das nicht zu verwalten. Jedoch verfügen lediglich 18 Prozent aller Organisationen über orchestrierte Workflows – die restlichen 82 Prozent verlassen sich auf (teils veraltete) Skripte oder stellen die Arbeitsprozesse manuell wieder her. Im schlechtesten Fall werden diese ohnehin weniger verlässlichen Maßnahmen nicht einmal regelmäßigen Tests unterzogen, um deren Funktion zu prüfen.
DR ist mehr als bloße Notfallübung
Genau hier liegt der Unterschied zwischen einer Sicherungsroutine „nach Vorschrift“ und DR als verlässlichem Notfallplan. Aus guten Gründen gibt es in regelmäßigen Abständen Alarmübungen in Schulen, bundesweite Warntage und Sirenentests: Simulierte Krisen stellen Notfallpläne auf die Probe, um festzustellen, ob sie schützen können, was sie schützen sollen. Warum sollte man bei der Datensicherung anders verfahren? Entsprechend müssen Tests der DR-Pläne routinemäßig automatisiert stattfinden und dokumentiert werden.
Hier stellen sich für Organisationen zwei weitere Fragen: Wie schnell sollen die eigenen Daten im Notfall wiederhergestellt werden können (Recovery Time Objectives – RTO) und welches Maß an Datenverlust ist für den Wiederbetrieb verkraftbar (Recovery Point Objective – RPO)? In beiden Fällen einen Wert gegen null anzustreben, ist nicht überambitioniert, sondern die einzig richtige Herangehensweise, wenn man sich vor Augen hält, wie hoch die Kosten eines Betriebsausfalls sein können: 2021 haben IT-Verantwortliche die Kosten auf über 80.000 Euro pro Stunde geschätzt.
Ein weitverbreiteter Irrtum, besonders unter Führungskräften, die sich um die Produktivität sorgen, ist die Annahme, dass regelmäßige Tests den Tagesbetrieb behindern. DR-Tests lassen sich jedoch – ob geplant oder nach Bedarf – ohne Beeinträchtigung der Mitarbeiter im Hintergrund durchführen. Generell schließt die Orchestrierung dedizierter DR-Pläne die Zugänglichkeit nicht aus: Sowohl einzelne Anwendungen als auch umfangreiche Dateien können mit der richtigen Lösung mit nur einem Klick wiederhergestellt werden. Die Vorteile reibungsloser Orchestrierung lassen Verantwortliche darüber hinaus auch vor Audits ruhig schlafen. Denn regelmäßig getestete, funktionierende und vor allem dokumentierte und daher vorzeigbare Wiederherstellungsverfahren sind ein Exzellenzkriterium für Prüfer. Compliance-konforme Pläne schließen damit wiederum den Kreis zu den zuvor gesetzten Zielen in puncto RPO und RTO: Wer nachweist, dass die eigenen DR-Pläne Daten schnell und lückenlos wiederherstellen, kommt bei einem Betriebsausfall in kurzer Zeit wieder auf die Beine und glänzt zusätzlich bei jährlichen Audits.
Mit der Zeit gehen
Orchestrierte Disaster-Recovery sollte ein Teil einer jeden Unternehmensstrategie sein. Um den digitalen und analogen Gefahren, denen Daten ausgesetzt sein können, Herr zu werden, sind definierte, automatisierte und orchestrierte Schritte nötig, die menschliche Flüchtigkeitsfehler eliminieren. Besonders die Tests in einer isolierten Sandbox sind unverzichtbar, um festzustellen, ob die internen Gegenmaßnahmen trotz sich verändernder Gegebenheiten ihren Zweck erfüllen. Manuelle Prozesse und alte Skripte als Notfall Lösung müssen der Vergangenheit angehören, damit Daten im Rechenzentrum, in der Cloud oder in hybriden Umgebungen lückenlos geschützt werden und jederzeit verfügbar sind.
Thomas Sandner ist Senior Director Technical Sales Germany bei Veeam Software.