Damit im Weihnachtsgeschäft nicht die Lichter ausgehen

Foto: Geralt/Pixabay

Der Black Friday war noch nicht vorbei, da meldete das Handelsblatt bereits die ersten spektakulären Zusammenbrüche von Online-Shops. Wer auf seiner Webseite mitteilen muss, dass der Webshop wegen Überfüllung vorübergehend geschlossen ist, verliert nicht nur Kunden, sondern auch richtig Geld. Schließlich sind die beiden Aktionstage Black Friday und Cyber Monday im Internet die umsatzstärksten Tage des Jahres.

Wie man verhindern kann, dass der Webshop unter einem Besucheransturm zusammenbricht, war Thema im letzten Beitrag. Heute geht es darum, wie Onlineshop-Betreiber einen längeren Komplettausfall verhindern können und das nicht nur im Weihnachtsgeschäft.

Backup oder kontinuierliche Datensicherung?

Es sind nicht nur hohe Besucherzahlen, die E-Commerce Anwendungen in die Knie zwingen können. Fehler in der Konfiguration oder im Programmcode, Hardware-Probleme, Strom- und Leitungsausfälle können ebenfalls dazu führen, dass im Webshop die Lichter ausgehen. Deshalb gehört ein guter Disaster-Recovery-Plan genauso zu den Vorbereitungen für das Weihnachtsgeschäft wie Maßnahmen für eine gleichbleibend gute Verfügbarkeit und Performance.

Wenn nichts mehr geht, ist der Griff zum Backup oft der einzige Notnagel. Doch wie alt ist die letzte Datensicherung? Gerade wenn es tagsüber auf den Seiten heiß hergeht, will man die Server nicht auch noch mit einem Backup belasten. Wenn etwas passiert, riskiert man, die Daten eines ganzen Tages zu verlieren. Die erste Frage, die sich Webshop-Betreiber deshalb stellen sollten, ist: Wie lange darf die letzte Datensicherung maximal zurückliegen, damit der Datenverlust in einem Notfall noch gut verkraftet werden kann. Der resultierende Wert –  das Recovery Point Objective (RPO) – ist die erste Zielvorgabe für das Disaster Recovery.

Recovery Point Objective (RPO): Der auch als Wiederanlaufpunkt bezeichnete Wert beschreibt den maximal tolerierbaren Datenverlust. In der Praxis ist es die Zeitspanne zwischen zwei Datensicherungen, da man davon ausgehen muss, dass bei einem Systemausfall sämtliche Daten seit der letzten Sicherung verloren sind.

Je kleiner das RPO, desto höher die Wahrscheinlichkeit, dass ein tägliches Backup bzw. wenige Snapshots am Tag nicht mehr ausreichen. Mit einer kontinuierlichen Datensicherung, bei der die Anwendungen an einem Ersatzstandort repliziert werden, lässt sich der maximale Datenverlust auf wenige Minuten bzw. sogar Sekunden reduzieren.  Darüber hinaus können Replica-Systeme in einem Notfall schneller in produktive Systeme umgewandelt werden, sodass auch die Ausfallzeit kürzer ist als bei einer Wiederherstellung aus den Backups. Das bringt uns zu der zweiten entscheidenden  Frage für die Disaster-Recovery-Planung, nämlich die nach der Wiederherstellungszeit oder dem Recovery Time Objective (RTO). Oder anders formuliert: Wie lange können wir mit einem nicht erreichbaren bzw. nicht funktionstüchtigen Webshop leben?

Recovery Time Objective (RTO):  Die Wiederanlaufzeit (häufig identisch mit der Wiederherstellungszeit) ist die maximale Zeitspanne, die nach einem Schaden bis zur vollständigen Wiederherstellung arbeitsfähiger Systeme vergehen darf.

Plan B aus der Cloud

Gerade für E-Commerce Anwendungen kann eine zuverlässige und schnelle Wiederherstellung des Betriebs nach einem Notfall existenzentscheidend sein. Die Cloud hat das Angebot an dazu passenden Disaster-Recovery-Lösungen deutlich erweitert und vor allem auch bezahlbar gemacht. Dort können nicht nur Offsite-Backups sicher und preiswert gespeichert werden, auch der komplette Webshop kann in die Cloud repliziert und bei Bedarf in einem virtuellen Backup-Rechenzentrum wieder aktiviert werden. Das Gesamtpaket gibt es auch als auch Managed Service, wobei  der Kunde im Idealfall die Kontrolle über die Replikation und das Failover, also das Umschalten in die Cloud behält. Um alle Vorteile eines cloudbasierten Disaster Recovery Services optimal nutzen zu können, sollten bei der Lösungswahl ein paar Punkte beachtet werden:

Gute Integrierbarkeit: Am besten ist natürlich eine Software, die alle eingesetzten Systeme unterstützt und zentral gemanagt werden kann. Bei virtualisierten Infrastrukturen sind hypervisor-basierte Lösungen die erste Wahl. In der Regel wählt man für die Replicas die gleiche Plattform (VMware, Microsoft Hyper-V  etc.) wie für die Produktivsysteme. Einige Lösungen unterstützen inzwischen auch schon eine plattformübergreifende Replikation.

Anwendungsorientierte Replikation: Das Ziel sind betriebsbereite Anwendungen. Deshalb sollte Maschinen anwendungsbezogen gruppiert und gemeinsam repliziert und wiederhergestellt werden können.

Wenig Belastung für Produktivsysteme:  Gerade im Weihnachtsgeschäft können Shopsysteme keine zusätzliche Last gebrauchen. Deshalb sind auch hier hypervisor-basierte Lösungen, die ohne Snapshots auskommen, klar im Vorteil.

Speicherung von Wiederherstellungspunkten:  Eine Replikationslösung, die nicht nur den letzten Zustand speichert, sondern auch noch eine bestimmte Anzahl von Wiederherstellungspunkten, kann in bestimmten Situationen viel Zeit und Nerven sparen. Wurde der Ausfall zum Beispiel durch Viren oder einen Bug in der Software verursacht, möchte man zu einem früheren, noch fehlerfreien Zustand zurück, den man sonst nur mühsam aus den Backups rekonstruieren könnte.

Ausreichend Bandbreite: Moderne Replikationssoftware komprimiert Inhalte und sorgt für ein optimales Bandbreitenmanagement. Müssen regelmäßig größere Datenmengen repliziert werden, sollte ausreichend Bandbreite für das VPN vorhanden sein. Unter Umständen ist eine Direktverbindung zum Cloud Provider sogar die bessere Lösung.

Automatisiertes Failover:  Der ganze Aufwand lohnt sich nur, wenn in einem Notfall die Ersatzsysteme so schnell wie möglich online gehen können. Deshalb sollte auch die Netzwerkkonfiguration entsprechend vorbereitet sein. Nicht zu vergessen die Integration der externen Systeme für Marketing, Logistik, Zahlungsabwicklung usw., ohne die heute kaum noch ein Webshop auskommt.

Automatisiertes Testen: Wie beim Backup gilt auch beim Disaster Recovery: Vertrauen ist gut, Testen ist besser! Der RPO-Wert sollte ständig überwacht und die Wiederherstellungszeit regelmäßig  getestet werden können. Allerdings wissen wir alle, je aufwendiger das Testen, desto geringer die Wahrscheinlichkeit, dass es auch gemacht wird. Deshalb bieten moderne Disaster-Recovery-Lösungen automatisierte Testabläufe ohne Beeinträchtigung der Produktivsysteme und ohne Unterbrechung der Replikationsprozesse.

Kontinuierliche Datensicherung UND Backup

Wer sich für eine kontinuierliche Datensicherung mit Replikation in die Cloud entscheidet, sollte sein Backup nicht gleich abschalten. Wenn nur ein paar Dateien rekonstruiert werden sollen, ist ein lokales Backup die schnellere Lösung. Auch eine virtuelle Maschine lässt sich schneller aus einem Snapshot wiederherstellen. Außerdem können Backups viel länger aufbewahrt bzw. archiviert werden. Erst mit einem Mix aus lokaler Datensicherung, Offsite-Backup und einer Disaster-Recovery-Lösung, die sich an den eigenen Zielvorgaben orientiert, ist ein Webshop für alle (Not)-Fälle gerüstet.