Auf Grund eines Blitzschlags in direkter Nähe der Data Center von Amazon/Microsoft in Dublin, eines der größten und modernsten Rechenzentren in Europa, war SalesKing am Montag nicht erreichbar. In Folge liefen die Backup-Generatoren nicht richtig an und Teile des Datencenter waren ohne Stromversorgung. (mehr auf heise.de, computerwoche.de)

Unsere Infrastruktur war davon nur in einem Punkt betroffen: zwei virtuelle Festplatten(EBS Volumes) mit Datenbank(DB)+Backups des Live Systems. Die Server liefen, genau wie 10 weitere Volumes für Caching und das Dev-System. Die bisherige Strategie DB-Backups auf einem zweiten EBS in der gleichen Zone(Availablity Zone 1a) vorzuhalten, war Ursache der Verzögerung. Daneben wurden die Backups zeitverzögert auf einen externen Speicherplatz(Amazon S3) verschoben.

Wir hätten mit diesen externen Backups innerhalb von 5 Minuten eine neue Cloud starten können, doch wir entschieden uns auf die Wiederherstellung der Volumes zu warten, da diese den aktuellsten Stand hatten. Am Dienstag Morgen war die Wiederherstellung noch nicht vorhanden. Weil wir nicht noch einen Tag offline sein wollten starteten wir unsere Cloud mit dem aktuellsten externen Backup.
Am späten Nachmittag erhielten teilte Amazon mit dass die Daten eines EBS wieder verfügbar sind, doch bis heute(Mittwoch) halten die Probleme an(siehe heise.de).

Der erste, bereits am Dienstag implementierte, Schritt ist Backups in höherer Frequenz zu S3 zu überspielen. Daneben evaluieren wir den Einsatz von Percona XtraBackup für unterbrechungsfreihe inkrementelle Backups in noch kürzeren Zyklen. Weitherhin liegen die EBS  in einer anderen Zone.

Dank der großen Unterstützung unseres Partners Scalarium konnten wir diese Ausnahmesituation bewältigen. Auch bestärkt es uns in der Nutzung einer solchen Infrastruktur, denn eine Vielzahl von Spezialisten gibt alles zur Behebung solcher Ausfälle.