Geschäft

Atlassian macht Fehlkommunikation und „fehlerhaftes Skript“ für Ausfall verantwortlich – Cloud – Software

Atlassian führt den Ausfall auf schlechte Kommunikation und


Sri Viswanath, CTO von Atlassian

Atlassian

Atlassian hat bisher eine achttägige Unterbrechung seiner Dienste für rund 400 Kunden auf eine „Kommunikationslücke“ zwischen Ingenieurteams und ein „fehlerhaftes“ Skript zurückgeführt, das Kundendaten dauerhaft löschte.

Jetzt, da das Unternehmen Fortschritte bei der Wiederherstellung gelöschter Kundenseiten aus dem Backup macht, hat es eine detailliertere Beschreibung veröffentlicht, als es heute früher versprochen hatte.

Die Saat des Ausfalls wurde gesät, als Atlassian ein eigenständiges Produkt, Insight – Asset Management – ​​als native Funktion in seine Jira-Software und Jira Service Management integrierte.

„Aus diesem Grund mussten wir die alte Standalone-App an den Kundenstandorten deaktivieren, auf denen sie installiert war“, schrieb CTO Sri Viswanath.

Er sagte, die Entwicklungsteams hätten beschlossen, ein vorhandenes Skript zu verwenden, um „Instanzen dieser eigenständigen Anwendung zu deaktivieren“.

Es stellte sich als Katastrophe heraus.

Fehlkommunikation zwischen zwei Engineering-Teams – das eine forderte die Deaktivierung von Instanzen an, das andere führte sie aus – führte dazu, dass das Skript nicht mit „den für die Deaktivierung markierten Anmeldedaten der beabsichtigten Anwendung“ ausgeführt wurde, sondern mit „den Anmeldedaten der gesamten Cloud-Site, auf der sich Anwendungen befanden deaktiviert werden”.

Der andere Fehler: Das Skript könnte aufgefordert werden, Websites zum Löschen zu markieren (was eine Wiederherstellung ermöglicht) oder “dauerhaft zu löschen”.

“Das Skript wurde mit dem falschen Ausführungsmodus und der falschen Liste von IDs ausgeführt. Das Ergebnis war, dass etwa 400 Client-Sites unangemessen gelöscht wurden”, schrieb Viswanath.

Der Grund für den längeren Ausfall

Angesichts der Art seines Geschäfts ließ Atlassian diese Sites sichern und wiederherstellen.

Dies passiert, wenn einzelne Clients versehentlich ihre eigenen Umgebungen löschen, und im Falle eines katastrophalen Ausfalls können Sicherungen alle Clients in einer neuen Umgebung wiederherstellen.

Das Entfernen von 400 Kundenstandorten stellte Atlassian jedoch vor ein neues Szenario.

„Was wir (noch) nicht automatisiert haben, ist die Wiederherstellung einer großen Teilmenge von Clients in unserer bestehenden (und derzeit verwendeten) Umgebung, ohne dass dies Auswirkungen auf unsere anderen Clients hat“, erklärte Viswanath.

„Da die bei diesem Vorfall gelöschten Daten nur ein Teil der Datenspeicher waren, die weiterhin von anderen Kunden verwendet werden, müssen wir einzelne Elemente aus unseren Backups manuell extrahieren und wiederherstellen.

„Jede Standortwiederherstellung beim Kunden ist ein langwieriger und komplexer Prozess, der eine interne Validierung und eine abschließende Überprüfung durch den Kunden während der Standortwiederherstellung erfordert.“

Derzeit, schreibt Viswanath, werden Clients in Stapeln von 60 wiederhergestellt, mit einer End-to-End-Wiederherstellungszeit von vier bis fünf Tagen für jeden Client.

Es beschleunigt sich: „Unsere Teams haben jetzt die Fähigkeit entwickelt, mehrere Stapel parallel auszuführen, was dazu beigetragen hat, unsere Gesamtwiederherstellungszeit zu verkürzen“, heißt es in dem Beitrag.

About the author

m-admin

Leave a Comment