Zusammenfassung
Am 10. Januar 2026 kam es bei SCNX zu einem größeren Ausfall, der die Bot-Hosts Nr. 17, 20 und 24 betraf. Dadurch konnten die gehosteten Bots keine Verbindung zu Discord und der internen SCNX-Infrastruktur herstellen. Um das Problem zu beheben, stellte unser Entwicklungsteam einen neuen Server (Bot-Host Nr. 38) bereit und migrierte alle betroffenen Workloads. Nach erfolgreicher Migration der verbleibenden Daten wurde der Vorfall am 11. Januar 2026 als vollständig behoben gemeldet.
Ursachenanalyse
Die Störung wurde durch ein Netzwerkproblem beim Hosting-Anbieter der betroffenen Server verursacht. Dieser Netzwerkausfall unterbrach die Verbindung zwischen den Bot-Hosts, der Discord-API und anderen Teilen des SCNX-Ökosystems. Aufgrund der Schwere und Art der Netzwerkprobleme ist es unklar, ob der Betrieb auf der betroffenen Hardware in Zukunft wieder aufgenommen werden kann.
Auswirkungen
Betroffene Dienste: Bots, die auf den SCNX Bot-Hosts #17, #20 und #24 gehostet werden.
Benutzererfahrung:
Bots konnten keine Verbindung zu Discord herstellen, was zu Ausfallzeiten führte.
In einigen Fällen erschienen Bots online, reagierten aber nur langsam oder konnten das Dashboard nicht laden.
Ausfallzeit: Die gesamte Ausfallzeit für einzelne Bots war auf weniger als 5 Stunden begrenzt, je nachdem, wann der jeweilige Bot automatisch auf den neuen Host migriert wurde.
Zeitleiste der Ereignisse
Alle Zeitangaben beziehen sich auf die in den Systemprotokollen angegebene Zeitzone.
10. Januar 2026
20:35 Uhr: Das Team beginnt mit der Untersuchung von Berichten über Bots auf den Servern 17, 20 und 24, die keine Verbindung zu Discord herstellen können.
21:58 Uhr: Bot-Host Nr. 38 wird als temporärer Host bereitgestellt, um die Servicequalität sicherzustellen. Die automatische Migration der betroffenen Bots beginnt.
22:58 Uhr: Die Migration aller Bots von Server 24 ist abgeschlossen.
23:06 Uhr: Die Migration aller Bots von Server 20 ist abgeschlossen.
23:20 Uhr: Alle aktiven Bots wurden erfolgreich auf Bot-Host #38 verschoben und laufen nachweislich problemlos.
11. Januar 2026
16:09 Uhr: Es wird mit der Abschaltung der betroffenen Hosts begonnen, während mit dem Provider eine dauerhafte Lösung ausgehandelt wird.
18:50 Uhr: Restdaten von Bot-Host #17 werden migriert, und der Außerbetriebnahmeprozess beginnt.
22:24 Uhr: Restdaten von Bot-Hosts #20 und #24 werden migriert, und der Außerbetriebnahmeprozess beginnt.
22:26 Uhr: Der Vorfall wurde als gelöst markiert.
Lösung und nächste Schritte
Der Dienst wurde wiederhergestellt, indem alle aktiven Bots auf einen neuen Knoten, Bot-Host #38, migriert wurden. Nach der Wiederherstellung des Dienstes wurden alle verbleibenden Daten von der betroffenen Infrastruktur migriert.
Um ein erneutes Auftreten zu verhindern:
Infrastruktur-Stilllegung: Die Bot-Hosts #17, #20 und #24 werden derzeit stillgelegt, während wir die Situation bewerten.
Anbieterprüfung: Wir befinden uns in aktiven Gesprächen mit dem Hosting-Anbieter, um dessen fortgesetzte Eignung für unsere Geschäftstätigkeit zu beurteilen.
Verbesserung der Risikominderung: Wir überprüfen unsere internen Prozesse, um sicherzustellen, dass künftige Verbindungsprobleme noch effektiver gemindert werden können.
Wir entschuldigen uns für die entstandenen Unannehmlichkeiten und danken Ihnen für Ihre Geduld während dieser Umstellung.