Kurzer Zwischenstatus nach dem ›Vorfall‹ im Gütersloher RZ …

Nach Problemen im November 2015 hat’s im Gütersloher Datacenter erneute Energieprobleme gegeben; dabei hat’s auch ein paar unserer Server erwischt. Von den 6 Hosts, die unser verteiltes Dateisystem, »LizardFS« realisieren, sind zwei betroffen gewesen:

Linux colosses 4.4.0-64-generic #85-Ubuntu SMP Mon Feb 20 11:50:30 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux - 17:49:03 up 26 days, 12:08, 2 users, load average: 1,29, 1,33, 1,31
Linux conquest 4.4.0-62-generic #83-Ubuntu SMP Wed Jan 18 14:10:15 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux - 17:49:04 up 39 days, 15:08, 0 users, load average: 1,62, 1,85, 1,90
Linux inflexible 4.4.0-62-generic #83-Ubuntu SMP Wed Jan 18 14:10:15 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux - 17:49:04 up 49 days, 17:14, 0 users, load average: 1,76, 1,51, 1,41
Linux steadfast 4.4.0-70-generic #91-Ubuntu SMP Wed Mar 22 12:47:43 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux - 17:49:05 up 1 day, 1:53, 0 users, load average: 0.31, 0.33, 0.37
Linux skyhook 4.4.0-70-generic #91-Ubuntu SMP Wed Mar 22 12:47:43 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux - 17:49:05 up 1 day, 12:33, 0 users, load average: 1.19, 0.77, 0.51
Linux thunderflare 4.4.0-62-generic #83-Ubuntu SMP Wed Jan 18 14:10:15 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux - 17:49:05 up 49 days, 16:27, 0 users, load average: 0.91, 0.99, 0.97

Noch schlimmer war der ›Impact‹ bei unseren drei Altsystemen; keines kam automatisch wieder hoch, eines davon verweigerte sich auch dem Einschaltbefehl per Fern­wart­ungs­zu­gang, sodaß jemand im RZ das Ein­schalt­knöpfchen drücken mußte. Das System ohne Fernwartungszugang befindet sich in einem undefinierten Zustand, es ist nicht ansprechbar.

Linux azrael 3.13.0-114-generic #161-Ubuntu SMP Wed Mar 15 19:56:53 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux - 17:51:52 up 1 day, 1:08, 0 users, load average: 0,12, 0,06, 0,08
Linux willikins 3.13.0-114-generic #161-Ubuntu SMP Wed Mar 15 19:56:53 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux - 17:28:22 up 1 day, 2:57, 0 users, load average: 0,38, 0,48, 0,48

Das Gros der VMs auf den beiden dienstältesten Hosts war schon von dort wegmigriert worden — im Zuge des diesjährigen ›Frühjahrsputzes‹. Das bedeutet andererseits auch, es befanden sich nur noch die ›Problemfälle‹ dort, und dies, neben dem Ausfall des ältesten Servers, der leider essentiell für’s Routing war, hat uns bislang auf Trab gehalten und wird uns auch noch die nächsten Tage beschäftigen.

Da wir noch immer die ›rauchenden Trümmer‹ zusammenkehren, aber natürlich der Ausfall der Freifunknetze im Kreis Gütersloh wie an der Müritz nicht unbemerkt blieben, dies als Zwischenstatus: die Netze im Kreis Gütersloh als auch an der Müritz funktionieren wieder, es sind noch nicht alle sonstigen Dienste wiederhergestellt/überprüft. Irregularitäten bitte im Forum melden, da unser Ticketsystem aktuell noch nicht wieder auf dem Damm ist (irre hohe I/O-Aktivität, Grund noch unbekannt). Am besten als Kommentar zu diesem Beitrag.

Ausführlichere Info, wenn die Trümmer nicht mehr rauchen ;)

Hallo, Welt!