Der Ausfall im Rechenzentrum hat leider auch unser Freifunk-Netz getroffen …

Seit heute morgen gegen 9:30 gab es leider auch im Gütersloher und Müritzer Freifunk aufgrund eines Problems im Gütersloher Rechenzentrum Ausfälle. Es zeigte sich, daß trotz Servern außerhalb des hiesigen RZs zuviele Abhängigkeiten bestehen, sodaß auch der noch funktionsfähige Netzteil beeinträchtigt wurde.

rrd-Graph
Ausfall von ~9:28 bis 15:00 :-( (Zeiten in UTC)
Die Beeinträchtigungen bestanden von ca. 9:28 bis ca. 15:00.

Das Kernproblem für uns lag im immer wieder unterschätzten Domain Name System (DNS), welches für die Übersetzung von Rechnernamen (z. B. blog.guetersloh.freifunk.net) auf die sogenannten IP-Adressen, mit denen die Systeme beim Internet-Protokoll untereinander kom­mu­ni­zier­en.

Die beiden für den Freifunk wichtigen Domains, 4830.org (darunter haben wir die primär technischen Systeme zusammengefaßt, z. B. die Gateway- und Routing-Server; map.4830.org ist derzeit die prominente Ausnahme) sowie guetersloh.freifunk.net (das sind die Systeme, die nach außen sichtbar sind, z. B. eben die Webseite oder das eigentliche Statistikportal, stats.guetersloh.freifunk.net) werden zwar auf verschiedenen Servern bereitgestellt — leider waren davon alle in diesem einen Rechenzentrum. (Freifunk Müritz nutzt ebenfalls die Gateways in 4830.org; die Webseite mueritz.freifunk.net läuft zwar bei freifunk.net, die Namensauflösung aber bislang nur in Gütersloh.)

In der Folge konnten die Knoten des Freifunks im Kreis Gütersloh, die mit Gateways in Gütersloh verbunden waren, keine neuen Verbindungen zu den noch erreichbaren Gateways aufbauen, da die Namensauflösung scheiterte. Und Clients, die über noch erreichbare Gateways angebunden waren, bekamen keine DHCP-Antworten mehr, denn der einzige DHCP-Server steht derzeit in Gütersloh … Letzeres war eine bekannte Schwachstelle des Setups und für dieses Wochenende war (und ist) geplant, einen zweiten DHCP-Server außerhalb Güterslohs bereitzustellen.

Für den Freifunk in der Region Müritz bestand ein anders geartetes Problem: obwohl das primäre Gateway bei Frankfurt steht (für Müritz mit z. Zt. ca. 60 Knoten reicht zum Glück noch ein überschaubares Setup), der IPv4-Exit läuft über Gütersloh — und da jene Server nicht mehr erreichbar waren, war trotz lokalem DHCP usw. dennoch kein Freifunk möglich. Auch hier sind korrektive Umstellungen schon länger geplant, die Vorfälle werden zu einer Neubewertung der ToDo-Liste führen. Derzeit noch völlig unklar ist noch, warum auch alle ICVPN-Verbindungen zum Müritzer Gateway unterbrochen waren; dieser Fakt verhinderte, den Exit temporär über das ICVPN nach Berlin umzuleiten :-(

Erste Schritte zur Vorbeugung vor ähnlichen Problemen in der Zukunft sind eingeleitet. Im Falle von 4830.org warten wir auf die Erweiterung der DNS-Server im entsprechenden Eintrag in der Zone von .org; sobald dieser Eintrag erfolgt ist, wird 4830.org sowohl aus Gütersloh als auch von einem Server bei Hetzner bedient. Für u. a. guetersloh.freifunk.net und mueritz.freifunk.net wird der Secondary-DNS-Server »sdns.ĸı.net« aus Gütersloh ebenfalls auf einen Hetzner-Server migriert. Damit sollten wir für einen ähnlichen Ausfall schon mal besswer gewappnet sein.

Mit dem geplanten zweiten DHCP-Server wird der Freifunk im Kreis Gütersloh dann auch entsprechend redundant sein; geplant war es für dieses Wochenende sowieso. Ebenso waren Wartungs-/Aufräumarbeiten beim Müritzer Freifunk geplant, da nach Umstellungen bei Gütersloh einiges nicht mehr sauber läuft (NTP, Firmwareupdates).

Zur Ausfallursache im Rechenzentrum haben wir keine genauen Infos, werden sie aber wenn möglich nachliefern, wenn die Fakten bekannt sind.

Redundanz, aber …