It's always DNS: Der Abend, an dem das deutsche Internet schlafen ging

Es ist Dienstagabend, kurz nach 22 Uhr. Wir waren eigentlich schon im Feierabend-Modus, haben im Chat noch ein bisschen über den nächsten Tag gequatscht. Alles ganz entspannt - bis plötzlich alles rot wurde. Unsere Webseiten? Weg. Erreichbarkeit? Null.

Was im Chat abging: Ein digitales Desaster

„Leute… spinnt mein Browser oder sind gerade alle unsere Domains weg?“

„Ich check’s… Jap. Geht nichts mehr. Wer hat am Server gebastelt?“

„Niemand! Ich hab seit Stunden keine Taste angefasst. Das ist was Größeres, sogar die News-Seiten schmieren gerade ab.“

„Bestimmt ein Ablenkungsmanöver, damit du morgen kein Code-Review machen musst…“

„Schön wär’s, dann wüssten wir wenigstens, wo wir wieder einschalten müssen!“

Was war da eigentlich los?

Wir haben sofort versucht, den Fehler zu finden. Das Problem war kein Hacker und auch kein kaputtes Kabel. Es war - wie eigentlich immer in der IT - ein DNS-Problem. Konkret gab es einen riesigen Schluckauf bei der DENIC, der zentralen Registrierungsstelle, die alle .de-Adressen verwaltet.

So funktioniert der Fehler: Die DENIC tauscht regelmäßig ihre digitalen Sicherheitsschlüssel (DNSSEC) aus. Das ist Routine. Diesmal gab es jedoch einen fatalen Softwarefehler in der internen Infrastruktur der DENIC. Anstatt ein einzelnes neues Schlüsselpaar zu generieren und auf alle Systeme zu verteilen, erzeugten die Sicherheitsmodule versehentlich drei völlig unterschiedliche private Schlüssel. Der eigentliche Fehler: Sie haben zwar diese drei verschiedenen Schlüssel zum Abschließen benutzt, aber vergessen, alle passenden „Türöffner“ (die öffentlichen Schlüssel) ins Verzeichnis zu schreiben – es wurde nur ein einziger veröffentlicht.

Das Ergebnis: Im Durchschnitt waren somit zwei Drittel der kryptografischen Unterschriften fehlerhaft. Jeder Sicherheits-Check (validierende DNS-Resolver wie bei Google oder Cloudflare) im Netz dachte sich: „Halt, das passt nicht zusammen! Da wurde bestimmt was manipuliert!“ – und hat die Verbindung sofort mit einem sogenannten SERVFAIL-Fehler gekappt.

Warum hat es fast alles mitgerissen?

Wir haben uns kurz gewundert, warum auch unsere internationalen Seiten auf .com down waren. Aber das ist wie eine Kettenreaktion: Wenn deine .com-Seite im Hintergrund auf einen Server oder Nameserver zugreift, der eine .de-Adresse hat, bricht die Vertrauenskette und alles bricht zusammen. Wenn das Fundament wegkippt, fällt eben auch das Haus um.

Was wir in der Nacht gemacht haben

Während überall die Telefone glühten, hatten Admins eigentlich nur zwei Optionen:

  • Abwarten: Hoffen, dass die DENIC es schnell flickt. Das hat am Ende mehrere Stunden gedauert (die neue, fehlerfreie Zone wurde erst kurz nach Mitternacht verteilt), gefühlt aber eine Ewigkeit.
  • Die Brechstange (Unser Weg): Wir haben die Sicherheitsprüfung (DNSSEC) an unseren Servern kurz ausgeschaltet. Große Provider wie Cloudflare haben das in dieser Nacht ähnlich gemacht und sogenannte Negative Trust Anchors (Ausnahmeregeln) gesetzt, um die kaputten .de-Signaturen einfach blind durchzuwinken. Das ist ein bisschen so, als würde man den Rauchmelder mit dem Hammer von der Decke hauen, damit man in Ruhe das Feuer löschen kann.

Und weil es eh schon spät war und das Adrenalin pumpte, haben wir direkt Nägel mit Köpfen gemacht: Wir haben unsere Nameserver von der kaputten .de-Struktur weggezogen und auf .com und .net umgestellt. Ein digitaler Umzug mitten in der Nacht, nur damit die Kiste wieder läuft.

Egal ob großer Shop oder kleiner Blog - wer auf .de gesetzt hat, war gestern offline. Wir sind jetzt wieder da und der Puls beruhigt sich langsam.

Ein ehrliches Beileid an alle Kollegen im Notdienst, die gestern panisch zum Rechner gerannt sind, nur um festzustellen: Wir können gar nichts machen. Wenn ganz oben ein Fehler passiert, bleibt es unten eben dunkel.

Und an unser Team: Das Code-Review machen wir heute trotzdem. Keine Ausreden!

Liebe Grüße,

5werk-Team