Søndag 01. Mars opplevde vi en alvorlig hendelse i et av våre primære datasenter.
Klokken 15:21 kom det alarmer til vårt operasjonssenter, som medførte utkalling av flere bakvakter. Denne feilen eskalerte fort og klokken 15:30 eskalerte de hendelsen og startet utkalling av flere ressurser, samt. satte i gang et incident response team.
Det blir videre tydelig at vi har en infrastruktur-hendelse som påvirker et helt datasenter, og det er et datasenter hvor vi kjører flere viktige tjenester. Hendelsen påvirker også management-systemer, overvåkingssystemer og tilganger til servere -noe som gjør håndteringen utfordrende.
Flere tjenester har geografisk redundans og begynner arbeid for å flytte over til annet datasenter ihht. rutinene sine.
Rotårsaken til feilen er ikke åpenbar, og man benytter tid på å feilsøke. Feilen gir mye loggstøy og det er ikke enkelt å skille symptom fra rotårsak. Man følger flere teorier som viser seg å være konsekvenser av feilen før man kommer frem til at problemet virker å ligge på en av brannmurnodene.
Klokken 17:10 utfører man tiltak som har umiddelbar effekt. En konsekvens av det tiltaket er at det vanskeliggjør leting etter rotårsak, og man jobber videre med dette mens tjenester stabiliserer seg.
Klokken 18:30 er det aller meste tilbake i normal drift og ressurser som har verifisert tjenester under sine ansvarsområder som OK, dimitteres fortløpende.
Rotårsaken er på tidspunktet fortsatt ikke konkludert, men man har teorier og kobler på leverandør for å ettergå disse nærmere.
Etter mye feilsøking konkluderer man rotårsaken som en bug i brannmur-software, dette skjer sent på dagen tirsdag 03.03.2026.
Som følge av det utføres det hasteendringer på alle NHNs brannmurer de 3 påfølgende dagene, og vi anser hendelsen som løst.