Tirsdag 13.02 kl. 20:00 gjennomførte Norsk helsenett en oppgradering på deler av vår lagringsinfrastruktur. Denne type oppgradering er gjennomført mange ganger tidligere uten hendelser som påvirker våre tjenester.
Første del av oppgraderingen ble gjennomført som planlagt i et av våre sekundære datasentre uten komplikasjoner. Rundt klokken 20:30 startet oppgradering på primært datasenter. Klokken 20:41 utløste dette en feilsituasjon som førte til at flere sentrale tjenester og databaser mistet kontakt med lagringsløsningen. Selv om bruddet var kortvarig, førte det til en kaskade-effekt hvor tjenester med avhengigheter til hverandre opplevde tidsavbrudd og feilmeldinger. Oppgraderingen ble stanset når vi ble klar over feilen.
Feilen slo også ut deler av overvåkingssystemene, som ga forsinkelse i responstid og førte til en uoversiktlig situasjon for vårt operasjonssenter. Vakter ble kalt ut fortløpende. Grunnet omfanget ble de mest kritiske tjenestene prioritert. Fra kl. 22:23 var vi tilbake i tilnærmet normal drift, det gjensto en del alarmer og sjekk av tjenester uten døgnkontinuerlig vakt. Disse ble vurdert til å kunne vente til påfølgende morgen.
Som følge av den avbrutte oppgraderingen fra tirsdag var lagringsløsningen ufullstendig oppgradert og dette kunne få uheldige følger. Vi rådførte oss gjennom onsdag 14.02 med ekspertise hos underleverandør for å kunne fullføre oppgraderingen uten videre driftsutfall. Det ble lagt en plan for å gjennomføre oppgraderingen med risikoreduserende tiltak fra leverandør. Vi besluttet så å gå videre med oppgraderingen og planla at dette arbeidet skulle starte klokken 18:00.
Klokken 18:05 inntraff samme feilsituasjon. De samme sentrale tjenestene og databasene mistet igjen kontakt med lagringsløsningen. Da oppgraderingen allerede var i gang, ble denne fullført i det berørte datasenteret. Fra kl. 18:40 var vi tilbake i tilnærmet normal drift, det gjensto en del alarmer og sjekk av tjenester uten døgnkontinuerlig vakt. Disse ble vurdert til å kunne vente til påfølgende morgen.
Vi har i ettertid sendt inn større mengde data til vår underleverandør for analyse. Inntil videre er oppgraderinger i andre datasenter satt på vent, frem til vi med sikkerhet kan være trygge på at vi kan ivareta sikker drift.