Sentrale systemer - Driftsavbrudd
Incident Report for Norsk helsenett
Postmortem

Tirsdag 13.02 kl. 20:00 gjennomførte Norsk helsenett en oppgradering på deler av vår lagringsinfrastruktur. Denne type oppgradering er gjennomført mange ganger tidligere uten hendelser som påvirker våre tjenester.

Første del av oppgraderingen ble gjennomført som planlagt i et av våre sekundære datasentre uten komplikasjoner. Rundt klokken 20:30 startet oppgradering på primært datasenter. Klokken 20:41 utløste dette en feilsituasjon som førte til at flere sentrale tjenester og databaser mistet kontakt med lagringsløsningen. Selv om bruddet var kortvarig, førte det til en kaskade-effekt hvor tjenester med avhengigheter til hverandre opplevde tidsavbrudd og feilmeldinger. Oppgraderingen ble stanset når vi ble klar over feilen.

Feilen slo også ut deler av overvåkingssystemene, som ga forsinkelse i responstid og førte til en uoversiktlig situasjon for vårt operasjonssenter. Vakter ble kalt ut fortløpende. Grunnet omfanget ble de mest kritiske tjenestene prioritert. Fra kl. 22:23 var vi tilbake i tilnærmet normal drift, det gjensto en del alarmer og sjekk av tjenester uten døgnkontinuerlig vakt. Disse ble vurdert til å kunne vente til påfølgende morgen.

Som følge av den avbrutte oppgraderingen fra tirsdag var lagringsløsningen ufullstendig oppgradert og dette kunne få uheldige følger. Vi rådførte oss gjennom onsdag 14.02 med ekspertise hos underleverandør for å kunne fullføre oppgraderingen uten videre driftsutfall. Det ble lagt en plan for å gjennomføre oppgraderingen med risikoreduserende tiltak fra leverandør. Vi besluttet så å gå videre med oppgraderingen og planla at dette arbeidet skulle starte klokken 18:00.

Klokken 18:05 inntraff samme feilsituasjon. De samme sentrale tjenestene og databasene mistet igjen kontakt med lagringsløsningen. Da oppgraderingen allerede var i gang, ble denne fullført i det berørte datasenteret. Fra kl. 18:40 var vi tilbake i tilnærmet normal drift, det gjensto en del alarmer og sjekk av tjenester uten døgnkontinuerlig vakt. Disse ble vurdert til å kunne vente til påfølgende morgen.

Vi har i ettertid sendt inn større mengde data til vår underleverandør for analyse. Inntil videre er oppgraderinger i andre datasenter satt på vent, frem til vi med sikkerhet kan være trygge på at vi kan ivareta sikker drift.

Posted Feb 19, 2024 - 12:47 CET

Resolved
Etter lengre tids overvåkning ser systemene stabile ut og vi anser hendelsen som løst.
Hendelsen er utløst av en programvarefeil som ble introdusert under oppgradering. Dessverre skapte dette to perioder med nedetid for mange av våre tjenester. Vi kommer til å følge opp hendelsen med vår underleverandør for å finne ytterlige forklaringer på hvorfor redundans på lagringsinfrastrukturen ikke virket som tiltenkt under oppgraderingen.

Hendelsesrapport vil bli publisert på et senere tidspunkt når ytterlige detaljer er kartlagt og analysert.
Posted Feb 15, 2024 - 12:25 CET
Monitoring
Alle tjenester fungerer igjen som normalt. Vi overvåker infrastruktur og tjenester til i morgen før denne saken lukkes.
Posted Feb 14, 2024 - 20:31 CET
Update
Feilretting pågår og tjenester vil gradvis komme tilbake i normal drift.
Tjenestenes avhengigheter til hverandre vil medføre at enkelte funksjoner kan være utilgjengelige i blant annet Kjernejournal og Helsenorge.
Posted Feb 14, 2024 - 18:54 CET
Identified
Oppgradering har dessverre medført et utfall på samme tjenester som ble berørt i går.
Feilretting er iverksatt.
Posted Feb 14, 2024 - 18:23 CET
Update
Norsk helsenett har gjennom dagen kartlagt omfanget av hendelsen som inntraff klokken 20:42 i går.
Listen av berørte tjenester er oppdatert og en vil med denne oppdateringen kunne motta varsel for første gang i denne saken. For de det gjelder kan dere se historikk ved å klikke dere inn på driftsmeldingen.
Det påpekes også at flere av de påvirkede tjenestene var indirekte rammet som følge av avhengigheter til sentrale register og databaser.

Vi vil i kveld klokken 18:00 gjenoppta det planlagte arbeidet som utløste denne hendelsen. Vi har i samråd med underleverandør gjort risikoreduserende tiltak, for å minimere sannsynligheten for nye brudd i våre tjenesteleveranser.
Posted Feb 14, 2024 - 15:15 CET
Update
I forbindelse med en planlagt endring opplevde vi problemer med vår lagringsinfrastruktur, dette medførte feilsituasjoner i varierende grad for et stort antall tjenester. Noen tjenester var direkte berørt, og en stor andel tjenester var indirekte berørt grunnet avhengigheter. Alle kritiske tjenester ble feilrettet i går kveld og natt, vi jobber enda med omfangs-kartlegging og opprydding.
Posted Feb 14, 2024 - 08:50 CET
Monitoring
Alle tjenester skal igjen virke som normalt. Vi overvåker infrastruktur og tjenester de neste timene.
Posted Feb 13, 2024 - 22:57 CET
Identified
Kjernejournal, Helsenorge og Grunndata-plattformen virker igjen som normalt. Vi har fremdeles en feilsituasjon som berører en rekke mindre tjenester, disse rettes fortløpende som situasjonen kartlegges.
Posted Feb 13, 2024 - 21:29 CET
Investigating
Saksnummer: 862200
Vi opplever for tiden problemer med en sentral tjeneste. Dette medfører feil og nedetid for flere av våre andre tjenester. Feilsøking pågår, samtidig som vi jobber med å kartlegge omfanget av hendelsen.
Posted Feb 13, 2024 - 21:00 CET
This incident affected: Helsenorge, HelseID, Kjernejournal, E-Resept (Sentral Forskrivingsmodul (SFM)), Grunndata og register (Grunndata og Register, Persontjenesten, Personregisteret (PREG)), Medisinske kvalitetsregistre (MRS (Medisinsk registreringssystem), FALK (Felles autentisering for kvalitetsregistre)), and Tjenester (Blåresept, Elektronisk dødsmelding, Elektronisk fødselsmelding, eFORSK, ePROM, Fristbruddportalen, Helsedata.no, Medusa, Nasjonalt yrkesdoseregister, TAPAS, Sysvak-Nett).