onsdag 22 mars 2017

Driftstörningar 21 och 22 mars

21 mars
Tidigt på morgonen den 21 mars inträffade en driftstörning i vår infrastruktur p.g.a en server hade fått automatiska uppdateringar där en av uppdateringarna gjorde att namnuppslag via DNS slutade fungera ibland.

Det medförde fler problem som gjorde att namnuppslagen bl.a mot våra cachningsnoder, AWS S3 och Payson slutade fungera. På AWS S3 ligger bl.a alla bilder som våra kunder laddar upp till hemsidorna vilket i sin tur medförde problem med filuppladdning och att bilder ibland inte visades rätt på hemsidorna.

I samband med detta ökade belastningen på vår databas då cachningsnoderna inte gick att nå och systemet började peeka på 100% CPU.

Driftstörningen varade cirka 1 timma och när våra tekniker hade isolerat och åtgärdat felet så återgick systemen till normal drift igen.

22 mars
Efter våra förbättringar och åtgärder för att klara upp gårdagens driftstörning så stängde vi av automatiska uppdateringar och valde att istället installera varje paket manuellt.

Allt fungerade normalt i vår testmiljö men när vi lanserade ändringarna publikt för alla kunder visade det sig att gårdagens problem kvarstod men uppstod inte lika ofta p.g.a vissa förbättringar vi hade gjort.

Vid 8.30 i morse var allt åter tillbaka i normal drift.