tisdag 14 maj 2013

Serverproblem orsakar nedtid

Här följer en detaljerad redogörelse för varför Hemsida24 slutade fungera under en period.

Händelseöversikt
18:51 Hemsida24 går inte att komma åt.
19:30 Hemsida24 online (efter 39 minuters nertid)
19:35 Hemsida24 går på nytt inte att komma åt.
19:43 Hemsida24 online igen (efter 8 minuters nertid).
20:46 Hemsida24 går inte att komma åt.
20:55 Hemsida24 online igen (efter 9 minuters nertid).

Beskrivning av vad som hände
(18:51) En kort tid efter att Hemsida24 inte går att nå påbörjas felsökningen. Det visar sig att vår lastbalanserare (som fördelar trafiken till olika webbservrar) har slutat fungera. Vi startar då upp en ny lastbalanserare och leder om trafiken till den. (19:35) Efter 5 minuter slutar även den nya lastbalanseraren att fungera. Vi leder då tillbaka trafiken till den gamla lastbalanseraren som åter fungerar (efter ett hårdvarubyte).

Kort därefter kontaktar vi vår leverantör Amazon Web Services per telefon för att utreda hur detta kunde ske. Vi får då bekräftat att hårdvaran i båda fallen slutat fungera och att mekanismen för att automatiskt flytta till ny hårdvara inte har fungerat. De håller fortfarande på att utreda vad som gick fel där.

(20:46) Hemsida24 går inte att komma åt på nytt. Fortfarande problem med lastbalanseraren som presenterar en ny felkod. Vi byter så skyndsamt som möjligt till en lastbalanserare som vi har i stand by.

Vad kommer vi göra framöver för att undvika detta
Under hela den tid som vi använt Amazon Web Services som leverantör (2,5 år) har detta aldrig inträffat. Trots det ska vi undersöka om vi inte kan undvika problemet i framtiden genom att köra webbservrar till flera tillgänglighetszoner samtidigt. Då får vi även en redundans på lastbalanserarna.