Ricerca in FOLBlog

[SdSM] Emergenza Emergente Emergenziale

 Scritto da alle 06:27 del 08/09/2011  Aggiungi commenti
Set 082011
 
closeQuesto articolo è stato pubblicato 6 anni 12 giorni giorni fa quindi alcuni contenuti o informazioni presenti in esso potrebbero non essere più validi. Questo sito non è responsabile per eventuali errori causati da questo problema.

Sono le 4.45 del mattino, ed io me ne sto’ a letto (e che credevate?) a pensarmi ai fattacci miei, quando il malefico guinzagliocellofono aziendale che mi e’ stato magnanimamente rifilato questa settimana per il foxxuto "standby" per le emergenze si mette a suonare.

Il che significa che ci sono problemi. Vabbe’, tanto ero gia’ sveglio.

Attaccato il lapdog noto con dispiacere che ben 3 hosts appartenenti a $cliente sono riportati in rosso sul pannello di controllo, un rapido controllo nella mia documentazione mi dice che quei 3 cosi sono altrettante macchine virtuali ospitate su un unico host. Il che significa che molto probabilmente e’ l’host che ha dei problemucci. Ed un rapido controllo mi dice che la mia intuizione e’ correttissima. Il foxxuto host e’ kaputt. Niente ping, niente ssh, niente di niente.

Okkido’, e’ tempo di chiamare il datacenter e domandare al teNNico di turno di investigare.

Al duecentosettantatreesimo squillo finalmente quello risponde. Con una voce che pare venire direttamente dall’oltretomba. Io lo istruisco di andare all’armadio, attaccare uno schermo, fare una foto allo schermo e mandarmela e poi richiamarmi cosi’ decideremo il daffarsi, nel frattempo io metto su’ la coccuma per il caffe’.

Dopo un 10 minuti circa mi risuona il cellofono, ed e’ il pinguino telecomandato dal datacenter che si e’ perso e non sa piu’ quale macchina deve guardare. Io glielo ri-spiego.

Dopo altri cinque minuti il tipo mi richiama direttamente dalla sala (boato in sottofondo).

CL – Sono qui’ davanti al rack, quale e’ la macchina?
IO – La prima in basso, quella marcata ‘VM01’.
CL – Non c’e’ nessuna macchina marcata ‘VM01′ qui’.
IO – Ma sei davanti all’armado F15?
CL – Si’… ah no, ‘spetta… mortacc.. dann… (rumore di armadi che vengono chiusi e riaperti) Allora, adesso sono davanti all’armadio… VM01… no, non c’e’ nessuna macchina marcata VM01.
IO – Hu? Mi leggi per cortesia i nomi dei server che ci sono dentro?
CL – Allora, $nomemaisentito01, $nomemaisentito02…
IO – Heeee… momento! Ma sei sicuro di essere nella "suite 21"?
CL – Sui… ti richiamo…

Passano altri dieci minuti…

CL – Allora, VM01 eh? Eccola qui’.
IO – Ok, allora, che leggi?
CL – Mah, non so, l’ho appena riavviata adesso…
IO – Come sarebbe a dire "l’hai appena riavviata"??? Ti ho detto di attaccare un monitor e leggere che dice!
CL – …oeps…

Tirando madonne mi metto a guardare che dice lo switch, dopo un paio di minuti la macchina sembra riprendere vita, quindi stramaledico CL e vedo che accidenti e’ successo.

A quanto pare un bel kernel panic, ma il log e’ vuoto (!) e non mi dice un tubo, ma a parte quello pare tutto a posto. Nessun errore riportato, i dischi sembrano ok… Sto’ per riavviare le macchine virtuali ospitate quande mi ri-suona il cellofono.

IO – Sono D di…
UL – AAAAAHHHH!!! PANICO! CRISI! TERRORE!!!
IO – ??? E chi accidenti sei tu?
UL – Sono UL di $cliente. I nostri siti interdet sono down!! Terrore! Panico! Raccapriccio!
IO – Si’, ho gia’ visto, un problema con l’host, comunque e’ stato riavviato dal tecnico del datacenter e stavo giusto per riavvia…
UL – PANICO! TERRORE! Non possiamo avere downtime su quei siti!!!
(mepensa: ma non sono neanche le cinque del mattino! chi straca$$o se ne frega del tuo foxxuto sito interdet?)
IO – Calma e sangue freddo, i server sono gia’ stati riavviati, in un paio di minuti dovrebbero ritornare in vita.
UL – Ma che e’ successo?? Voglio un rapporto dettagliato delle cause ed un piano procedurale per l’evitare del ripetersi degli eventi!
(mepensa: se invece che usare hardware dell’anteguerra e software aggrattisse tu spendessi dei soldi magari…)
IO – Al momento non ho elementi per fare una analisi specifica, dovremo andare a vedere di persona, comunque ricevera’ una analisi degli eventi nel giro di un paio di giorni.

Comunquesia, dopo un paio di minuti i foxxuti siti interdet del pinguino erano di nuovo vivi e vegeti ed il rompimarroni mi ha finalmente lasciato andare a prendere il caffe’. Pero’ mi e’ rimasto un dubbio: come straca$$o ha fatto ad accorgersi che i suoi siti interdet erano down alle cinque del mattino? Ok che la moglie probabilmente non lo caga nemmeno piu’, ma sei davvero ridotto al punto di guardarti il tuo sito interdet alle cinque del mattino? Mah…

E mi sa che dovremmo anche fare un paio di chiacchere con quelli del datacenter sulla differenza tra "guarda e riferisci" e "riavvia".

Davide

legenda personaggi

Articoli simili:

  • Facebook
  • Twitter
  • Delicious
  • StumbleUpon
  • Wikio
  • Reddit
  • Technorati
  • Segnalo
  • Live
  • Add to favorites
  • Email
  • RSS

 Lascia un commento

Puoi usare questi tag e attributi HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

(richiesto)

(richiesto)

Pinterest
EmailEmail
PrintPrint
%d blogger hanno fatto clic su Mi Piace per questo: