Ricerca in FOLBlog

[SdSM] Ed ecco l’imprevisto 3.0

 Scritto da alle 00:15 del 03/10/2008  Aggiungi commenti
Ott 032008
 
closeQuesto articolo è stato pubblicato 8 anni 10 mesi 18 giorni giorni fa quindi alcuni contenuti o informazioni presenti in esso potrebbero non essere più validi. Questo sito non è responsabile per eventuali errori causati da questo problema.


08/09/2008

Che mi sa che smetto di contarli che sennò non mi passa più. Allora, già dissi dei precedenti imprevisti qui e qui. E dopo la seconda volta pensavo di averle viste tutte, ma NOOOOO.

Stamani, stavo discutendo con T dei vari bug trovati e da trovare nella nuova versione della web-application per gestire le varie impostazioni dell’antispam, quando l’applicazione in questione ha smesso completamente di rispondere. Dopo un paio di madonne (per la serie ‘ok che stiamo cercando i bug, ma questo è grosso come un rinoceronte’), ci siamo resi conto che il problema non era nell’applicazione ma nel fatto che una serie di macchine alla co-lo erano andate in palla.

Il problema è stato rintracciato nel solito Omino In Salopet che ha staccato il cavo di alimentazione sbagliato togliendo la corrente a due racks che non c’entravano una beata fava.

Risultato, il nostro gateway di collegamento con la rete di management alla co-lo era kaputt, il database server che, incidentalmente, supporta tutte le applicazioni era kaputt ed un paio di altre macchine di quasi nessuna importanza (tipo il monitor che dovrebbe avvisarci di questi avvenimenti ed il server su cui gira la nostra applicazione di help-desk) erano kaputt. Dato che con il gateway kaputt non si poteva fare niente, Bart è balzato sulla Bart-Mobile e si è scapicollato alla co-lo (sciroppandosi 9 Km di colonna) e dopo un’oretta circa qualche cosa ha cominciato a resuscitare. Ed eccoti il problema.

Il foxxuto database su cui tutta la baracca si appoggia è MySQL e si trova su un cluster composto da due server. Per qualche motivo il cluster non è un cluster.

Nel senso che il server ‘secondario’ non ha heartbeat in funzione, per cui in caso di collasso del primario non farebbe un tubazzo. Inoltre, i due nodi non hanno nessun servizio in condivisione a parte l’indirizzo IP. Hummm…. e allora che senso ha il cluster?

Semplice: entrambi i nodi hanno MySQL in funzione in configurazione master/slave in modo che i dati dal master siano replicati sullo slave… ma non viceversa ovviamente.

Dopo aver passato una mezz’ora domandandomi che senso ha il tutto, cerco di riavviare il foxxuto database e mi becco un bell’errore di MySQL. Una delle tabelle è bacata. Ok, un repair table dopo funziona meglio, ma a questo punto mi accorgo che la replicazione sullo slave non sta funzionando ed apparentemente non ha funzionato per più di un mese.

Dopo le dovute bestemmie cerco di capire che senso ha l’avere un cluster che non è un cluster ed un sistema master/slave che non sono master/slave, il passo successivo è, ovviamente, far ripartire la foxxuta replicazione. E qui’ ti casca l’asina: metà dei database in questo coso sono InnoDB, l’altra metà MyISAM ed il tutto sono circa 80 GB di roba.

Ed ovviamente, dato che questa chiavica è il database principale su cui si appoggia l’intera combriccola, non è possibile tenere il foxxuto coso spento per una mezz’ora mentre resincronizzo lo slave per far ripartire la merdosa replicazione.

Dopo una lunghissssssssimisssssssima giornata passata a sincronizzare la roba una alla vota, tirare madonne, copiare files, tirare altre madonne e, in generale, non fare quello che avrei voluto fare (un bel rm -fr e ripartiamo da capo che è meglio), riesco finalmente ad avere il maledetto accrocchio in piedi di nuovo.

A questo punto ho aggiornato la pagina della documentazione relativa a quella chiavica e poi ho cominciato a mettere giù una bella proposta per il mio prossimo progetto: rendere il cluster un vero cluster.

Adesso devo solo aspettare il prossimo “imprevisto”…

Davide

legenda personaggi

[ratings]

Technorati Tags: Storie dalla Sala Macchine,humor

Articoli simili:

  • Facebook
  • Twitter
  • Delicious
  • StumbleUpon
  • Wikio
  • Reddit
  • Technorati
  • Segnalo
  • Live
  • Add to favorites
  • Email
  • RSS

 Lascia un commento

Puoi usare questi tag e attributi HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

(richiesto)

(richiesto)

Pinterest
EmailEmail
PrintPrint
%d blogger hanno fatto clic su Mi Piace per questo: