Ricerca in FOLBlog

[SdSM] Il Grande Collasso

 Scritto da alle 00:23 del 21/06/2008  Aggiungi commenti
Giu 212008
 
closeQuesto articolo è stato pubblicato 9 anni 5 mesi 3 giorni giorni fa quindi alcuni contenuti o informazioni presenti in esso potrebbero non essere più validi. Questo sito non è responsabile per eventuali errori causati da questo problema.

image

14 Gennaio 2008

E cosi’ siamo di nuovo in un meeting con DaBoss, il quale persiste nell’organizzare meeting senza riservare sale riunioni (“qualcun altro ci dovrebbe pensare”) ed ad organizzare meeting di un’ora che poi si protraggono per 5/6 ore.

DB – …e al prossimo punto c’è l’eliminazione del contratto di assistenza tecnica con $fornitore.

…silenzio di tomba, $fornitore e’ quello che fornisce l’assistenza utonti in ufficio, nonché l’assistenza tecnica per il cluster che fornisce praticamente tutti i servizi dell’ufficio.

IO – Hemmm… e se noi annulliamo il contratto, chi dovrebbe gestire l’assistenza ed il supporto per gli utenti ed il resto?
DB – Voi.
IO – “voi” chi?
DB – (gesticolando nella mia direzione generica) Voi, voialtri che dovreste essere il dipartimento Iccitti’. E che cappero, quel contratto ci costa 38000 euro all’anno!
IO – Faccio notare che il contratto fornisce una persona fissa per 5 giorni alla settimana ed una persona per 2 giorni alla settimana, quindi ci costa molto meno che assumere qualcuno fisso, ed in ogni caso, come li sostituiamo questi due?
DB – Uno non e’ mai al suo posto, e l’altro sta sempre li’ a giocare con il computer!

A questo punto, mi sono alzato e me ne sono andato.

fast forward di un bel po’ per farmi passare il nervoso…

E cosi’ i due tapini che gestivano il supporto teNNico sono stati eliminati, e noi (aka: io) dobbiamo perciò gestirci non solo il sistema informativo che connette 47 uffici sparsi per il mondo, ma anche smandrupparci gli utonti locali. Per non parlare dei server dell’ufficio.

Abbiamo subito deciso che, per tentare di risolvere l’endemica mancanza di risorse (aka: spazio su disco insufficiente) la cosa migliore e’ migrare il vecchio cluster su uno nuovo, questo consente anche di aggiornare la versione di quasi tutto il software installato che e’ piuttosto vecchiotto.

Cosi’ comincio a guardare come accidenti funziona (o non) il marasma e scopro un paio di cose non troppo carine, anzi più di due. In ordine sparso:

  • ci sono sette server nel rack,
    due sono il ‘cluster’ che gestisce (o dovrebbe) il tutto, due server sono spenti, uno e’ usato per test e prove varie, uno e’ sostanzialmente inutilizzato completamente e l’ultimo sembra sia usato solo per gestire lo scanner (un quadriprocessore con mezzo tera di disco… per lo scanner!).
  • il cluster non e’ un cluster
    le due macchine sono si’ connesse utilizzando drbd, ma per qualche motivo quella che dovrebbe essere ‘secondary’ non vuole tanto essere secondary, quindi nel malaugurato caso di un problema hardware, il sistema non si avvia da solo ma richiede di essere condotto per mano sulla strada del recupero, che e’ piuttosto impervia perche’…
  • la configurazione dei servizi ed i permessi dei files nei due ‘nodi’ del cluster non sono uguali
  • il backup non ha mai funzionato
    e ci sono ben DUE tapelib installate e due dischi rimovibili USB da 1 Tera l’uno, che sono stati religiosamente ‘ruotati’ ogni giorno fin dalla notte dei tempi.
  • i file di log non sono mai ruotati
    interrogato al proposito, il tipo che gestiva la cosa ha confermato che ‘la rotazione ha qualche problema’.
  • per evitare di finire lo spazio disponibile, il tipo ha deciso di creare una serie di files da 5 Gb l’uno, da cancellare ‘nel caso di bisogno’.
  • vi sono tonnellate di utenti morti/inutilizzati
  • per aggiungere un utente al sistema occorre usare 3 diverse interfacce per aggiungere i dati allo stesso database.
  • e bisogna creare a mano la home dir perche’ non lo fa da solo.
  • oh, e bisogna anche mettere a posto i permessi a mano.
  • ah, e la mailbox viene creata sbagliata, quindi si tratta di cancellarla e ricrearla.
  • ah e aggiungere gli alias.
  • no, non in quel file, l’altro file degli alias, quello che non e’ documentato da nessuna parte (e che ti aspettavi?).

Il che mi ha fatto un po’ pensare che forse DB quando ha detto ‘gioca col computer’ riferito a sto’ tizio non era poi tanto lontano dal vero…

Ovviamente noi abbiamo scoperto la maggioranza dei problemi nel modo peggiore, aka: il cluster e’ deceduto, e cosi’ abbiamo scoperto che non era un cluster, qualcuno ha zappato una directory, e cosi’ abbiamo scoperto del backup, e cosi’ via.

Vabbe’, vuole dire che il movimento degli utenti verso il nuovo sistema e’ una bella idea, se non fosse che, per qualche strano motivo, la quota di utenti ‘mossi’ per giornata e’ stranamente ferma sullo zero. Mentre (in teoria) avrebbe dovuto essere a quota 8 per giorno.

Domani sera vado a quel colloquio… sto’ incominciando a pensare che forse non e’ una cattiva idea…

Davide

legenda personaggi

Technorati Tags: Storie dalla Sala Macchine,humor

[ratings]

Articoli simili:

  • Facebook
  • Twitter
  • Delicious
  • StumbleUpon
  • Wikio
  • Reddit
  • Technorati
  • Segnalo
  • Live
  • Add to favorites
  • Email
  • RSS

 Lascia un commento

Puoi usare questi tag e attributi HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

(richiesto)

(richiesto)

Pinterest
EmailEmail
PrintPrint
%d blogger hanno fatto clic su Mi Piace per questo: