File system clustering su debian: odi et amo 1° parte (l’incubo del kernel panic) | Il Portalinux

File system clustering su debian: odi et amo 1° parte (l’incubo del kernel panic)

Scenario di un pò di tempo fa: nasce una nuova rete televisiva sul digitale terrestre, la mia azienda si aggiudica la fornitura dei servizi.

Tale azienda (è finlandese non vi dico di più), è molto grossa, molto esigente, e paga un botto di soldi. Il nostro compito è quello di gestire la messa in produzione del portale istituzionale del canale televisivo, con palinsesti, promozioni, cazzi e mazzi; nonchè il sistema di messaggistica SMS che i clienti possono usare per richiedere servizi all’azienda.

Scatta quindi il megacluster, vengono ordinate la bellezza di quasi 30 macchine, 6 switch due dei quali layer 3, kilometraggi vari di cavi, uno storage iscsi, un armadio (ovviamente) ed una connettivita di "soli" 40 Mbit/sec.

Armadio dati montato, cablato e rackato nel tempo record di una settimana, gran fervore in ufficio tra noi sistemisti per la configurazione del cluster, e la crew degli sviluppatori, per la scrittura di un applicazione di Content Management (CMS) da mettere in backend al sito istituzionale.

Tale applicazione in Java (argh!) girerà su application server Liferay (ARGH!), ma non basta, visto il traffico enorme previsto da questo portale il cluster prevede al suo interno, che tale portale venga servito da un cluster di 4 macchine naturalmente in load balancing versione kamikaze.

Come se non bastasse il CMS prevede una document library, ove depositare appunto i contenuti richiamabili poi dalle pagine, che deve essere visibile da tutte le macchine ed utilizzabile in read/write anche in real time.

Vale a dire che ognuna delle quattro macchine deve poter essere capace di fare quello che minchia vuole dentro la document library, senza preoccuparsi minimamente di ciò che, allo stesso tempo, ci stanno facendo le altre macchine, e naturalmente tutti i cambiamenti devono essere visti in real-time da tutte le macchine (eccerto se no che divertimento c’è).

Per limitare il numero delle notti che sarebbero poi state perse, ed il numero di tranquillanti da ingerire, si è deciso di mettere in pista per i primi tempi solo due delle quattro macchine, per rilasciare quantomeno il cms per tempo, e poi pensare ad includere al cluster le restanti due macchine.

Vengo incaricato di fare scouting al riguardo, e scopro le magie che può fare GFS, tale file system a quanto pare è stato scritto da Red Hat.

"bene" penso, "rimbocchiamoci le maniche e tuffiamoci nella documentazione"; creo il volume sullo storage, installo sulle macchine open-iscsi, mi loggo sullo storage ed installo gfs2-tools.

:~# apt-get install cman gfs2-tools
 

"Ottimo, adesso devo partizionarlo", fdisk…crea partizione….scrivi modifiche….formatta la partizione:
 

:~# gfs2_mkfs -t nomecluster:idpartizione -p lock_dlm -j 8 /dev/sdb
 

"Spettacolo mi sa che ce la caviamo con meno di quanto pensassi"….
 

Cerco di capire come configurare il il file system clusterizzato, spulcio qualche guida qua e la, e cerco di mettere insieme il tutto, una volta configurato il cluster a due nodi, partono i test….ed i problemi….

Controllo la conf, ok è  posto, riavviamo il demone….aspetto….
 

    /etc/init.d/open-iscsi stop
    Disconnecting iSCSI targets:Logging out of session [sid: 1, target:
    iqn.2001-05.com.equallogic:0-8a0906-10853ac03-1892a4fa61049d9c-volume,
    portal: 192.168.12.18,3260]
    Logout of [sid: 1,
    target: iqn.2001-05.com.equallogic:0-8a0906-10853ac03-1892a4fa61049d9c-volume,
    portal: 192.168.12.18,3260]: successful
    .

    Stopping iSCSI initiator service:

….premo un paio di volte invio e aspetto….

…aspetto….

…aspetto….

"ma quanto cazzo di tempo vuole sto demone a stopparsi??!"

smarrito come una povera vittima nel labirinto braccato da un minotauro decido di collegarmi via console seriale per vedere se la macchina è freezata…

    :~# telnet 10.200.1.254 4009 Trying 10.200.1.254...
    Connected to 10.200.11.254.
    Escape character is '^]'.

e la storia si ripete, premo invio…aspetto…

…ripremo ed aspetto…

…aspetto…

"Ok la macchina è andata, ho vinto il viaggio in server farm", mando mail, indosso il giubbotto e parto…
 

Bramante di curiosità, per capire cosa cavolo sia successo alla macchina, mi fiondo ancora col giubbotto indossato con un monitor verso l’armadio, collego tastiera, accendo lo schermo e li vidi ciò che un sysadmin teme di più in tutta la sua vita…
 

    [ 3102.092985] Kernel Panic: Out of memory

…ah…. O_o
 


Articoli (forse) correlati:

  1. File system clustering su debian: odi et amo 3° parte (La soluzione finale)
      Terza (ed ultima?) puntata della tragedia commedia che mi vede (purtroppo) protagonista....
  2. File system clustering su debian: odi et amo 2° parte (Barlumi di funzionamento?)
      Seconda puntata della disavventura sul file system clusterizzato....
  3. Creiamo un server DNS con Bind [Parte 2.1° - I file di zona e la risoluzione diretta]
    Ieri vi ho spiegato cos'è e come funziona un server dns a seconda della tipologia alla quale appartiene... durante il...
  4. Debian vs Dell R200 = No kernel no party
    Ieri ho dovuto installare due macchine con le quali dobbiamo fare un test di migrazione DB, approfittando dei nuovi arrivi...
  5. Creare un pacchetto debian – parte 3°
    Siamo arrivati alla fine di questo set di guide sulla pacchettizzazione debian dei sorgenti linux... ...
    blog comments powered by Disqus
    Get Adobe Flash playerPlugin by wpburn.com wordpress themes