File system clustering su debian: odi et amo 1° parte (l’incubo del kernel panic)

Scenario di un pò di tempo fa: nasce una nuova rete televisiva sul digitale terrestre, la mia azienda si aggiudica la fornitura dei servizi.

Tale azienda (è finlandese non vi dico di più), è molto grossa, molto esigente, e paga un botto di soldi. Il nostro compito è quello di gestire la messa in produzione del portale istituzionale del canale televisivo, con palinsesti, promozioni, cazzi e mazzi; nonchè il sistema di messaggistica SMS che i clienti possono usare per richiedere servizi all’azienda.

Scatta quindi il megacluster, vengono ordinate la bellezza di quasi 30 macchine, 6 switch due dei quali layer 3, kilometraggi vari di cavi, uno storage iscsi, un armadio (ovviamente) ed una connettivita di "soli" 40 Mbit/sec.

Armadio dati montato, cablato e rackato nel tempo record di una settimana, gran fervore in ufficio tra noi sistemisti per la configurazione del cluster, e la crew degli sviluppatori, per la scrittura di un applicazione di Content Management (CMS) da mettere in backend al sito istituzionale.

Tale applicazione in Java (argh!) girerà su application server Liferay (ARGH!), ma non basta, visto il traffico enorme previsto da questo portale il cluster prevede al suo interno, che tale portale venga servito da un cluster di 4 macchine naturalmente in load balancing versione kamikaze.

Come se non bastasse il CMS prevede una document library, ove depositare appunto i contenuti richiamabili poi dalle pagine, che deve essere visibile da tutte le macchine ed utilizzabile in read/write anche in real time.

Vale a dire che ognuna delle quattro macchine deve poter essere capace di fare quello che minchia vuole dentro la document library, senza preoccuparsi minimamente di ciò che, allo stesso tempo, ci stanno facendo le altre macchine, e naturalmente tutti i cambiamenti devono essere visti in real-time da tutte le macchine (eccerto se no che divertimento c’è).

Per limitare il numero delle notti che sarebbero poi state perse, ed il numero di tranquillanti da ingerire, si è deciso di mettere in pista per i primi tempi solo due delle quattro macchine, per rilasciare quantomeno il cms per tempo, e poi pensare ad includere al cluster le restanti due macchine.

Vengo incaricato di fare scouting al riguardo, e scopro le magie che può fare GFS, tale file system a quanto pare è stato scritto da Red Hat.

"bene" penso, "rimbocchiamoci le maniche e tuffiamoci nella documentazione"; creo il volume sullo storage, installo sulle macchine open-iscsi, mi loggo sullo storage ed installo gfs2-tools.

:~# apt-get install cman gfs2-tools
 

"Ottimo, adesso devo partizionarlo", fdisk…crea partizione….scrivi modifiche….formatta la partizione:
 

:~# gfs2_mkfs -t nomecluster:idpartizione -p lock_dlm -j 8 /dev/sdb
 

"Spettacolo mi sa che ce la caviamo con meno di quanto pensassi"….
 

Cerco di capire come configurare il il file system clusterizzato, spulcio qualche guida qua e la, e cerco di mettere insieme il tutto, una volta configurato il cluster a due nodi, partono i test….ed i problemi….

Controllo la conf, ok è  posto, riavviamo il demone….aspetto….
 

    /etc/init.d/open-iscsi stop
    Disconnecting iSCSI targets:Logging out of session [sid: 1, target:
    iqn.2001-05.com.equallogic:0-8a0906-10853ac03-1892a4fa61049d9c-volume,
    portal: 192.168.12.18,3260]
    Logout of [sid: 1,
    target: iqn.2001-05.com.equallogic:0-8a0906-10853ac03-1892a4fa61049d9c-volume,
    portal: 192.168.12.18,3260]: successful
    .

    Stopping iSCSI initiator service:

….premo un paio di volte invio e aspetto….

…aspetto….

…aspetto….

"ma quanto cazzo di tempo vuole sto demone a stopparsi??!"

smarrito come una povera vittima nel labirinto braccato da un minotauro decido di collegarmi via console seriale per vedere se la macchina è freezata…

    :~# telnet 10.200.1.254 4009 Trying 10.200.1.254...
    Connected to 10.200.11.254.
    Escape character is '^]'.

e la storia si ripete, premo invio…aspetto…

…ripremo ed aspetto…

…aspetto…

"Ok la macchina è andata, ho vinto il viaggio in server farm", mando mail, indosso il giubbotto e parto…
 

Bramante di curiosità, per capire cosa cavolo sia successo alla macchina, mi fiondo ancora col giubbotto indossato con un monitor verso l’armadio, collego tastiera, accendo lo schermo e li vidi ciò che un sysadmin teme di più in tutta la sua vita…
 

    [ 3102.092985] Kernel Panic: Out of memory

…ah…. O_o
 


Altri articoli che potrebbero interessarti

File system clusterizzato su Linux: OCFS how to Con questo how to creeremo un mini cluster di 4 macchine che condividono una partizione, magari esposta...
Rilasciato linux kernel 2.6.24-rc4 Poche ore fa su kernel trap è stato annunciato il rilascio della nuova release candidate del kernel...
File system clustering su debian: odi et amo 2° parte (Barlumi di funzionamento?) Rieccoci alla seconda parte della triste vicenda su file system GFS su Debian. Con la storia precedente...
Daemon Tools su Linux? naaa meglio Loopback Uno dei tool molto utili presenti su windows è Daemon tools, per caricare delle immagini di cd/dvd e...
Kernel Linux-2.6.24-rc5 rilasciato. Dopo circa una settimana riecco farsi vivo Linus Torvalds con una nuova release fresca fresca del kernel...

About the Author

M0rF3uS al secolo Alex è un ggiovine 25enne appassionato di informatica e linux. Lavora come Network and System Administrator e nel tempo libero gioca un pò con la sua fotocamera (Canon EOS 1000D) riuscendo a volte, per sbaglio, a fare qualche scatto decente. Completano il corredo, degli hobbies "vorrei ma non posso" ossia l'astronomia e l'astronautica....si è uno di quelli che da grande vorrebbe fare l'astronauta (povero coglione vero?).