Scenario di un pò di tempo fa: nasce una nuova rete televisiva sul digitale terrestre, la mia azienda si aggiudica la fornitura dei servizi.
Tale azienda (è finlandese non vi dico di più), è molto grossa, molto esigente, e paga un botto di soldi. Il nostro compito è quello di gestire la messa in produzione del portale istituzionale del canale televisivo, con palinsesti, promozioni, cazzi e mazzi; nonchè il sistema di messaggistica SMS che i clienti possono usare per richiedere servizi all’azienda.
Scatta quindi il megacluster, vengono ordinate la bellezza di quasi 30 macchine, 6 switch due dei quali layer 3, kilometraggi vari di cavi, uno storage iscsi, un armadio (ovviamente) ed una connettivita di "soli" 40 Mbit/sec.
Armadio dati montato, cablato e rackato nel tempo record di una settimana, gran fervore in ufficio tra noi sistemisti per la configurazione del cluster, e la crew degli sviluppatori, per la scrittura di un applicazione di Content Management (CMS) da mettere in backend al sito istituzionale.
Tale applicazione in Java (argh!) girerà su application server Liferay (ARGH!), ma non basta, visto il traffico enorme previsto da questo portale il cluster prevede al suo interno, che tale portale venga servito da un cluster di 4 macchine naturalmente in load balancing versione kamikaze.
Come se non bastasse il CMS prevede una document library, ove depositare appunto i contenuti richiamabili poi dalle pagine, che deve essere visibile da tutte le macchine ed utilizzabile in read/write anche in real time.
Vale a dire che ognuna delle quattro macchine deve poter essere capace di fare quello che minchia vuole dentro la document library, senza preoccuparsi minimamente di ciò che, allo stesso tempo, ci stanno facendo le altre macchine, e naturalmente tutti i cambiamenti devono essere visti in real-time da tutte le macchine (eccerto se no che divertimento c’è).
Per limitare il numero delle notti che sarebbero poi state perse, ed il numero di tranquillanti da ingerire, si è deciso di mettere in pista per i primi tempi solo due delle quattro macchine, per rilasciare quantomeno il cms per tempo, e poi pensare ad includere al cluster le restanti due macchine.
Vengo incaricato di fare scouting al riguardo, e scopro le magie che può fare GFS, tale file system a quanto pare è stato scritto da Red Hat.
"bene" penso, "rimbocchiamoci le maniche e tuffiamoci nella documentazione"; creo il volume sullo storage, installo sulle macchine open-iscsi, mi loggo sullo storage ed installo gfs2-tools.
:~# apt-get install cman gfs2-tools
"Ottimo, adesso devo partizionarlo", fdisk…crea partizione….scrivi modifiche….formatta la partizione:
:~# gfs2_mkfs -t nomecluster:idpartizione -p lock_dlm -j 8 /dev/sdb
"Spettacolo mi sa che ce la caviamo con meno di quanto pensassi"….
Cerco di capire come configurare il il file system clusterizzato, spulcio qualche guida qua e la, e cerco di mettere insieme il tutto, una volta configurato il cluster a due nodi, partono i test….ed i problemi….
Controllo la conf, ok è posto, riavviamo il demone….aspetto….
/etc/init.d/open-iscsi stop
Disconnecting iSCSI targets:Logging out of session [sid: 1, target:
iqn.2001-05.com.equallogic:0-8a0906-10853ac03-1892a4fa61049d9c-volume,
portal: 192.168.12.18,3260]
Logout of [sid: 1,
target: iqn.2001-05.com.equallogic:0-8a0906-10853ac03-1892a4fa61049d9c-volume,
portal: 192.168.12.18,3260]: successful
.Stopping iSCSI initiator service:
….premo un paio di volte invio e aspetto….
…aspetto….
…aspetto….
"ma quanto cazzo di tempo vuole sto demone a stopparsi??!"
smarrito come una povera vittima nel labirinto braccato da un minotauro decido di collegarmi via console seriale per vedere se la macchina è freezata…
:~# telnet 10.200.1.254 4009 Trying 10.200.1.254...
Connected to 10.200.11.254.
Escape character is '^]'.
e la storia si ripete, premo invio…aspetto…
…ripremo ed aspetto…
…aspetto…
"Ok la macchina è andata, ho vinto il viaggio in server farm", mando mail, indosso il giubbotto e parto…
Bramante di curiosità, per capire cosa cavolo sia successo alla macchina, mi fiondo ancora col giubbotto indossato con un monitor verso l’armadio, collego tastiera, accendo lo schermo e li vidi ciò che un sysadmin teme di più in tutta la sua vita…
[ 3102.092985] Kernel Panic: Out of memory
…ah…. O_o
| |













Uau! Non dev’essere stato
Uau!
Non dev’essere stato bello vedere questo… Aspetto la seconda parte (o terza, quarta, ecc e sapere cosa è successo esattamente
ebbene si non è un gran
ebbene si non è un gran spettacolo a vedersi, soprattutto quando ti tira scemo per un mese
Scusate l’assenza, marselo90
Scusate l’assenza, marselo90 è tornato tra i fedelissimi
bentornato
bentornato