Oggi non posso lamentarmi, non sono successe catastrofi (non di quelle che ti fanno vomitare sangue almeno), e la giornata è stata dopotutto non-stressante.
Alla mattina solito giro dei backup per controllare che niente sia andato storto, vengo a sapere che F è stato fino a mezzanotte e mezza a lavorare su un attività pianificata da mesi sullo switch di alcune applicazioni.
Spiegazioncina: Il business principale dell’azienda in cui lavoro non è l’hosting come si sarebbe potuto capire, bensi la gestione di servizi di mobile banking, e che cazz’è vi chiederete? E’ semplice, avete presente quando ad esempio andate a prelevare allo sportello di una banca, e tra i servizi del conto corrente avete la notifica immediata della transazione via sms? Ecco quello sono io, quando vi capita pensate a me.
Tale servizio viene gestito da alcune (tante) applicazioni java basate su $notoappserver open source. In pratica voi fate la transazione, una nostra applicazione scrive il messaggio su un xml che lo passa ai nostri server, questo xml viene smandruppato da varie macchine e messo in una coda che fino ad ora era centralizzata, e poi prelevato dalle macchine che si interfacciano con gli operatori mobili che alla fine vi mandano il fottuto sms.
Ho detto fino ad ora perchè in questa architettura fondamentalmente c’è un grosso problema, se si spacca la coda, centralizzata, tutti i clienti (aka le banche) vengono disserviti, da qualche mese quindi è in progetto la migrazione ad una nuova versione di $notoappserver, dove ognuno di questi ha la sua propria coda embedded, cosi che se si schianta un solo app server viene disservito quell’unico cliente, evitando rivolte di PM di banche stra-incazzate.
Fatto sta che tale migrazione "non s’ha da fare", perchè a quanto pare ci sono state difficoltà a fare comunicare il nostro cluster in Telecom con quello in Fastweb.
La giornata quindi si è svolta normalmente, l’unica eccezione è fornita dai bestemmioni di F che ogni tanto si sentivano eccheggiare nell’aria.
Siccome la giornata era troppo tranquilla, Boss ha deciso che era il momento di rompere un pò…..il ghiaccio, e mi contatta via IM.
Boss: Ale?
IO: E chi se no?
Boss: Tu a cosa stai lavorando adesso?
IO: Sto inserendo alcune rifiniture nella procedura di backup?
Boss: Bene, il cluster di $cliente è a posto?
IO: Si manca pochissimo
Boss: E la web farm?
IO: Li ho un dubbio su una cosa
Boss: Va beh ne parliamo magari a voce, adesso vengo li perchè dobbiamo fare una cosa
IO: Se proprio devi…
Dopo aver stampato (dopo 3 tentativi) quello che ai miei occhi sembrava uno schema di rete Boss acchiappa una sedia e mi si siede accanto:
Boss: Dunque quello che dobbiamo fare, è cercare di capire un pò sta storia degli ip.
(Ci ho visto giusto è uno schema di rete..anzi di più è QUELLO schema di rete)
QUELLO, perchè noi abbiamo in tutto sei cluster tra Telecom e Fastweb, due tra tutti (che guardacaso sono i primi due che sono stati creati quando l’azienda nacque), sono forse tra i cluster più incasinati che mente umana possa concepire, e contiene roba come:
- Macchine nella DMZ che in realtà hanno interfacce pubbliche (e quindi fuori dal firewall)
- Una macchina che si chiama "finto firewall", che dovrebbe fare da firewall ma in realtà non ha una ca$$o di regola installata e quindi si limita solo a prendere i pacchetti e buttarli dietro di se, da li il prefisso "finto"
- Macchine in LAN che invece di essere nattate opportunamente sulle porte, hanno un NAT 1a1 con un ip dedicato, anch’esso fuori dal firewall.
- Una classe di ip privati dedicata quasi ad ogni regola di routing (!)
- Disturbi spazio-temporali che si manifestano in maniera randomica
- Campi elettro-magnetici che creano disturbi nella forza, causando a chi ci lavora vicino visioni mistiche.
IO: quali ip scusa?
Boss: E’ una roba, pallosa, ma di documentazione, dobbiamo fare uno sforzo iniziale adesso
per coglierne i frutti dopo.
IO: Smettila di usare paroloni non sono un commerciale e non devi intortarmi il discorso
Che dobbiamo (leggasi "devo") fare?
F: Ma porca putt$%&@# fottuto bilanciatore
IO e Boss: …
guardiamo F partorire un numero imprecisato di maledizioni, e decidiamo che è meglio non rompergli gli zebedei e continuiamo…
Boss: Vedi qui? questo è lo schema di rete di rozzano, e quello che mi interessa sono
i punti interrogativi
Guardo il foglio…era pieno di punti interrogativi, posti sotto i nomi delle macchine…
Boss: Dobbiamo cercare di recuperare questi ip e scriverli.
Tipo vedi questi sono i router di vodafone, e noi non sappiamo che ip hanno
IO: e ci credo che non lo sappiamo sono router gestiti da vodafone saranno ca$$i loro
gli ip che ci sono impostati sopra.
Boss: Si ma da qualche parte dovremo pure averli scritti
IO: Si ma sono gestiti da loro non si può fare sta cosa.
Boss: Ma noi li monitoriamo…
IO: si ma monitoriamo a) l’ip della MAM di vodafone che non centra niente
b) l’ip lato LAN del router, ip che gli diamo noi e che non è del router.
Boss: Ecco già quello potrebbe essere un punto di partenza
IO: Beh basta collegarsi al monitoraggio per vederlo. Ecco ad esempio l’ip di $router1
è $IP-1, mentre di $router2 è $IP-2
F: Ma cristo non funziona un $%&$%&..AAAARGH!!!Boss: Ok è questa per adesso è fatta, l’altro dubbio è tipo su questa macchina: vpn-gate
IO: Eh e cosa vuoi sapere di quella macchina?
Boss: Tutti gli ip configurati sopra, di modo che se dobbiamo aggiungere una nuova subnet
non rischiamo di prenderne una già usata
Adesso il discorso di Boss ha anche senso, se non fosse che quella macchina è un casino allucinante, ed ogni volta che ci mettiamo le mani usiamo i guanti di velluto perchè:
- E’ una macchina Debian Sarge
- E’ talmente incasinata che si potrebbe inchiodare semplicemente scorregiandogli sopra
- Se putacaso si inchioda succede un casino improponibile, e Boss ed i vari PM verrebbero inoculati dai clienti, ma senza la o.
IO: Ok adesso ti faccio vedere una cosa…
ssh me@vpn-gate…route -n
la macchina mi spara una lista di almeno una 30ina di rotte statiche
:~# ifconfig -a
la macchina a fatica mi tira fuori una lista di una 20ina di interfacce configurate
IO: Mi stai dicendo che dobbiamo fare una lista di tutti questi ip,
e cercare di risalire a cosa ca$$o servono?
Boss: Esattamente
IO: Non si può fare te ne rendi conto?
Boss: Eh ma si deve fare, poi presumo che questa giri il traffico tutto su $bilanciatore
IO: Si esatto
Boss: E quindi dovremo farlo anche per quella
ssh me@bilanciatore…route -n
questa volta ottengo una lista di più di 50 rotte statiche
:~# ifconfig -a
Faccio notare a boss come solo la eth0 abbia 36 interfacce logiche configurate, a quel punto cambia espressione.
IO: Quale parte di "non si può fare" non ti è chiara?
Boss: Minchia cosi tante?
IO: Eh, questa era una cosa che andava fatta da quando il cluster è nato
non adesso che è diventato un troiaio di interfacce e di rotte. Per farlo
dovremmo impegnare uno di noi per minimo una settimana, a lavorare SOLO su questo,
tutti i giorni.
Boss: E mi rendo conto che questo non si può fare…
IO: Ooohh era ora
Convinto boss finalmente riesco a smarcare l’immane lavoro inutile che mi si prospettava davanti.
F: ca$$o si è rotta matanzas (è il nome di una macchina), non la raggiungo più,
Ale tu hai una shell su matanzas?
IO: mmm spetta…no non la ho, e non la raggiungo nemmeno io
F: Ok devo andare in fastweb @#$%&§
IO: Addirittura
Boss: E con il moxa?
F: Quale moxa, al primo piano di Fastweb ancora non l’abbiamo messo..scappo vado li
Nel frattempo mi rendo conto che il sistema di monitoraggio del cluster non lo raggiungo più..
IO: ah ma avete falciato l’intero cluster
perchè non raggiungo nemmeno il resto delle macchine
Boss: Eh si non raggiungendo più matanzas credo che non si veda più nulla
IO: Uh che bello uh che bello
Boss: D per favore manda una mail ad $aliasdiposta per informare tutti del disservizio
e dici anche che fede è già li a lavorarci su
Dopo nemmeno 5 minuti vedo gli allarmi risalire, e mi meraviglio perchè la server farm di fastweb dista 10km dall’ufficio, ed in più devi aspettare che ogni santa volta ti creino il badge, mettiamoci in mezzo il casino di Milano, il tutto si traduce in almeno mezz’ora…al che mi immagino F sul suo motorino stile pimp my ride in monoruota per i viali di milano alla volta della server farm.
Dopo altri 10 minuti è tutto su, e in meno di mezz’ora vedo F tornare in ufficio il tempo di collegarsi e lo placco su Jabber…
IO: Ma quante ca$$o di multe avrai preso?? ci hai messo pochissimo
F: In realtà sono sceso giù, ho mollato un peto nucleare che mi ha fatto entrare in orbita
e sono arrivato subito li
IO: Minchia che tecnica…
Non avendo nulla da fare mi dedico un pò al cazzeggio finchè non vedo una mail di F girata al nostro gruppo:
From: F
To: $aliasdigruppo
Subject: Re: Disservizio su FastwebCappella mia durante i test di rete, ho dato l’opzione –flood a hping3
invece di –fast.
Alla lettura di questa mail inizio a rotolarmi a terra piangendo, sbagliando quell’opzione F ha praticamente lanciato un DoS che ha sdraiato l’intero cluster…capita anche ai migliori (fortunatamente) :D
La giornata si conclude con Boss che mi chiede di vedermi per una cosa di cui probabilmente gli sarei stato d’aiuto.
Boss: Ale vieni con me che ho bisogno del tuo aiuto?
IO: Eccomeno, arrivo!
Boss: Dunque parliamo del cluster di Disaster Recovery per $immensabanca, finalmente
bla bla bla, Telecom bla bla bla, quindi abbiamo chiamato fastweb
bla bla bla, mpls, bla bla, e quindi mi chiedevo se quando lavoravi in
$grossoprovider ti è mai capitata una roba del genere da gestire
IO: sinceramente no perchè non mi occupavo dell’attivazione dei clienti
Boss: Perchè parlando con bla bla bla, si pensava bla bla bla, e quindi
si sta pensando di mettere questi AMD che tra l’altro costano $unrene
AMD??!! E che ca$$o sarebbero O_o
Adesso io ho lavorato per due anni presso $grossoprovider, dove mi occupavo per lo più di networking e sicurezza, ma di apparati di rete AMD sinceramente non ho mai ne visto ne sentito nulla…cmq faccio finta di niente e continuo a seguire
IO: Ma siccome di sti AMD ce ne vogliono due tu m’insegni che alla fine
costeranno $duereni
Boss: Si esatto, però cosi andremmo a togliere tutti sti router qua, perchè con gli
AMD possiamo tirare un filo unico
IO: Ok e io a cosa ti servo? Non tirerò mai 60km di fibra sappilo.
Boss: no è che adesso volevo chiamare PM di $immensabanca per finire sta roba
e quindi ti tengo qui nel caso mi serva aiuto su delle cose
IO: Babbene
Parte la telefonata, faccio un pò fatica a seguire la conversazione perchè era messo il vivavoce di un Palm treo che un pò come tutti i vivavoce dei cellulari, fa cagare, fatto sta che parlavano di robe che già sapevo e per cui Boss non avrebbe avuto bisogno cosi inizio a distrarmi e butto l’occhio al foglio tra le mani di Boss che rappresentava lo schema di rete del progetto, ed fu cosi che capii tutto, dove Boss mi aveva disegnato il fantomatico AMD c’era una sigla "ADM", ossia dei grossi dispositivi utilizzati per realizzare le reti punto punto, un pò come i pop Telecom.
Boss aveva sbagliato la sigla -.-’ mettendo me nel panico perchè pensavo ad un’agghiacciante magra figura fatta al telefono con PM quando si fosse iniziato a parlare di sti ca$$o di AMD che io non conoscevo.
Finita la "riunione" vedo che sono le 17:30, e decido che è il momento una volta tanto, di uscire un pò prima…home sweet home
|
|













Ma prendete i router Vyatta,
Ma prendete i router Vyatta, costano meno
non ho mai sentito quella
non ho mai sentito quella marca, pensa te quanto merdosa può essere eheheh
E invece si pone come
E invece si pone come alternativa a Cisco e l’OS è Debian Based.
con tutto l’amore per debian
con tutto l’amore per debian mi sa che è un pò troppo pretenzioso mettersi come alternativa a cisco eheheh fattelo dire con chi ci ha lavorato con quelle macchine infernali
Se hai tempo smanettaci un
Se hai tempo smanettaci un po’ con Vyatta, tanto è Open e scaricabile
magari un bel giro me lo
magari un bel giro me lo faccio giusto per curiosità, chi sa magari può sostituire veramente qualcuna delle nostre macchine più marce
Vyatta l’abbiamo installato
Vyatta l’abbiamo installato in azienda per gestire i servizi di rete interna e le VPN, a parte qualche grossa limitazione lato DHCP e l’assenza di un server DNS integrato, se la cava egregiamente…
Ha un paio di "grossi" bug però:
1) Il servizo proxy (squid/squidguard) non può essere utilizzato in abbinamento al WLB (al momento viene bilanciato solo il traffico passante)
2) Il servizio firewall si incarta ogni qual volta viene aggiunta una regola se è attivo il WLB, ed è necessario rebootare la macchina
(Entrambi sono bug documentati nella loro bugzilla)