Încă una cu ING

Ok, hai să discutăm din nou despre ING, pentru că e o treabă importantă. Un cititor mi-a dat un link aseară, și vă pun și vouă aici link-ul că e interesant (da, așa se fac servitele la bloguri). Acum voi citiți, și voi judecați dacă e interesant sau nu ce scriu eu aici. Apropos, dacă vedeți PDF-ul aiurea (eu îl văd) descărcați-l și puneți-l în Acrobat Reader, merge așa.

“Thanks to the Cisco ACE solution we no longer have to arrange maintenance windows, since one machine can take over immediately while the other is being worked on. The result is better continuity of customer service.” spune Dan Cocoșilă, cel care a condus proiectul de integrare CISCO ACE.

Hmmm, interesant. Dar poate o fi doar o vorbă de marketing, hai să vedem ce poate face, concret, acest sistem.

ING Romania has two data centers, linked by optical fiber, located some 10 kilometers apart in the Romanian capital, Bucharest. The bank installed a pair of Cisco ACE 4710 devices in its main data center, with loadbalancing and failover, situated in a “demilitarized zone” between the Internet and the bank’s servers.

Cele două data centers sunt la 10 km distanță, nu la doi, din câte spune internetul românesc (deși dacă gândești binar…) – apoi au și două data centers care au între ele load balancing și „failover”. Adică, din câte înțeleg eu în prostia mea, dacă unul pică preia altul.

The Cisco ACE 4710 solution has fulfilled ING’s overriding strategic imperative to ensure that customer applications are available at all times, with ample scalability to manage sudden peaks in traffic. It provides greater stability and full redundancy, along with improved utilization of its application and DNS server farms

La asta cu full redundancy m-au cucerit. Este exact ceea ce te ajută să ții niște servere picate vreme de 11 ore.

Nu spun că nu e adevărat ce declară ING că s-a întâmplat. Spun doar că oamenii aveau tehnologia necesară pentru a-și reveni în timp de câteva secunde dacă într-adevăr problema ar fi venit de la șuieratul gazului inergen. Și mai spun că eu suspectez că ING continuă să fie foarte reținuți în a spune care a fost adevărul. Și că nu ar trebui să vă mire dacă de fapt a fost un atac cibernetic, și nu avem habar care sunt de fapt consecințele. Doar zic, nu îmi pasă foarte tare pentru că nu le sunt client.

atm-1


Comments

Încă una cu ING — 14 Comments

  1. DR-ul e la 2 km in datacenterul IBM. Problema nu a fost la Cisco ci la clusterul IBM AIX de DR ce nu a pornit automat si a trebuit pornit manual. Plus ca au facut un backup suplinentar inainte de asta.

    • Load balancing, redundancy, backups. Cineva ori nu știe ce înseamnă asta, ori nu și-a făcut treaba, ori minte. Când tai cu briciul lui Occam rămâne partea cu minciuna

    • un backup la ce? un cluster caruia ii dai comanda de pornire manual – o proceseaza in 0-1-2 minute si devine activ (!1!!1111) datele fiind replicate in nodul/site-ul standby automat – la ce faci backup ??? LB-ul vede ca serverele sint inactive in 1-2 minute si schimba catre stand-by dupa citeva heart-beat-uri.

  2. In comunicat scrie asa: “The bank installed a pair of Cisco ACE 4710 devices in its main data center.” deci de unde redundanta automata intre data center-uri diferite?
    asta cu 2 sau 10km….nu vad cum conteaza pe fibra. conteaza daca datacenterul secundar era pe partea aialalta de glob…
    din ce am inteles din comunicatul ing, testul cu acel gaz, a afectat toate hdd-urile din datacenterul principal (adica inclusiv solutia de redundata ibm).
    banuiesc eu ca datacenterul secundar este site de disaster recovery…..ceea ce ar explica timpul mare de recovery.

  3. A day fericirea …aaa..ingul cu bani in postaci. :)))

    “The solution chosen by the bank was the Cisco ACE 4710 Application Control Engine, a member of the Cisco Family of Data Center 3.0 solutions. It is a standalone application-delivery appliance that optimizes load-balancing and helps ensure business continuity by increasing application availability” .. e nevoie de traducere?

    Mai jos, in acelasi fisier: “The Cisco ACE 4710 solution has fulfilled ING’s overriding strategic imperative to ensure that customer applications are available at all times, with ample scalability to manage sudden peaks in traffic. It provides greater stability and full redundancy, along with improved …” Bla bla bla…
    E tehnicul-ul lor si a alora de la Cisco: available at all times, full redundancy …
    Deck, babaetz, ce backup? Cind la minut, trebuia sa se activeze standby-ul? Unde e minciuna? In PDF sau in comunicatul post-coitum?

    ACE-ul e un solutie hw si sw care nu are un hdd, sa nu zici ca a picat si ala.

    • Nu m-am obosit să-i răspund omului fix pentru că era scris negru pe alb în document, dar da, mă amuză oamenii care încearcă să argumenteze pentru că au găsit ei o mică frază care le explică teoria.

      În rest, în România ING e un fel de Apple al băncilor. Are prea mulți fani tineri cărora le pasă mai mult că sunt în trend.

  4. Iar daca au toate serverele in aceeasi server-room…. aia se numeste idiotenie, dar o exclud, pt ca nu treceau de certificari

  5. dupa cum s-a “propagat” nefunctionarea a fost mai degraba un bug de productie care ajunsese si pe sistemele secundare. sa faci un rollback din backup dureaza ore bune.

  6. Bai ce imi place teoria asta conspirationista la romanul nostru care nu stie, nu cunoaste, da isi da cu parerea, ca e sport national. Tot articolul asta e complet pe langa subiect, pentru ca are 0 relevanta cu tehnologia. Cisco ACE (mai ales 4710) este un produs lansat acum 10 ani, si este end-of-life din 2013. Cel mai probabil a fost decomisionat cu mult inainte la banca cu pricina. In plus functionalitatea lui este una simpla de load balancing (cam ce face un ngnix cu default config in ziua de azi). Ce treaba are load balancerul cu faptul ca iti pica storage-ul din spatele tuturor serverelor load-balanced?? Ce treaba are back-up-ul cu load balancerul? Parca o aud pe bunica vorbind de minat bitcoin.
    In plus documente de marketing se gasesc garla pe internet la orice vendor care vorbesc de “success stories”.
    Cum ar fi sa ne documentam un pic inainte sa lansam teorii fin astea sau macar sa avem habar de cu ce se mananca un datacenter?

    • Pai daca aveau doua datacentere si aveau aplicatiile importante mirrored, de ce alea nu au supravietuit testului? Doar au si in remote datacenter storage, pe care pot rula aplicatiile bine mersi.

    • Incearca sa privesti imaginea de ansamblu,referindu-ma la faptul ca stii ca exista doua DC-uri cu management de load balancing si failover intre ele.

      “Cisco ACE (mai ales 4710) este un produs lansat acum 10 ani, si este end-of-life din 2013.”

      Esti ambiguu:

      http://www.cisco.com/c/en/us/products/collateral/application-networking-services/ace-4700-series-application-control-engine-appliances/eol_C51-728937.html

      Sa presupunem ca ai dreptate si ca solutia hardware a fost inlocuita pentru o alta.Cisco, Citrix, Radware, Ngnix, Kemp – este una din situatiile in care vendor-ul sau solutia chiar este irelevanta.

      Iti vine sa crezi sau nu, load balancing-ul ca metoda chiar “are treaba” cu atat mai mult cu cat repet:vorbim de 2 DC-uri.Sa presupunem prin absurd ca iti “pica storage-ul din spatele serverelor load-balanced” dintr-un DC, asa cum a declarat PR-ul ING.Iti mai ramane un DC si putin probabil ca vibratiile generate de eliberarea gazului inert sa se propage prin fibra ce uneste cele 2 DC-uri astfel incat sa ti-l afecteze si pe al doilea si sa iti provoace un outage de 11 ore.Asta daca bineinteles nu ar interveni Lorin Fortuna.Si mai putin probabil este sa testezi sistemul de incendiu sambata la ora 13.00, ora de varf.

      “Documentele de marketing se gasesc garla pe internet” si nu prea insa putine tradeaza cat de cat infrastructura clientului astfel incat sa iti poti face o idee infima a ceea ce se afla in spate.PR-ul ING, in scuza oficiala, nu a pomenit nimic de un al 2-lea DC.A folosit singularul.De ce?

      Unul dintre scenariile plauzibile in care ING-ul ar suferi un outage de 11 ore ar fi,iti convine sau nu, un atac DDOS.Sunt la moda si daca ai sa te documentezi un pic ai sa vezi ca si ING-ul mama din Olanda a fost lovit de un val de atacuri DDOS in 2013, alaturi de alte banci din sistemul bancar olandez.Coincidenta sau nu, Banca Transilvania a trecut printr-o situatie similara(vezi Untold,eveniment de referinta) in urma cu putin timp si scuza PR-ului a fost la fel de hilara.

      Eu zic sa lasi hater-eala,sa mai citesti articolul de cateva ori pana ai sa il poti asimila si in acelasi timp sa iti creezi o imagine de ansamblu.Apoi da-i o mana de ajutor bunicii in procesul de “minat bitcoin”.S-ar putea sa te surprinda.

  7. Plin de specialisti pe aici.

    a) nu exista “DC”-uri, pentru ca la nivelul ala nu merge sa faci un AD cu nu stiu cate DC-uri si un loadbalancer de genul Cisco F5. Alea sunt pentru copii si amatori.

    b) cineva mai sus a aratat ca stie despre ce vorbeste – back-up-ul e la IBM, servere de tip AS/400 (iSeries) sau niste HP SuperDome cu AIX sau OS/400 pe ele.

    Alea nu au treaba cu “load balancing”, sunt niste proceduri bazate pe heartbeat, cand serverul de rezerva, “geamanul”, intra in contingenta. Cand sunt probleme relationate cu pierderea datelor (DB/2), foarte probabil ca au o solutie de gen TSM (Tivoli Storage Manager).

    Daca gazul a distrus hardurile dintr-o parte, adminii puteau alege sa puna in upline imediat “geamanul” din IBM, dar au ales sa faca inca o copie de siguranta.

    Probabil ca nu aveti idee cat dureaza sa faci o salvare – cateva ore pentru un singur centru.

    Chiar si de ar fi avut un AD de recuperat, cu ADRES, si probabil ca au avut, pentru ca sunt multe feluri de date ce trebuiesc adapostite, acei timpi s-ar fi adaugat la cele cateva ore pierdute pentru backup-ul initial.

    Lucrez ca secadmin IBM AS/400 pentru Carrefour Spania+Franta, in centrul de control al HP din Léon, Spania. Am 400 de hipermarketuri in control. In comparatie ING Romania e comparabil cu 4 hypermarketuri, ca nivel de date stocate si complexitate.

    • O solutie HA presupune ca serverele secondary (amplasate fizic in alt “locatie”) sa preia executia intr-un interval de secunde pana la minute in functie de modul in care este configurata actiunea de tip failover (automat sau manual). Primul semn de intrebare este de ce nu s-a mers pe solutia aceasta ?
      Timpul mare in sistemul a fost indisponibil sugereaza faptul ca sa mers pe o solutie DR (restore de backupuri). In aceste conditii se pune intrebarea daca s-au respectat valorile indicatorilor RPO si RTO? RTO planificat este de 11 ore ?
      Doar acest incident a dus dispobilitatea sistemelor ING la 99.8% . E ok ?

  8. NU stiu ce au ei acolo, am facut doar o presupunere, cred eu, rezonabila. Da, failoverul se intampla automat si cvasi-instantaneu, iar pentru 11 ore de downtime – e evident ca au ALES sa fie prudenti.

    Totusi, nu cred ca ditamai banca are niste diletanti in echipa de IT. S-au luat niste decizii constiente acolo.

Comentariul tău