Ionel Nițu – De la analiza de tip analog, la cea digitală – Big Data Analysis
de Ionel Nițu,
Fenomenul Big Data ne obligă să regândim analiza datelor/informațiilor: în loc să extrapolăm de la eșantioane de date, acum trebuie să fim capabili să analizăm TOATE DATELE.
Context
– Nu știu ce precizie ar fi avut un sondaj de opinie cu privire la câștigarea concursului Eurovision. S-ar fi bazat, în mod cert, pe anumiți factori subiectivi, precum alegerea eșantionului, disponibilitatea celor chestionați și, în mod cert, nu ar fi putut să ia în calcul înțelegerile care se fac de fiecare dată la Eurovision privind susținerea între națiuni.
Prezicerea victoriei Danemarcei a fost făcută – cu o precizie destul de mare – de către un cercetător de la Microsoft, care a utilizat un soft de analiză pe conceptul de Big Data.[1]
– Cu ceva timp în urmă am identificat un site care include rezultatele alegerilor din SUA din 1940 până în prezent. Modelul de date corelează informațiile (pe multiple categorii) și a fost utilizat de un analist pentru a prezice – cu o acuratețe foarte mare – victoria lui Obama de anul trecut.[2]
Evoluții
– Timpul de dublare a datelor accesibile pe Internet se reduce. Acum este estimat undeva pe la 1-1,5 ani. Dar ce ne vom face când rata de dublare a informației va fi lunară?
– La finele lui 2011, numărul de utilizatori ai Internetului era estimat la 2,1 miliarde de persoane, probabil că între timp a ajuns la 50% din populația globului. Numărul de site-uri era estimat (tot la sfârșitul lui 2011) la 555 milioane, fără a socoti paginile personale. În numai câteva luni, numărul de site-uri ajunsese la peste 620 milioane[3], ceea ce înseamnă o rată de creștere de circa 7 milioane site-uri/lună.
– Legat de volumul paginilor web, chiar și inventarierea lor a devenit imposibilă, în actuala dinamică extrem de efervescentă, în care apar 2-3 site-uri noi la fiecare secundă.
– Cât privește volumul de date și informații vehiculate pe Internet, lucrurile se complică și mai mult, pentru că aici vorbim și de e-mail, care tinde să înlocuiască formele clasice de comunicare, precum și de forumuri, clouding etc. Nu mai luăm în calcul faptul că internetul nu înseamnă doar pagini accesibile oficial, ci și darkweb și deepweb, dimeniuni ale lumii virtuale ce nu pot fi măsurate.
– Dinamica este extraordinară, iar creșterile sunt exponențiale în acești primi ani ai mileniului al treilea.
Spre exemplu, circa 90% din datele actuale de pe Internet au fost generate doar în ultimii doi ani. Volumul de date noi generate zilnic se dublează la fiecare 40 de luni, adică în fiecare secundă se generează mai multe date decât existau în total pe Internet acum 20 de ani.[4]
– La acestea să mai adăugăm numai statisticile legate de sporirea volumului de date din telecomunicații – potrivit Orange, creșterea ar fi fost de circa 1.000 de ori în ultimii 20 de ani – și avem imaginea complexității și efervescenței domeniului.[5]
– Să mai consemnăm și că, în România, la începutul acestui an, erau circa 9,6 milioane de utilizatori de Internet și devine problematic atunci când încerci să numeri site-urile, dată fiind diversitatea domeniilor (.ro, .com, .org, .edu, .eu etc.).[6]
– Iar Big Data nu se reduce la datele de pe Internet. Presupune și miliarde de date acumulate în baze de date proprii. Să ne imaginăm volumul de informații acumulat de NASA sau NSA. Sau de datele (preponderent sub formă de imagini sau filme satelitare) acumulate de NGA.
Provocări pentru analiză
– Vorbim de un tsunami informațional.
Așadar, problema nu va mai fi cum să obținem informațiile de care avem nevoie (paradigmă ce a caracterizat secolul trecut), ci cum să scăpăm de informațiile de care nu avem nevoie. Să mai notăm că multe date accesibile pe Internet nu pot fi datate ori certificate, sunt anonime și/sau false. Tot mai puțin va conta culegerea, și tot mai mult căutarea din oceanul de date și informații a celor autentice, corecte și relevante.
– Vorbim și de creșterea relevanței/impactului
Spre exemplu, Facebook și twitter devin actori non-statali relevanți pe scena internațională, influențând opinii și determinând acțiuni (primăvara arabă, revoluția twitter din R. Moldova).
Să mai consemnăm și dezvoltarea bloggingului, în condițiile în care bloggerii par să devină noii jurnaliști și formatori de opinie. Internetul, de altfel, tinde să înlocuiască mass media clasică. Există deja posturi de radio și de televiziune sau publicații exclusiv pe Internet.
– O altă provocare o va reprezenta nevoia crescută de decizii în timp real, în acest condiții ale globalizării.
– Pentru ambele avem nevoie de capacități tot mai mari de analiză.
Analiza va deveni tot mai importantă, secondată fiind de softuri evoluate (care să permită regăsiri relevante în Big Data și corelații între informații) și de data miner-i (asistenți analiști cu abilități de căutare specializată). Se vorbește deja despre analiza de tip Big Data, ca fiind o categorie nouă de analiză, ce îmbină analiza de tip statistic cu abilitatea de a căuta și corela informații nestructurate/disparate.
A nu se înțelege că militez pentru automatizarea totală a analizei. Nu cred că e posibilă. Din contră, factorul uman implicat în prelucrarea informației este – poate – chiar mai important decât suma informațiilor[7].
– Însă analiștii trebuie să-și revendice un rol mult mai important în ansamblul nu doar instituțional (spre exemplu, în cadrul ciclului de intelligence), ci și al societății.
Acesta este motivul pentru care am militat pentru introducerea ocupației “analist de informații” în COR[8] (lucru materializat în martie 2012), elaborarea unui standard ocupațional (aprobat de ANC în aprilie 2013) și profesionalizarea acestei profesiuni. Mai mult, consider că analiștii trebuie să fie mult mai deschiși, să participe la conferințe/simpozioane, să contribuie la conceptualizarea propriei ocupații și sa interacționeze cu profesiuni similare, să-și aducă aportul la crearea unei culturi de securitate în România.
– Este, în fapt, vorba despre o schimbare de paradigmă, așa cum am subliniat și în ultima carte publicată.[9]
– Și dacă tot vorbim de schimbarea logicii informației.
Informația nu este putere. Acest dicton era valabil secolul trecut. Cunoașterea este putere, iar cunoașterea este oferită de analiză și analiști. Milioanele de informații de pe Internet nu sunt utile decât celor care știu să le caute, să le sorteze și să le coreleze (pentru a le extrage pe cele de care au nevoie) și celor care le pot înțelege și utiliza. Iar asta presupune digitalizarea analizei.
– Dacă tot vorbim de Big Data și schimbări, să spunem și că nevoia de decizii în timp real presupune adesea analiză în timp real, cu produse interactive (nu de tip hârtie), ci de tip aplicție IT actualizabilă în timp real. Vorbim de concepte precum dispecerate on-line și sisteme de decizie de tip comandă-control (C2). Iar aici intervine rolul informației GIS și al analizei geospațiale.
Marea provocare în materia de GIS constă în standardizare pentru interoperabilitate. Standardizarea informației GIS ușurează procesarea, cooperarea și schimbul de date în timp real. Pentru a face informația „vie” (actualizată în timp real), e nevoie de fluxuri de lucru care să aducă informația în softuri care să faciliteze decizia în timp real.
– Capacitatea de a adopta decizii în timp real, în condițiile evoluției rapide a mediului supus analizei, vor face diferența.
Diferența dintre bombardarea unui autobuz cu copii în Afganistan și identificarea precisă a locației unde se afla ascuns Ossama Bin Laden, ca și diferența din anihilarea liderului cecen Dudaev, după o convorbire telefonică, și bombardarea din greșeală a sediului ambasadei Chinei din timpului conflictului din Serbia este dată de precizia informației GIS.
Milimetrul, și nu metrul, va face diferența. Calitatea și precizia infomației va fi vitală, iar diferența o vor face analiștii.
– Trăim era în care dronele înlocuiesc avioanele și se proiectează mașini automatizate complet și autostrăzi inteligente. Doar volumul datelor culese într-o zi de către drone necesită 20-30 de zile de analiză și interpretare.
– Într-o carte publicată în 2012, Robert D. Kaplan[10] vorbește de răzbunarea geografiei în fața geografiei politice, a geopoliticii și a realpolitik-ului, în sensul că, indiferent de proiecțiile strategice, de evoluțiile politico-militare sau economice, geografia tinde să reașeze statele, națiunile în matca lor orginală, firească, bine delimitată geografic.
Este, cumva, o reinventare a geografiei, o redescoperire a lui Confucius, care a spus că “Politica este fiica istoriei, iar istoria este fiica geografiei.”
În concluzie:
– Conceptul de Big Data este tot mai prezent în viața noastră de zi cu zi. Este asociat cu cloudingul, iar urmele vieții noastre (profesionale, personale și comerciale) se mută treptat pe Internet.
– New/social media tinde să devină un actor relevant pe scena internațională, modelând opinii și determinând acțiuni cu implicații politice sau economice.
– Marea provocare a secolului nostru – amenințările de tip cyber – vizează însăși substanța Big Data, iar ultimele evoluții ne ilustrează că se profilează creșterea probabilității și impactului acestei categorii de amenințări asupra securității și mediului de afaceri.
– Este nevoie mai mult decât oricând de formarea unei culturi digitale/virtuale în România, care să nu neglijeze partea de securitate (date fiind implicațiile asociate cybersecurity), dar care să nu se reducă la insularizare/compartimentare.
– Tehnologia poate fi un instrument pentru modernizare, debirocratizare și îmbunătățirea serviciilor acordate populației.
– Nu informația – ci cunoașterea – înseamnă putere.
– Analiza este tot mai importantă, ea asistând decizia în timp real. Analiza trebuie însă digitalizată, pentru că, în prezent, pare un proces mai degrabă analog.
– Asistăm la o schimbare de paradigmă în lumea informației/intelligence. Iar noi trebuie să o înțelegem, pentru a fi pregătiți să ne adaptăm la ea. Trebuie să fim inteligenți, reacționând pro-activ, anticipând schimbarea, nu doar reacționând la stimuli.
[3] Potrivit NetCraft.com
[6] http://www.wall-street.ro/articol/IT-C-Tehnologie/142316/internet-world-stats-in-romania-sunt-9-6-milioane-de-utilizatori-de-internet.html
[7] Așa cum am susținut în Ghidul analistului de intelligence. Compendiu pentru analiștii debutanți, Editura ANIMV, București, 2011, disponibilă online la http://www.animv.ro/files/Ghidul-Analistului–RO-.pdf
[8] Clasificarea Ocupațiilor din România.
[9] Analiza de intelligence. O abordare din perspectiva teoriilor schimbării, Editura RAO, București, 2012.
[10] The Revenge of Geography, Randam House, New York.
––––-
Ionel Nițu este Director executiv la Intergraph Computer Services și Președinte al Asociației Specialiștilor în Informații pentru Afaceri
Ultima ora:
ObservatorRadu Hanga: În 2024, am înregistrat un nou maxim în ceea ce privește numărul de tranzacții la bursă, respectiv 2,6 milioane
PoliticMinistrul Emil Hurezeanu a subliniat omologului ungar susținerea României pentru Republica Moldova, inclusiv în domeniul energiei
EconomieRadu Hanga: În 2024, am înregistrat un nou maxim în ceea ce privește numărul de tranzacții la bursă, respectiv 2,6 milioane
ExternLuca Niculescu: Încă un pas înainte in drumul către OCDE
SocialMarian Staș: Educație și securitate națională. Somnul rațiunii „României Educate” naște monștrii „României neolegionare”
EvenimenteAlexandru Nazare: Together, we build bridges for a stronger, more united Europe!
EditorialTeodor Baconschi: De la Budapesta la București și înapoi. Cronica relației tumultuoase dintre două națiuni cu un destin până la urmă european
CulturaMarco Badea: Ar merita să mergem mai mult la teatru, să citim mai mult, să consumăm mai multă cinematografie în sala de cinema
Club Romania | Elite si idei / www.oranoua.ro - Open Source Internet Database part of a non-governmental project / Contact: office[at]oranoua[.]ro | Operated by CRSC Europe