Big Data, Big Confusion

Mihai Nadăș
CTO
@Yonder

TESTARE

În "Big Data: A Revolution That Will Transform How We Live, Work and Think" autorii Viktor Mayer-Schonberger și Kenneth Cukier încep prin a prezenta situația anului 2009 în care virusul H1N1 reprezenta o îngrijorare majoră a Organizației Mondiale a Sănătății, dar în particular a guvernului American. Evoluția rapidă a epidemiei punea în dificultate CDC (Center for Disease Control and Prevention), o agenție guvernamentală, care a raportat situația cu o întârziere de două săptămâni față de realitatea din teren,pentru că populația nu intra în contact cu personalul medical după apariția primelor simptome. Raportarea în timp real ar fi permis o mai bună înțelegere a dimensiunii epidemiei, optimizarea tacticilor de prevenire și tratare, acțiuni cu potențial în salvarea de vieți într-un dezastru care, în final, a totalizat peste 284.000 de victime.

Întâmplător cu câteva săptămâni înainte ca H1N1 să ajungă pe prima pagină a ziarelor Google a publicat în Nature, o publicație științifică, o lucrare în care prezentau rezultatele unui studiu care a pornit de la întrebarea "Există oare o corelație între răspândirea unei epidemii și căutările efectuate prin Google?". Presupunerea de la care a plecat Google este că, în momentul în care cineva resimte efectele unei boli proaspăt contactate se va folosi de Internet pentru a căuta informații despre simptome. Astfel, utilizând datele publicate între 2003 și 2008 de către CDC și cele mai frecvente 50 de milioane de căutări din aceeași perioadă, Google a reușit să identifice un model matematic (iterând peste 400 de milioane de înregistrări) care să demonstreze corelația dintre evoluția unei epidemii și felul în care lumea caută pe Internet. Cu ajutorul acestei noi tehnologii, intitulate Google Flu Trends, CDC a reușit în 2009 să monitorizeze mai eficient răspândirea H1N1.

Povestea Google Flu Trends este din multe puncte de vedere exemplul arhetip atât pentru beneficiile, cât și pentru tehnologia și provocările implicate în soluționarea unei probleme din spațiul Big Data. Pornind de la o ipoteză ce caută o corelație și folosind cantități mari, nestructurate de date, alături de tehnologii moderne de procesare, se încearcă validarea corelației care, în final, aduce valoare prin transformarea datelor în informații noi.

Big Data: Noul "Cloud Computing"

Big Data se află la început de drum. O dovadă în acest sens o reprezintă confuzia pe care o putem întâlni în piață când vine vorba de a defini problema pe care Big Data o adresează și modul (sau modurile) în care o face. Când vorbeam în 2009 despre Cloud Computing mă amuzam să constat că întrebarea "Ce este Cloud Computing?" adresată unei săli cu 50 de participanți avea potențialul de a primi 52 de răspunsuri din care, culmea, multe corecte. Situația este similară în prezent în cazul Big Data și asta deoarece ne aflăm într-o perioadă apropiată de ceea ce Gartner numește "peak of inflated expectations" (vârful inflației așteptărilor). Cu alte cuvinte, peste tot se discută despre Big Data, iar toată industria este antrenată în a descoperi beneficii într-un spectru larg de tehnologii și concepte, ce pornește de la un grad ridicat de maturitate/aplicabilitate (Predictive Analytics, Web Analytics) și se încheie cu scenarii inspirate din Star Trek (Internet of Things, Information Valuation, Semantic Web).

"Cloud Computing" a trecut deja de vârf, conform volumului de căutări Google, în timp ce "Big Data" se află în continuare în creștere. Problema fundamentală ce determină confuzia și implicit așteptările nerealiste este însă cauzată de faptul că Big Data este compus (conform modelului "Hype Cycle" al Gartner) din peste 45 de concepte surprinse în diferite stadii: de la cel de pionierat (i.e. "Technology Trigger") la cel de maturitate (i.e. "Plateau of Productivity"). Așadar Big Data nu poate fi tratat holistic la nivel tactic, ci doar principial, la nivel strategic.

Figura 1 - Volumul comparativ al căutărilor "Big Data" (albastru) și "Cloud Computing" (roșu) (sursa: Google Trends)

Small Data Thinking, Small Data Results

Mayer-Schonberger și Cukier identifică trei principii fundamentale ce permit trecerea de la o abordare Small Data la una Big Data.

"More": păstrează și nu arunca

Costurile de stocare a datelor au ajuns în 2013 la un minim istoric. În momentul de față stocarea a 1 gigabyte (GB) de date costă mai puțin de 9 cenți / lună folosind un serviciu de stocare în cloud (e.g. Windows Azure), iar pentru arhivare ajung la 1 cent / lună (e.g. Amazon Glacier), reducând costurile de stocare al unui petabyte (1.048.576 GB) la aproape $10.000,- (sau $10 pentru un terabyte), de 1.000.000 de ori mai ieftin decât la începutul anilor "90, când costul mediu de stocare / GB era de aproximativ $10.000. În acest context ștergerea datelor digitale acumulate din procesele informatice are tot mai puțin sens. Google, Facebook, Twitter ridică acest principiu la nivel de lege fundamentală, reprezentând biletul lor pentru noi dimensiuni de dezvoltare și inovare, oportunitate deschisă acum și celor care până recent erau limitați de costurile prohibitive.

"Messy": cantitatea precede calității

Google Flu Trends a funcționat deoarece Google a reușit să introducă în procesul de iterație a modelelor matematice cele mai frecvente 50.000.000 de căutări. Multe dintre aceste căutări au fost irelevante, însă volumul a fost necesar pentru a determina modelul care în final a reușit să demonstreze corelația. Peter Norvig, expertul Google în inteligență artificială, a afirmat în cartea sa "The Unreasonable Effectiveness of Data" că "modele simple alimentate cu un volum mare de date vor eclipsa modele mai elaborate bazate pe mai puține date", un principiu folosit și în realizarea Google Translate, un serviciu de traducere automată bazat pe un corpus de peste 95 de miliarde de propoziții formulate în limba engleză, capabil să traducă în și din peste 60 de limbi.

"Correlation": fapte și nu explicații

Am fost învățați și ne-am obișnuit că efectul este determinat de o cauză, motiv pentru care în mod natural suntem tentanți să aflăm "de ce?". În lumea Big Data corelația devine mai importantă decât cauzalitatea. În 1997 Amazon avea pe statul de plată un întreg departament responsabil să întocmească liste cu recomandări de lectură pentru cei ce vizitau librăria online. Era un proces manual, costisitor și cu impact limitat în generarea de vânzări. Astăzi, grație unui algoritm intitulat "item-to-item collaborative filtering" dezvoltat de către Amazon, recomandările se fac în mod complet automatizat, dinamic și cu un impact masiv în vânzări (o treime din veniturile generate de comerțul electronic provenind din recomandările automate). Amazon nu vrea să știe de ce clienții care cumpără "The Lord of the Rings" de J. R. R. Tolkien sunt interesați să cumpere și "Friendship and the Moral Life" de Paul J. Wadell, însă ce-i interesează este că există o corelație puternică între aceste două titluri, iar aceastfapt le va genera venituri de trei ori mai mari decât în lipsa unui astfel de sistem.

Figura 2 - Big Data "Hype Cycle" (sursa: Gartner, 2012)

Concluzii

În momentul de față Big Data reprezintă tendința cea mai abuzată din piață, drept urmare gradul de confuzie generat de pletora de opinii întâlnite la tot pasul (categorie din care articolul de față nu se exclude) este extrem de ridicat, conducând la așteptări nerealiste și dezamăgiri pe măsura lor. Claritatea vine însă din înțelegerea potențialului, adoptarea principiilor (i.e. more, messy, correlation) și acționarea preventivă pentru adaptarea sistemelor curente la noul mod de gândire din perspectiva infrastructurii de calcul, al arhitecturii și a competențelor tehnice ale celor ce le operează. Miza este aceea de a identifica noi oportunități adresabile de transformare a datelor în informații ce pot crește eficiența unui produs sau al unei afaceri, așa cu a făcut-o Google prin Flu Trends sau Amazon prin sistemul lor automatizat de recomandări.

Yonder acumulează experiență Big Data, investind strategic în proiecte de cercetare aplicată, alături de companii de produs care au înțeles viziunea pe care am conturat-o și beneficiile pe care o asemenea investiție le poate genera atât pe termen scurt cât și pe termen lung, acest trend reprezentând una din cele patru direcții tehnologice alese ca temă de inovație în 2013.