ABONAMENTE VIDEO REDACȚIA
RO
EN
NOU
Numărul 144
Numărul 143 Numărul 142 Numărul 141 Numărul 140 Numărul 139 Numărul 138 Numărul 137 Numărul 136 Numărul 135 Numărul 134 Numărul 133 Numărul 132 Numărul 131 Numărul 130 Numărul 129 Numărul 128 Numărul 127 Numărul 126 Numărul 125 Numărul 124 Numărul 123 Numărul 122 Numărul 121 Numărul 120 Numărul 119 Numărul 118 Numărul 117 Numărul 116 Numărul 115 Numărul 114 Numărul 113 Numărul 112 Numărul 111 Numărul 110 Numărul 109 Numărul 108 Numărul 107 Numărul 106 Numărul 105 Numărul 104 Numărul 103 Numărul 102 Numărul 101 Numărul 100 Numărul 99 Numărul 98 Numărul 97 Numărul 96 Numărul 95 Numărul 94 Numărul 93 Numărul 92 Numărul 91 Numărul 90 Numărul 89 Numărul 88 Numărul 87 Numărul 86 Numărul 85 Numărul 84 Numărul 83 Numărul 82 Numărul 81 Numărul 80 Numărul 79 Numărul 78 Numărul 77 Numărul 76 Numărul 75 Numărul 74 Numărul 73 Numărul 72 Numărul 71 Numărul 70 Numărul 69 Numărul 68 Numărul 67 Numărul 66 Numărul 65 Numărul 64 Numărul 63 Numărul 62 Numărul 61 Numărul 60 Numărul 59 Numărul 58 Numărul 57 Numărul 56 Numărul 55 Numărul 54 Numărul 53 Numărul 52 Numărul 51 Numărul 50 Numărul 49 Numărul 48 Numărul 47 Numărul 46 Numărul 45 Numărul 44 Numărul 43 Numărul 42 Numărul 41 Numărul 40 Numărul 39 Numărul 38 Numărul 37 Numărul 36 Numărul 35 Numărul 34 Numărul 33 Numărul 32 Numărul 31 Numărul 30 Numărul 29 Numărul 28 Numărul 27 Numărul 26 Numărul 25 Numărul 24 Numărul 23 Numărul 22 Numărul 21 Numărul 20 Numărul 19 Numărul 18 Numărul 17 Numărul 16 Numărul 15 Numărul 14 Numărul 13 Numărul 12 Numărul 11 Numărul 10 Numărul 9 Numărul 8 Numărul 7 Numărul 6 Numărul 5 Numărul 4 Numărul 3 Numărul 2 Numărul 1
×
▼ LISTĂ EDIȚII ▼
Numărul 12
Abonament PDF

Big Data, Big Confusion

Mihai Nadăș
CTO
@Yonder



TESTARE

În "Big Data: A Revolution That Will Transform How We Live, Work and Think" autorii Viktor Mayer-Schonberger și Kenneth Cukier încep prin a prezenta situația anului 2009 în care virusul H1N1 reprezenta o îngrijorare majoră a Organizației Mondiale a Sănătății, dar în particular a guvernului American. Evoluția rapidă a epidemiei punea în dificultate CDC (Center for Disease Control and Prevention), o agenție guvernamentală, care a raportat situația cu o întârziere de două săptămâni față de realitatea din teren,pentru că populația nu intra în contact cu personalul medical după apariția primelor simptome. Raportarea în timp real ar fi permis o mai bună înțelegere a dimensiunii epidemiei, optimizarea tacticilor de prevenire și tratare, acțiuni cu potențial în salvarea de vieți într-un dezastru care, în final, a totalizat peste 284.000 de victime.

Întâmplător cu câteva săptămâni înainte ca H1N1 să ajungă pe prima pagină a ziarelor Google a publicat în Nature, o publicație științifică, o lucrare în care prezentau rezultatele unui studiu care a pornit de la întrebarea "Există oare o corelație între răspândirea unei epidemii și căutările efectuate prin Google?". Presupunerea de la care a plecat Google este că, în momentul în care cineva resimte efectele unei boli proaspăt contactate se va folosi de Internet pentru a căuta informații despre simptome. Astfel, utilizând datele publicate între 2003 și 2008 de către CDC și cele mai frecvente 50 de milioane de căutări din aceeași perioadă, Google a reușit să identifice un model matematic (iterând peste 400 de milioane de înregistrări) care să demonstreze corelația dintre evoluția unei epidemii și felul în care lumea caută pe Internet. Cu ajutorul acestei noi tehnologii, intitulate Google Flu Trends, CDC a reușit în 2009 să monitorizeze mai eficient răspândirea H1N1.

Povestea Google Flu Trends este din multe puncte de vedere exemplul arhetip atât pentru beneficiile, cât și pentru tehnologia și provocările implicate în soluționarea unei probleme din spațiul Big Data. Pornind de la o ipoteză ce caută o corelație și folosind cantități mari, nestructurate de date, alături de tehnologii moderne de procesare, se încearcă validarea corelației care, în final, aduce valoare prin transformarea datelor în informații noi.

Big Data: Noul "Cloud Computing"

Big Data se află la început de drum. O dovadă în acest sens o reprezintă confuzia pe care o putem întâlni în piață când vine vorba de a defini problema pe care Big Data o adresează și modul (sau modurile) în care o face. Când vorbeam în 2009 despre Cloud Computing mă amuzam să constat că întrebarea "Ce este Cloud Computing?" adresată unei săli cu 50 de participanți avea potențialul de a primi 52 de răspunsuri din care, culmea, multe corecte. Situația este similară în prezent în cazul Big Data și asta deoarece ne aflăm într-o perioadă apropiată de ceea ce Gartner numește "peak of inflated expectations" (vârful inflației așteptărilor). Cu alte cuvinte, peste tot se discută despre Big Data, iar toată industria este antrenată în a descoperi beneficii într-un spectru larg de tehnologii și concepte, ce pornește de la un grad ridicat de maturitate/aplicabilitate (Predictive Analytics, Web Analytics) și se încheie cu scenarii inspirate din Star Trek (Internet of Things, Information Valuation, Semantic Web).

"Cloud Computing" a trecut deja de vârf, conform volumului de căutări Google, în timp ce "Big Data" se află în continuare în creștere. Problema fundamentală ce determină confuzia și implicit așteptările nerealiste este însă cauzată de faptul că Big Data este compus (conform modelului "Hype Cycle" al Gartner) din peste 45 de concepte surprinse în diferite stadii: de la cel de pionierat (i.e. "Technology Trigger") la cel de maturitate (i.e. "Plateau of Productivity"). Așadar Big Data nu poate fi tratat holistic la nivel tactic, ci doar principial, la nivel strategic.

Figura 1 - Volumul comparativ al căutărilor "Big Data" (albastru) și "Cloud Computing" (roșu) (sursa: Google Trends)

Small Data Thinking, Small Data Results

Mayer-Schonberger și Cukier identifică trei principii fundamentale ce permit trecerea de la o abordare Small Data la una Big Data.

"More": păstrează și nu arunca

Costurile de stocare a datelor au ajuns în 2013 la un minim istoric. În momentul de față stocarea a 1 gigabyte (GB) de date costă mai puțin de 9 cenți / lună folosind un serviciu de stocare în cloud (e.g. Windows Azure), iar pentru arhivare ajung la 1 cent / lună (e.g. Amazon Glacier), reducând costurile de stocare al unui petabyte (1.048.576 GB) la aproape $10.000,- (sau $10 pentru un terabyte), de 1.000.000 de ori mai ieftin decât la începutul anilor "90, când costul mediu de stocare / GB era de aproximativ $10.000. În acest context ștergerea datelor digitale acumulate din procesele informatice are tot mai puțin sens. Google, Facebook, Twitter ridică acest principiu la nivel de lege fundamentală, reprezentând biletul lor pentru noi dimensiuni de dezvoltare și inovare, oportunitate deschisă acum și celor care până recent erau limitați de costurile prohibitive.

"Messy": cantitatea precede calității

Google Flu Trends a funcționat deoarece Google a reușit să introducă în procesul de iterație a modelelor matematice cele mai frecvente 50.000.000 de căutări. Multe dintre aceste căutări au fost irelevante, însă volumul a fost necesar pentru a determina modelul care în final a reușit să demonstreze corelația. Peter Norvig, expertul Google în inteligență artificială, a afirmat în cartea sa "The Unreasonable Effectiveness of Data" că "modele simple alimentate cu un volum mare de date vor eclipsa modele mai elaborate bazate pe mai puține date", un principiu folosit și în realizarea Google Translate, un serviciu de traducere automată bazat pe un corpus de peste 95 de miliarde de propoziții formulate în limba engleză, capabil să traducă în și din peste 60 de limbi.

"Correlation": fapte și nu explicații

Am fost învățați și ne-am obișnuit că efectul este determinat de o cauză, motiv pentru care în mod natural suntem tentanți să aflăm "de ce?". În lumea Big Data corelația devine mai importantă decât cauzalitatea. În 1997 Amazon avea pe statul de plată un întreg departament responsabil să întocmească liste cu recomandări de lectură pentru cei ce vizitau librăria online. Era un proces manual, costisitor și cu impact limitat în generarea de vânzări. Astăzi, grație unui algoritm intitulat "item-to-item collaborative filtering" dezvoltat de către Amazon, recomandările se fac în mod complet automatizat, dinamic și cu un impact masiv în vânzări (o treime din veniturile generate de comerțul electronic provenind din recomandările automate). Amazon nu vrea să știe de ce clienții care cumpără "The Lord of the Rings" de J. R. R. Tolkien sunt interesați să cumpere și "Friendship and the Moral Life" de Paul J. Wadell, însă ce-i interesează este că există o corelație puternică între aceste două titluri, iar aceastfapt le va genera venituri de trei ori mai mari decât în lipsa unui astfel de sistem.

Figura 2 - Big Data "Hype Cycle" (sursa: Gartner, 2012)

Concluzii

În momentul de față Big Data reprezintă tendința cea mai abuzată din piață, drept urmare gradul de confuzie generat de pletora de opinii întâlnite la tot pasul (categorie din care articolul de față nu se exclude) este extrem de ridicat, conducând la așteptări nerealiste și dezamăgiri pe măsura lor. Claritatea vine însă din înțelegerea potențialului, adoptarea principiilor (i.e. more, messy, correlation) și acționarea preventivă pentru adaptarea sistemelor curente la noul mod de gândire din perspectiva infrastructurii de calcul, al arhitecturii și a competențelor tehnice ale celor ce le operează. Miza este aceea de a identifica noi oportunități adresabile de transformare a datelor în informații ce pot crește eficiența unui produs sau al unei afaceri, așa cu a făcut-o Google prin Flu Trends sau Amazon prin sistemul lor automatizat de recomandări.

Yonder acumulează experiență Big Data, investind strategic în proiecte de cercetare aplicată, alături de companii de produs care au înțeles viziunea pe care am conturat-o și beneficiile pe care o asemenea investiție le poate genera atât pe termen scurt cât și pe termen lung, acest trend reprezentând una din cele patru direcții tehnologice alese ca temă de inovație în 2013.

NUMĂRUL 143 - Software Craftsmanship

Sponsori

  • Accenture
  • BT Code Crafters
  • Accesa
  • Bosch
  • Betfair
  • MHP
  • BoatyardX
  • .msg systems
  • P3 group
  • Ing Hubs
  • Colors in projects