ABONAMENTE VIDEO REDACȚIA
RO
EN
Numărul 148 Numărul 147 Numărul 146 Numărul 145 Numărul 144 Numărul 143 Numărul 142 Numărul 141 Numărul 140 Numărul 139 Numărul 138 Numărul 137 Numărul 136 Numărul 135 Numărul 134 Numărul 133 Numărul 132 Numărul 131 Numărul 130 Numărul 129 Numărul 128 Numărul 127 Numărul 126 Numărul 125 Numărul 124 Numărul 123 Numărul 122 Numărul 121 Numărul 120 Numărul 119 Numărul 118 Numărul 117 Numărul 116 Numărul 115 Numărul 114 Numărul 113 Numărul 112 Numărul 111 Numărul 110 Numărul 109 Numărul 108 Numărul 107 Numărul 106 Numărul 105 Numărul 104 Numărul 103 Numărul 102 Numărul 101 Numărul 100 Numărul 99 Numărul 98 Numărul 97 Numărul 96 Numărul 95 Numărul 94 Numărul 93 Numărul 92 Numărul 91 Numărul 90 Numărul 89 Numărul 88 Numărul 87 Numărul 86 Numărul 85 Numărul 84 Numărul 83 Numărul 82 Numărul 81 Numărul 80 Numărul 79 Numărul 78 Numărul 77 Numărul 76 Numărul 75 Numărul 74 Numărul 73 Numărul 72 Numărul 71 Numărul 70 Numărul 69 Numărul 68 Numărul 67 Numărul 66 Numărul 65 Numărul 64 Numărul 63 Numărul 62 Numărul 61 Numărul 60 Numărul 59 Numărul 58 Numărul 57 Numărul 56 Numărul 55 Numărul 54 Numărul 53 Numărul 52 Numărul 51 Numărul 50 Numărul 49 Numărul 48 Numărul 47 Numărul 46 Numărul 45 Numărul 44 Numărul 43 Numărul 42 Numărul 41 Numărul 40 Numărul 39 Numărul 38 Numărul 37 Numărul 36 Numărul 35 Numărul 34 Numărul 33 Numărul 32 Numărul 31 Numărul 30 Numărul 29 Numărul 28 Numărul 27 Numărul 26 Numărul 25 Numărul 24 Numărul 23 Numărul 22 Numărul 21 Numărul 20 Numărul 19 Numărul 18 Numărul 17 Numărul 16 Numărul 15 Numărul 14 Numărul 13 Numărul 12 Numărul 11 Numărul 10 Numărul 9 Numărul 8 Numărul 7 Numărul 6 Numărul 5 Numărul 4 Numărul 3 Numărul 2 Numărul 1
×
▼ LISTĂ EDIȚII ▼
Numărul 23
Abonament PDF

Big Data şi Social Media: marea schimbare

Diana Ciorba
Marketing Manager
@Codespring



MANAGEMENT


De când platformele social media s-au răspândit în viaţa noastră de zi cu zi, volumul de date schimbat prin intermediul acestora a crescut vertiginos. Scriem texte ce descriu o idee, o părere, un fapt; încărcăm imagini şi materiale video; ne manifestăm preferinţele folosind câteva butoane simple ("like", "favorite", "follow", "share", "pin" etc.); acceptăm în reţea oameni pe care îi ştim foarte bine în viaţa reală şi oameni pe care nu i-am întâlnit niciodată, probabil nici nu îi vom întâlni … Totul apare în reţea aproape în timp real!

Dintr-o dată, ne dăm sema că unitatea de măsură a datelor manevrate într-o perioadă de timp anume ajunge la ordinul de exabyte. Această masă de date nu este doar mare în volum, dar este şi extreme de diversă şi se mişcă cu viteze incredibile. Informaţia conţinută este relativ incomensurabilă. Cert este că Facebook, Twitter, Pinterest pot vedea când ne îndrăgostim, în ce stare suntem, unde ne aflăm şi alte comportamente sau stări pe care decidem să le arătăm.

Întrebarea este: ce putem face cu această cantitate masivă de date create prin intermediul social media?

Fapte rapide

Conform informaţiei colectate de IBM într-un raport realizat în baza unor surse furnizate de Mc Kinsey Global Institute, Twitter, Cisco, EMC, SAS, MEPTEC, QAS - merită să acordăm atenţie următoarelor fapte:

Legate de volum:

  • Facebook ingerează aproximativ de 500 de ori mai multe date zilnic decât New York Stock Exchange (NYSE).
  • Twitter stochează cel puţin de 12 ori mai multe date zilnic decât NYSE.
  • Se estimează că cca. 2.5 quintilioane byte (23 trilioane gigabyte) de date sunt create zilnic.
  • 6 miliarde de oameni din 7 miliarde (populaţia curentă globală) au telefoane celulare.
  • Se estimează că circa 40 zettabyte (43 trilioane gygabyte ) de date vor fi create până în 2020 (de 300 de ori mai mult decât în 2005).

Legate de diversitate (varietate):

  • 300 miliarde de unităţi de conţinut sunt distribuite pe Facebook în fiecare lună.
  • 400 milioane de tweet-uri sunt trimise zilnic de către circa 200 milioane de utilizatori activi .
  • 4 miliarde de ore video sunt vizionate pe youtube în fiecare lună.
  • Până la finele lui 2014, se estimează că vor exista cca 420 milioane de dizpozitive portabile de monitorizare a sănătăţii.

Legate de viteză (velocitate):

  • NYSE captează 1 TB de informaţie în fiecare sesiune tranzacţională.
  • Maşinile moderne au aproape 100 senzori ce monitorizează parametric precum nivelul comnbustibilului şi presiunea în roţi.
  • Până în 2016 se preconizează existent a cca. 18.9 miliarde de conexiuni de reţea (cca 2.5 conexiuni de persoană pe glob) .

Legate de veridicitate:

  • 1 din 3 conducători de afaceri nu au încredere în informaţia folosită pentru luarea deciziilor.
  • 27 % din respondeţii studiului nu ştiau cât din datele lor erau inexacte.

Ce înseamnă de fapt "Big Data"?

La prima vedere putem descrie "Big Data" ca seturi foarte mari şi foarte complexe, imposibil sau greu de gestionat cu instrumentele clasice de procesare a datelor. Dacă noi am preluat sintagma din limba engleză, trebuie să notăm ca specialiştii francezi îl traduc în prezent cu sintagma "grosses données" ("date mari" "big data") sau "données massives" ("date masive" massive data) sau chiar şi "datamasse" (datamasă) precum "biomasă". Noutatea conceptului şi limitele neclare ale definiţiei împiedică oarecum adaptarea locală a termenului.

În 2012, Gartner (care a conturat oarecum termenul la începutul anilor 2000) a actualizat definiţia astfel: "Big data înseamnă informaţii de mare volum, mare viteză şi/sau mare varietate ce necesită noi forme de procesare pentru a facilita luarea deciziilor, descoperirea semnificaţiilor şi optimizarea proceselor."

Definiţia de mai sus conturează dimensiunile Big Data - cei 3V - volum, viteză, varietate. Totuşi, ceea ce este de reţinut din această formulare este că deschide perspective multiple asupra conceptului Big Data în sine. Recent un al 4-lea V a fost ataşat definiţiei: veridicitatea. Totodată merită notate şi cele trei perspective aplicate conceptului: cea tehnologică, cea de proces şi cea de afaceri.

Analizele Social Media şi Big Data

Una dintre caracteristicile esenţiale ale Big Data provenite din social media este că sunt în sau aproape în timp real. Acest aspect oferă analizei exploratorii o perspectivă largă legat de ceea ce se întâmplă sau ce este pe cale să se întâmple la un moment dat într-un anumit loc.

Fiecare trăsătură fundamentală a datelor masive (Big Data) poate fi înţeles ca un parametru pentru analiza cantitativă, calitativă şi exploratorie.

  • Volumul - Există două tipuri de date pe care platformele social media le colectează: structurate şi nestructurate. În plus, sursa de colectare variază: HTM (human to machine), MTM (machine to machine) sau prin senzori. Pentru specialiştii în ştiinţe sociale, masa totală a datelor le permite definirea mai multor clase, mai multor criterii şi rafinarea seturilor şi subseturilor de analize.
  • Varietatea - Formatul datelor variază de la documente text, tabele la date video, date audio şi multe altele. Acest fapt creşte complexitatea analizei datelor; în consecinţă, modelele statistice vor fi de asemenea ajustate pentru a obţine informaţii viabile.
  • Viteza - este un aspect cheie în analiza tendinţelor şi a fenomenelor în timp real. Cu cât datele sunt generate. Distribuite şi înţelese mai rapid, cu atât pot dezvălui mai mulă informaţie. Analizând viteza de propagare a unui anumit set de date, putem distinge impactul potențial al informaţiei conţinute asupra unui grup social specific dintr-un teritoriu definit. Un alt aspect interesant este că putem totodată monitoriza lanţul de distribuţie al datelor.

Veridicitatea

Pentru analistul de date experimentat este esenţială capacitatea de a evalua conformitatea, acurateţea şi sinceritatea datelor supuse analizei. Aici discuţia se poartă în jurul responsabilităţii generatorului initial al datelor, scopului pentru care datele sunt emise şi reacţiilor receptorilor.

Managementul Big Data

Una din cele mai mari provocări a momentului de faţă este construirea instrumentelor şi sistemelor cu care să gestionăm Big Data. Deoarece livrarea informaţiilor în timp real sau aproape în timp real este una din trăsăturile cheie ale analizei datelor masive, cercetările urmăresc să pună bazele unor sisteme de management al bazelor de date capabile să corespundă noilor cerinţe.

Tehnologiile în curs de dezvoltare cuprind următoarele:

Stocare: Pentru stocarea şi recuperarea datelor, dezvoltările NoSQL care sunt în prezent baza sistemelor actuale sunt reprezentate de MongoDB, DynamoDB, CouchBase, Cassandra, Redis şi Neo4j. În prezent acestea sunt cunoscute ca cele mai performante baze de date de documente, key value, coloane, grafice şi distribuite.

Software: Setul Apache Hadoop include Cloudera, HortonWorks şi MapR. Obiectivul principal al acestora este de a extinde utilizarea platformelor big data către o gamă de utilizatori mai diversă şi voluminoasă. În al doilea rând, aceste tehnologii se concentrează pe creşterea fiabilităţii platformelor de date masive, pe îmbunătăţirea capacităţii de a le gestiona şi de a controla indicatorii de performanţă.

Explorarea datelor şi descoperirea cunoştinţelor: explorarea şi descoperirea analitică a datelor masive este un subiect fierbinte din domeniul cercetării şi inovării. Un avans major a fost făcut de Datameer, Hadapt, Karmasphere, Platfora sau Splunk.

Oportunităţi

Când avem de-a face cu un nivel de ordine cu totul nou, captarea, stocarea, cercetarea, distribuirea, analiza şi vizualizarea datelor trebuie redefinită. Perspectiva gestionării datelor masive sunt enorme și de nebănuit!

Adeseori este pomenită posibilitatea de a explora informațiile distribuite în media, de a obține cunoștințe și de a evalua, analiza tendințe și de a emite previziuni, de a gestiona riscuri de toate tipurile (comercial, de asigurare, industrial, natural) și fenomene diverse (sociale, politice, religioase, etc.). În geodinamică, meteorologie, medicină și alte domenii exploratorii - de la big data se așteaptă o îmbunătățire a modului în care procesele se desfășoară și în care se interpretează datele.

Marea translație

Pentru a răspunde la întrebarea noastră inițială, cel mai bun lucru pe care îl putem face cu masa de date este de a o EXPLORA.

Pe cât de simplă pare la prima vedere, afirmația de mai sus are un impact puternic asupra modului în care vedem analiza datelor din viitorul apropiat. Modelul migrează de la cel tradițional în care planificăm, colectăm și abia apoi analizăm datele la un nou model în care colectăm toate datele posibile și abia apoi încercăm să identificăm tiparele (patterns) semnificative.

Noul model de analiză are riscurile proprii, dar deschide totodată calea către o nouă generație de analiști de date și oameni de știință în acest domeniu. În acesată ordine de idei, consider migrarea de la un model la altul ca rezultatul major al impactului pe care social media l-a avut până acum asupra modului în care percepem datele masive (big data).

LANSAREA NUMĂRULUI 149

Marți, 26 Octombrie, ora 18:00

sediul Cognizant

Facebook Meetup StreamEvent YouTube

NUMĂRUL 147 - Automotive

Sponsori

  • Accenture
  • BT Code Crafters
  • Accesa
  • Bosch
  • Betfair
  • MHP
  • BoatyardX
  • .msg systems
  • P3 group
  • Ing Hubs
  • Cognizant Softvision
  • Colors in projects