TSM - Big Data Analytics - QlikView

Victor Bodnar - QlikView Teamlead @ NTT Data Romania

Este o provocare să oferi acces și o analiză coerentă Big Data. Sute de mii sau sute de milioane de rânduri de date nu presupun nici o abordare trivială și nici acces facil. Totul se reduce la cât de multe date pot fi prezentate onest într-o aplicaţie care procesează datele suficient de repede pentru a fi relevante pentru analiză.

Big Data este termenul de referinţă pentru cantităţi masive de informaţie. În ultimii ani preţul stocării datelor a scăzut vertiginos. Dispozitivele de stocare pot să adăpostească mulţi terabytes în același spaţiu precum un hard disk obișnuit. Reducerea costurilor a modificat radical volumul de date pe care fiecare le stochează în aspecte precum producţie, stil de viaţă, vânzări, sport și alte date metrice. Creșterea datelor stocate este un pas esenţial pentru realizarea unei analize mai coerente. Dezavantajul constă în faptul că analiza de date din cadrul unui volum masiv de informaţie este la fel de validă pe cât de corect corelată este în timp.

De ce reprezintă analiza Big Data o provocare? Bazele de date Enterprise stochează mii de date de producţie, vânzări și nu numai în tabele sau în diferite tipuri de structuri. O aplicaţie care se ocupă de raportare ar trebui să coreleze datele corect și să facă agregare de date pentru diversele studii de caz. Numeroase sisteme ERP au implementări pentru vizualizarea front-end a datelor găzduite. Dezavantajul acestei abordări este că agregarea datelor din alte surse va fi dificilă.

Aici intervin soluţii precum QlikView. Acest articol va aborda modul în care QlikView ajută milioane de utilizatori să disece Big Data în cadrul proceselor zilnice de analiză.

QlikView consolidează și facilitează vizualizarea datelor din surse multiple. Aceste produs face posibilă raportarea datelor din surse diferite în cadrul unei singure aplicaţii.

QlikView este un software matur care permite crearea de panouri de raportare cu date din surse multiple. Se poate conecta aproape orice sistem sursă care stochează date tabulare. QlikView va importa și va modeliza datele prin scripturi și le va lega de elementele de pe interfaţa grafică a aplicaţiei.

Potenţialul acestei abordări este nelimitat. Programatorii dezvoltă un proces și o interfaţă grafică. Odată ce încărcarea de date este finalizată (se încarcă date din surse multiple în aceeași aplicaţie), datele trebuie modelizate sub forma unei structuri de baze de date relaţionale pentru ca să se poată comunica cu elementele de interfață.

Modelarea datelor este necesară pentru a reuni, a concatena, a lega sau a relaţiona tabele neconectate importate prin intermediul unui script. Editorul de scripturi QlikView suportă toate tipurile comune de sintaxă (If, While, For, etc.), de variabile, de funcţii, iar limbajul de scripting este similar cu SQL.

Tabelele din modelul de date se vor lega automat unele de altele când detectează un câmp comun (o coloană) cu nume identic. Acest lucru este mai ușor de vizualizat dacă ne gândim cum funcţionează modelul de date Microsoft Access (aici e mai ușor, trebuie o singură cheie) și cum poate fi accesat un Pivot Table.

Acum să considerăm că am scris câteva zeci de linii de cod și avem o aplicație.

Puterea QlikView se observă cel mai bine când trebuie create vizualizări complexe. Instrumentele standard de creare de panouri se reduc la 2-3 grafice pe pagină, în timp ce QlikView face ca sute de obiecte să fie lansate pe o singură pagină, dând posibilitatea vizualizării de structuri complexe, precum cea de jos. O pagină ca aceea conţine zeci de obiecte, putând însă suporta multe altele.

Acum că am văzut de ce e nevoie pentru a dezvolta o aplicaţie, să vedem cum ar funcţiona un mediu enterprise.

QlikView nu este un sistem de baze de date. Este un proxy pentru datele pe care le stochează temporar în aplicaţiile sale. Când începe încărcarea unui script, va rula, va importa și va modeliza datele. Datele rămân în interiorul fișierului vostru QlikView. Datele din aplicaţia voastră deschisă sunt stocate în RAM, ceea ce face calculele să fie fulger.

Un deployment de server QlikView are două componente importante:

Este important de menţionat că QlikView nu are conexiuni live cu sursele sale. Datele din aplicaţie sunt la fel de recente precum cele furnizate de ultima reîncărcare.

Aici intervine Publisher. Odată ce aplicaţia este dezvoltată, puteţi crea pe aceasta reîncărcări programate și taskuri de distribuţie. Acest lucru va permite ca datele să intre regulat și ca utilizatorii să aibă mereu ultima versiune distribuită pe portal.

Consumarea unei aplicaţii QlikView este ușoară pentru utilizator. Fiecare angajat poate accesa un URL intern care se conectează la QlikView AccessPoint. Fiecare utilizator va găsi aici toate aplicaţiile care sunt distribuite în dreptul său.

Aplicaţia trebuie acum selectată și deschisă în browser folosind Ajax, iar utilizatorul va putea interacţiona cu datele la fel ca și când le-ar deschide local.

QlikView le permite utilizatorilor să consume Big Data mai ușor, mai rapid și, ceea ce e foarte important, fără căi predefinite care permit descoperirea tiparelor de date natural.

Îndepărtând căile de analiză predefinită și dând utilizatorilor control total asupra cercetării datelor, acest produs permite descoperirea tiparelor într-un mod mult mai social. Crearea de bookmarks și distribuţia lor în cadrul organizaţei, cu scopul analizei colaborative, face domeniul datelor analitice mai fluid. Combinând flexibilitatea consumului de aplicaţie cu un motor in-memory pentru stocare și procesare va duce la faptul că analiștii vor petrece mai mult timp colaborând la procesele lor.

Deoarece QlikView este un sistem de sine stătător în mediul enterprise, acest fapt permite protejarea sa de sursele de date. Importarea de date din surse multiple în QlikView se concretizează în rapoarte de analiză și descoperiri de date mai coerente și mai rapide pentru utilizatorul final.

Mai devreme spuneam că QlikView stochează date în fiecare aplicaţie. Utilizatorul final este protejat în cazul unei căderi de sistem. Dacă un sistem sursă cade, aplicaţiile sale vor continua să meargă perfect, pentru că datele sunt in aplicațiile distribuite. Utilizatorul poate mări puterea vizual analitică a aplicaţiei creându-și propriile obiecte și legându-le de datele existente. Astfel, programatorii se pot axa pe importare de date și modelizare, ceea ce face ca utilizatorul să controleze datele vizual analitice de care are nevoie analiza lui.

QlikView se axează pe descoperire, ceea ce le permite utilizatorilor să-și găsească propriile căi de analiză pe baza unor seturi de date predefinite. Structura datelor este definită de programator, dar conţinutul este actualizat la cerere sau pe baza unui program.

Utilizatorii pot folosi aplicaţiile pe mai multe dispozitive. De exemplu, analiza poate începe pe calculatorul de serviciu, poate continua pe iPad pentru a arăta rezultatele colegilor sau se pot verifica datele pe smartphone. QlikView facilitează acest lucru prin Ajax și prin adaptarea la mediul de consum al utilizatorului. Programatorii nu mai trebuie să dezvolte anumite aplicaţii pentru PC, iar altele pentru mobil. Toate vizualizările aplicaţiei sunt scalate în funcţie de platforma pe care o au la dispoziţie.

QlikView permite sistemelor enterprise de mari dimensiuni să creeze o platformă de raportare de sine stătătoare. Modelizarea seturilor de date din surse multiple și programarea de importuri sau de distribuţii sunt toate esenţiale pentru o analiză metrică coerentă și pentru descoperirea realităţii businessului.

Astfel, Big Data devine disponibilă utilizatorilor finali. Aceștia pot interacţiona ușor cu tipare de date din organizaţile lor și pot simplifica colaborarea la locul de muncă, în cadrul proceselor de analiză.

Pe măsură ce Big Data devine o realitate mai matură, mediul Enterprise de talie mare trebuie să găsească moduri mai rapide și mai directe de a face evaluări de date. Eliminând din ecuaţie crearea de aplicaţii și concentrându-ne pe legarea datelor din surse diferite, afacerea își va putea crea procese și proceduri mai naturale.