Recent, multe companii se confruntă cu un volum de date foarte mare și au probleme în utilizarea lor eficientă. Conform EMC, la sfârșitul anului 2013 existau 4.4 Zettabytes de date ( 2.9 Zettabytes generati de consumatori si 1.5 Zettabytes generati de companii ).
Kilobyte>Megabyte>Gigabyte>Terabyte>Petabyte>Exabyte>Zetabyte>Yottabyte.
Trebuie găsit un mod de a procesa și analiza această cantitate de date într-un timp cât mai scurt. Aici intervine SAP HANA, noua bază de date, in memory, de la SAP. Spre deosebire de alte baze de date „tradiționale”, HANA încarcă toate datele în memoria RAM.
Acronimul HANA vine de la High Performance Analytical Appliance și este o combinație de hardware și software.
În ultimii ani, două mari tendințe au dominat direcția pieței hardware.
În loc de creșterea frecvenței procesoarelor (CPU), numărul de core-uri per CPU a crescut.
Pentru execuția programelor Aceasta înseamnă pentru execuția programelor că instrucțiunile nu se mai execută secvențial ci în paralel, ajungând la performanța dorită.
Un Server Node conține până la 8 CPU cu 10 Core-uri/CPU si 4TB RAM, cu posibilitate de extindere (scale-up). În anul 2014, pentru teste interne, se configurau servere cu 100 TB RAM și 4000 Core-uri.
Pe lângă creșterea memoriei RAM, Disk-urile HDD au fost înlocuite cu memorii SSD pentru o citire mai rapidă a datelor, vezi Fig. 1.
Fig. 1 Timpi de acces
Astfel, citirea datelor de pe Disk nu mai este o problemă din moment ce ele se află în RAM. Noua provocare este transferul lor din memoria RAM către CPU, vezi Fig. 2.
Fig. 2 SAP ABAP Aplication Arhitecture
Asemenea servere sunt construite în parteneriat cu firme ca HP, IBM, Fujitsu, Cisco și Dell și prin urmare HANA poate funcționa doar pe hardware certificate SAP. La configurarea unui server HANA ar trebui să fie alocată suficientă memorie RAM astfel încât toate datele să încapă aici. Dacă nu există suficientă memorie, HANA încarcă cel mai des folosite tabele în memorie.
Cum am menționat la începutul articolului, HANA este o combinație de HW și SW de aici rezultând că performanța ridicată nu este datorată doar inovațiilor hardware ci și software.
Printre ele se numără Data Layout-ul, Compresia și Partiționarea.
În proiectele de dezvoltare software, munca programatorilor este simplificată din moment ce procesele de compresie și partiționare sunt complet automatizate.
În orice bază de date relațională, datele trebuie stocate într-un anumit format, pe rând sau pe coloană, indiferent dacă ele se află în memoria RAM ( cum este cazul SAP HANA ) sau pe HDD/SSD. Avem două opțiuni: pe rânduri sau pe coloane. HANA poate lucra cu ambele.
În acest mod, toate datele dintr-o tabelă ( Tabelul 1 ) sunt salvate sub formă de rânduri, sau cu alte cuvinte “una lângă alta”, în acest fel citirea întregului rând este ușoară. Accesul la o coloană este mai problematic din moment ce transferul datelor din memorie către CPU nu se face eficient ca în cazul stocării pe coloane.
Tabelul 1. Date pentru a exemplifica stocarea pe rânduri și pe coloane
Figura 3. Exemplu de stocare pe rânduri
Conținutul coloanelor unei tabele sunt salvate “una lângă alta” în memorie. Asta înseamna ca operațiile pe coloane ( SUM, AVG ) sunt executate mai rapid. Cu acest mod de stocare accesul la tot rândul este dezavantajat.
După cum vedem fiecare mod de stocare prezintă avantaje si dezavantaje. În momentul creării tabelelor programatorul trebuie să aleagă tipul de stocare în funcție de operațiile efectuate pe tabela respectivă.
Compresia datelor are un impact pozitiv asupra performanței prin reducerea volumului de date transferat din memorie către CPU. Prin folosirea compresiei se reduce volumul de date cu un factor de 5 pană la 10 ori.
Partiționarea ne ajută atunci când avem de-a face cu volume mari de date. De exemplu, în cazul ștergerii, nu trebuie să căutam datele în baza de date, în schimb putem să ștergem o partiție. Există două tipuri de partiționare: verticală și orizontală.
Tabelele sunt divizate, în secțiuni mai mici, pe baza coloanelor, de exemplu coloanele de la 1 la 5 sunt stocate pe o partiție și coloanele de la 5 la 9 pe alta.
Tabelele sunt divizate, în secțiuni mai mici, pe baza rândurilor. Rândurile de la 1 la 100,000 sunt stocate pe o partiție, iar rândurile de la 100,001 până la 200,000 pe alta.
SAP HANA folosește doar partiționarea orizontală. Datele sunt distribuite pe diferite partiții pe baza rândurilor, în timp ce datele sunt stocate pe coloane.
SAP HANA este o bază de date relațională, similară cu alte baze de date folosite de SAP. Combină stocarea pe coloane și pe rânduri și a fost optimizată pentru procesarea paralelă pusă la dispoziție de noi tehnologii hardware.
În următorul număr al revistei vom analiza HANA în calitate de platformă și cum ne ajută acest lucru la reducerea timpului de implementare a proiectelor.