TSM - Recenzie pentru "Haskell Data Analysis Cookbook"

Radu Marius Florin - Business & Data Analyst

Am experimentat în Haskell diverse exerciții din curiozitate și în scop educațional. Mă consider un statistician de modă veche, programator de R și uneori de Python. Sunt interesat de statistică și analiză de date, de concepte și paradigme noi precum NoSQL, Big Data, MapReduce sau programare funcțională.

Aviz cititorilor: aceasta nu este o carte pentru introducere în Haskell sau în programare funcțională ci mai degrabă autorul pornește de la premiza că cititorul este familiarizat cu sintaxa precum și cu sistemul de tipuri din Haskell - diferit în mod considerabil față de alte limbaje de programare. În carte sunt utilizate în mod frecvent concepte de programare funcțională precum monada sau puritate.

Modul de prezentare folosit este cel al unei colecții de exemple frumos organizate. Se pot regăsi rețete succinte însoțite de secțiuni de cod destinate în mare parte rezolvării unor probleme de analiză și prelucrare de date, dar cu multe porțiuni dedicate în general programatorilor experimentați. Cartea acoperă o paletă foarte largă de topicuri de programare și de analiză de date. În conținutul ei sunt trecute în revistă o serie largă de concepte și tehnici pe care ar trebui să le stăpânească un analist "complet". Totuși nu se reușește acoperirea în profunzime a acestor topicuri, unele fiind tratate la nivelul "se poate și în Haskell, iar aceasta este doar o introducere".

Ce ne poate oferi Haskell?

Din punct de vedere al interactivității cu datele (read-evaluate-print loop), GHCi din Haskell este comparabil cu iPython sau cu REPL pentru Clojure, dar foarte departe de ce oferă RStudio pentru R, sau mediul Matlab. Într-o activitate de analiză exploratorie, interactivitatea are o importanță deosebită. Încercând exercițiile din carte, am utilizat cu dificultate Haskell pentru investigarea rapidă a surselor de date și a structurii lor. Un analist își dorește în general o interactivitate rapidă cu datele, o inspecție rapidă a acestora sau generare de grafice fără prea mult efort de programare. În Clojure, un alt limbaj funcțional cu o masă critică de utilizatori există Incanter, o platformă destinată analizei statistice și graficelor. Din câte știu până acum nu există ceva similar pentru Haskell și aceasta îl poate face să fie a doua opțiune pentru un analist. Faptul că Haskell nu oferă încă această posibilitate îl plasează ca o opțiune secundară pentru un analist. Evident că în această concluzie sunt influențat de experiența mea cu R, Python, sau Matlab.

În altă ordine, când îmi pun pălăria de programator statistic, care dezvoltă aplicații software centrate pe date, încep să apreciez tot mai mult acest limbaj. Pentru un programator, chiar și în cazul unui prototip sau a unei aplicații de dimensiuni mici, dar care utilizează surse de date cu dimensiuni considerabile, dispersate sau cu o structură complexă (ex. NoSQL, Big Data) elementele de paralelism și concurentă ale limbajului Haskell îl fac foarte apreciat. Haskell este pur funcțional (funcțiile sunt valori, iar valorile nu se schimbă), "lazy & statically typed".

Cartea de față reușește să ilustreze foarte bine toate aceste aspecte ale limbajului Haskell. Se regăsesc explicații din context, cu exemple despre importanța acestor elemente ale limbajului. Aceste modele pot folositoare unui dezvoltator care dorește să construiască software de analiză de date.

Sunt câteva diferențe ușoare între codul din carte și codul descărcat de pe GitHub. Probabil se datorează faptului că fișierele de cod sunt frecvent actualizate în GitHub. Am folosit codul gata scris și am făcut mici modificări pentru a testa pe fișierele proprii. În general lucrurile au funcționat bine. Am avut mici probleme la instalarea unor librării de Haskell. Acest lucru ține mai mult de experiența mea pe parcursul utilizării cărții și e mai puțin legată de conținutul cărții în sine.

Să trecem la fapte

Parcurgând exemplele am resimțit o ușoară nemulțumire când am remarcat că nu am un echivalent pentru "data.frame" din R sau Python. În Python aceasta este disponibilă cu ajutorul librăriei "pandas", iar în R este structură primară/nativă, sub forma unui tabel bidimensional în care fiecare coloană conține caracteristici ale unei variabile. Acest tip de date conferă putere de prelucrare a variabilelor categoriale sau nominale, precum și un mod mai intuitiv de utilizare a surselor de date în analiză. Considerând ponderea de matematicieni și cercetători din comunitatea Haskell precum și ritmul de dezvoltare, probabil vom vedea în curând librării adresate acestui aspect.

În cele ce urmează voi descrie aspectele care mi-au plăcut mai mult, dar și minusurile legate de diferite capitole sau teme din carte, așa cum le-am perceput eu.

Cu bune și cu rele

Cartea începe cu un capitol dedicat preluării de date - operații I/O. Puritatea este unul din punctele forte în Haskell atunci când este comparat cu alte limbaje de programare. Când vine vorba de puritate, operațiile I/O sunt un fel de "tendonul lui Ahile" pentru Haskell. Autorul evită să se blocheze într-un discurs teoretic legat în jurul valorii conceptului de puritate în Haskell. Nishant Shukla începe cartea în mod pragmatic, cu un subiect foarte important pentru orice analist sau programator - input de date - preluare de informație din mediul extern. În cadrul capitolului sunt prezentate exemple de preluare de date în diferite formate: CSV, JSON sau XML. Mai mult autorul oferă exemple cu date preluate prin API, capturate din pagina web, sau citite din baza de date nerelațională MongoDB. Rețetele prezentate sunt utile și conțin exemple pentru o serie largă de modalități de preluare a datelor.

În capitolul 2 denumit generic "Integritate și Inspecție" sunt tratate mai multe tipuri distincte de probleme din analiză de date. În primul rând sunt rețete pentru curățarea datelor (trimming, parsing), apoi sunt rețete pentru agregare sau raportare de date (tabele de frecvență) și în al treilea rând sunt secțiuni dedicate similarității în date (distanțe, corelații). Aceste probleme ocupă un rol central în analiză de date și consider că era necesară acordarea unei mai mari importanțe, eventual detaliate în capitol separate. Curățarea și agregarea datelor ocupă probabil peste 80% din activitatea unui analist. Exemplele arată modul în care sunt abordate astfel de probleme fără utilizarea unor librării specializate ci doar folosind cod nativ. Considerând construcția unei aplicații software această abordare este foarte bună, iar exemplele sunt foarte utile. În general un analist dorește să investească un efort redus pentru curățarea datelor, iar librăriile destinate acestui scop ar fi foarte apreciate.

Un analist este cel mai adesea interesat de valoarea informației din date și nu se concentrează neapărat pe calitatea sau eleganța codului. M-ar fi ajutat să văd în exemple cum se generează un tabel cu procente pe coloane sau media pentru categorii. Deși exemplele sunt simple și concise, iar codul arată foarte ordonat, totuși când se vorbește de un raport sau tabel, aș vrea să pot rula rapid și anumite teste statistice precum t-test sau teste non-parametrice.

În continuare conceptele de similaritate, distanțe și corelație sunt expuse pe scurt. Sintaxa Haskell ajută cititorul să vadă formulele statistice într-un mod foarte aproape de exprimarea lor matematică. Acest aspect mi-a plăcut foarte mult în exemplele din carte, făcând codul mai clar și mai ușor de citit.

După capitolul 2 am sărit direct la capitolele 7-8 - "Statistică și Analiză" și "Clustering", mai relevante pentru munca mea de statistician. Aici sunt prezentate o serie de lucruri foarte interesante cum ar fi analiza cluster cu lexeme, construirea în câteva linii a unor n-grame din text, sau aproximarea unei regresii pătratice. Totuși nici în aceste două capitole autorul nu intră în profunzimea topicurilor și nici nu ilustrează exerciții apropiate de cazuri mai realiste. Evident că pentru un spectru așa larg de probleme este greu de obținut acest lucru. Mi s-ar fi părut mai util ca în aceste capitole să se utilizeze seturi de date mai consistente, cu mai mult de 3-5 înregistrări. Pentru mine ar fi valoros să văd folosite seturi de date clasice cum ar fi "Iris" sau "German Credit" pentru ilustrarea acestor exemple de tip "Hello world!" de analiză multivariată. Aceste seturi sunt în mod frecvent utilizate în cărți sau tutoriale pentru alte limbaje de programare, în vederea rezolvării unor probleme de analiză multivariată, sau prelucrare de date.

Capitolul 9 tratează probleme de concurență și paralelism. Explicația conceptelor și a modului de utilizare a limbajului mi s-a părut foarte clară. Autorul nu intră în detalii, dar pentru mine trecerea în revistă a conceptelor însoțita de exemple cu cod a fost foarte utilă.

La fel ca și capitolul anterior, capitolul 10 - "Real Time Data" tratează mai mult probleme inginerești de software și mai puțin de analiză de date: preluarea datelor din Twiter sau canale IRC, precum şi comunicarea în timp real prin socket-uri.