ABONAMENTE VIDEO REDACȚIA
RO
EN
NOU
Numărul 148
Numărul 147 Numărul 146 Numărul 145 Numărul 144 Numărul 143 Numărul 142 Numărul 141 Numărul 140 Numărul 139 Numărul 138 Numărul 137 Numărul 136 Numărul 135 Numărul 134 Numărul 133 Numărul 132 Numărul 131 Numărul 130 Numărul 129 Numărul 128 Numărul 127 Numărul 126 Numărul 125 Numărul 124 Numărul 123 Numărul 122 Numărul 121 Numărul 120 Numărul 119 Numărul 118 Numărul 117 Numărul 116 Numărul 115 Numărul 114 Numărul 113 Numărul 112 Numărul 111 Numărul 110 Numărul 109 Numărul 108 Numărul 107 Numărul 106 Numărul 105 Numărul 104 Numărul 103 Numărul 102 Numărul 101 Numărul 100 Numărul 99 Numărul 98 Numărul 97 Numărul 96 Numărul 95 Numărul 94 Numărul 93 Numărul 92 Numărul 91 Numărul 90 Numărul 89 Numărul 88 Numărul 87 Numărul 86 Numărul 85 Numărul 84 Numărul 83 Numărul 82 Numărul 81 Numărul 80 Numărul 79 Numărul 78 Numărul 77 Numărul 76 Numărul 75 Numărul 74 Numărul 73 Numărul 72 Numărul 71 Numărul 70 Numărul 69 Numărul 68 Numărul 67 Numărul 66 Numărul 65 Numărul 64 Numărul 63 Numărul 62 Numărul 61 Numărul 60 Numărul 59 Numărul 58 Numărul 57 Numărul 56 Numărul 55 Numărul 54 Numărul 53 Numărul 52 Numărul 51 Numărul 50 Numărul 49 Numărul 48 Numărul 47 Numărul 46 Numărul 45 Numărul 44 Numărul 43 Numărul 42 Numărul 41 Numărul 40 Numărul 39 Numărul 38 Numărul 37 Numărul 36 Numărul 35 Numărul 34 Numărul 33 Numărul 32 Numărul 31 Numărul 30 Numărul 29 Numărul 28 Numărul 27 Numărul 26 Numărul 25 Numărul 24 Numărul 23 Numărul 22 Numărul 21 Numărul 20 Numărul 19 Numărul 18 Numărul 17 Numărul 16 Numărul 15 Numărul 14 Numărul 13 Numărul 12 Numărul 11 Numărul 10 Numărul 9 Numărul 8 Numărul 7 Numărul 6 Numărul 5 Numărul 4 Numărul 3 Numărul 2 Numărul 1
×
▼ LISTĂ EDIȚII ▼
Numărul 28
Abonament PDF

Recenzie pentru "Haskell Data Analysis Cookbook"

Radu Marius Florin
Business & Data Analyst
@Fortech



DIVERSE

Am experimentat în Haskell diverse exerciții din curiozitate și în scop educațional. Mă consider un statistician de modă veche, programator de R și uneori de Python. Sunt interesat de statistică și analiză de date, de concepte și paradigme noi precum NoSQL, Big Data, MapReduce sau programare funcțională.

Aviz cititorilor: aceasta nu este o carte pentru introducere în Haskell sau în programare funcțională ci mai degrabă autorul pornește de la premiza că cititorul este familiarizat cu sintaxa precum și cu sistemul de tipuri din Haskell - diferit în mod considerabil față de alte limbaje de programare. În carte sunt utilizate în mod frecvent concepte de programare funcțională precum monada sau puritate.

Modul de prezentare folosit este cel al unei colecții de exemple frumos organizate. Se pot regăsi rețete succinte însoțite de secțiuni de cod destinate în mare parte rezolvării unor probleme de analiză și prelucrare de date, dar cu multe porțiuni dedicate în general programatorilor experimentați. Cartea acoperă o paletă foarte largă de topicuri de programare și de analiză de date. În conținutul ei sunt trecute în revistă o serie largă de concepte și tehnici pe care ar trebui să le stăpânească un analist "complet". Totuși nu se reușește acoperirea în profunzime a acestor topicuri, unele fiind tratate la nivelul "se poate și în Haskell, iar aceasta este doar o introducere".

Ce ne poate oferi Haskell?

Din punct de vedere al interactivității cu datele (read-evaluate-print loop), GHCi din Haskell este comparabil cu iPython sau cu REPL pentru Clojure, dar foarte departe de ce oferă RStudio pentru R, sau mediul Matlab. Într-o activitate de analiză exploratorie, interactivitatea are o importanță deosebită. Încercând exercițiile din carte, am utilizat cu dificultate Haskell pentru investigarea rapidă a surselor de date și a structurii lor. Un analist își dorește în general o interactivitate rapidă cu datele, o inspecție rapidă a acestora sau generare de grafice fără prea mult efort de programare. În Clojure, un alt limbaj funcțional cu o masă critică de utilizatori există Incanter, o platformă destinată analizei statistice și graficelor. Din câte știu până acum nu există ceva similar pentru Haskell și aceasta îl poate face să fie a doua opțiune pentru un analist. Faptul că Haskell nu oferă încă această posibilitate îl plasează ca o opțiune secundară pentru un analist. Evident că în această concluzie sunt influențat de experiența mea cu R, Python, sau Matlab.

În altă ordine, când îmi pun pălăria de programator statistic, care dezvoltă aplicații software centrate pe date, încep să apreciez tot mai mult acest limbaj. Pentru un programator, chiar și în cazul unui prototip sau a unei aplicații de dimensiuni mici, dar care utilizează surse de date cu dimensiuni considerabile, dispersate sau cu o structură complexă (ex. NoSQL, Big Data) elementele de paralelism și concurentă ale limbajului Haskell îl fac foarte apreciat. Haskell este pur funcțional (funcțiile sunt valori, iar valorile nu se schimbă), "lazy & statically typed".

Cartea de față reușește să ilustreze foarte bine toate aceste aspecte ale limbajului Haskell. Se regăsesc explicații din context, cu exemple despre importanța acestor elemente ale limbajului. Aceste modele pot folositoare unui dezvoltator care dorește să construiască software de analiză de date.

Sunt câteva diferențe ușoare între codul din carte și codul descărcat de pe GitHub. Probabil se datorează faptului că fișierele de cod sunt frecvent actualizate în GitHub. Am folosit codul gata scris și am făcut mici modificări pentru a testa pe fișierele proprii. În general lucrurile au funcționat bine. Am avut mici probleme la instalarea unor librării de Haskell. Acest lucru ține mai mult de experiența mea pe parcursul utilizării cărții și e mai puțin legată de conținutul cărții în sine.

Să trecem la fapte

Parcurgând exemplele am resimțit o ușoară nemulțumire când am remarcat că nu am un echivalent pentru "data.frame" din R sau Python. În Python aceasta este disponibilă cu ajutorul librăriei "pandas", iar în R este structură primară/nativă, sub forma unui tabel bidimensional în care fiecare coloană conține caracteristici ale unei variabile. Acest tip de date conferă putere de prelucrare a variabilelor categoriale sau nominale, precum și un mod mai intuitiv de utilizare a surselor de date în analiză. Considerând ponderea de matematicieni și cercetători din comunitatea Haskell precum și ritmul de dezvoltare, probabil vom vedea în curând librării adresate acestui aspect.

În cele ce urmează voi descrie aspectele care mi-au plăcut mai mult, dar și minusurile legate de diferite capitole sau teme din carte, așa cum le-am perceput eu.

Cu bune și cu rele

Cartea începe cu un capitol dedicat preluării de date - operații I/O. Puritatea este unul din punctele forte în Haskell atunci când este comparat cu alte limbaje de programare. Când vine vorba de puritate, operațiile I/O sunt un fel de "tendonul lui Ahile" pentru Haskell. Autorul evită să se blocheze într-un discurs teoretic legat în jurul valorii conceptului de puritate în Haskell. Nishant Shukla începe cartea în mod pragmatic, cu un subiect foarte important pentru orice analist sau programator - input de date - preluare de informație din mediul extern. În cadrul capitolului sunt prezentate exemple de preluare de date în diferite formate: CSV, JSON sau XML. Mai mult autorul oferă exemple cu date preluate prin API, capturate din pagina web, sau citite din baza de date nerelațională MongoDB. Rețetele prezentate sunt utile și conțin exemple pentru o serie largă de modalități de preluare a datelor.

În capitolul 2 denumit generic "Integritate și Inspecție" sunt tratate mai multe tipuri distincte de probleme din analiză de date. În primul rând sunt rețete pentru curățarea datelor (trimming, parsing), apoi sunt rețete pentru agregare sau raportare de date (tabele de frecvență) și în al treilea rând sunt secțiuni dedicate similarității în date (distanțe, corelații). Aceste probleme ocupă un rol central în analiză de date și consider că era necesară acordarea unei mai mari importanțe, eventual detaliate în capitol separate. Curățarea și agregarea datelor ocupă probabil peste 80% din activitatea unui analist. Exemplele arată modul în care sunt abordate astfel de probleme fără utilizarea unor librării specializate ci doar folosind cod nativ. Considerând construcția unei aplicații software această abordare este foarte bună, iar exemplele sunt foarte utile. În general un analist dorește să investească un efort redus pentru curățarea datelor, iar librăriile destinate acestui scop ar fi foarte apreciate.

Un analist este cel mai adesea interesat de valoarea informației din date și nu se concentrează neapărat pe calitatea sau eleganța codului. M-ar fi ajutat să văd în exemple cum se generează un tabel cu procente pe coloane sau media pentru categorii. Deși exemplele sunt simple și concise, iar codul arată foarte ordonat, totuși când se vorbește de un raport sau tabel, aș vrea să pot rula rapid și anumite teste statistice precum t-test sau teste non-parametrice.

În continuare conceptele de similaritate, distanțe și corelație sunt expuse pe scurt. Sintaxa Haskell ajută cititorul să vadă formulele statistice într-un mod foarte aproape de exprimarea lor matematică. Acest aspect mi-a plăcut foarte mult în exemplele din carte, făcând codul mai clar și mai ușor de citit.

După capitolul 2 am sărit direct la capitolele 7-8 - "Statistică și Analiză" și "Clustering", mai relevante pentru munca mea de statistician. Aici sunt prezentate o serie de lucruri foarte interesante cum ar fi analiza cluster cu lexeme, construirea în câteva linii a unor n-grame din text, sau aproximarea unei regresii pătratice. Totuși nici în aceste două capitole autorul nu intră în profunzimea topicurilor și nici nu ilustrează exerciții apropiate de cazuri mai realiste. Evident că pentru un spectru așa larg de probleme este greu de obținut acest lucru. Mi s-ar fi părut mai util ca în aceste capitole să se utilizeze seturi de date mai consistente, cu mai mult de 3-5 înregistrări. Pentru mine ar fi valoros să văd folosite seturi de date clasice cum ar fi "Iris" sau "German Credit" pentru ilustrarea acestor exemple de tip "Hello world!" de analiză multivariată. Aceste seturi sunt în mod frecvent utilizate în cărți sau tutoriale pentru alte limbaje de programare, în vederea rezolvării unor probleme de analiză multivariată, sau prelucrare de date.

Capitolul 9 tratează probleme de concurență și paralelism. Explicația conceptelor și a modului de utilizare a limbajului mi s-a părut foarte clară. Autorul nu intră în detalii, dar pentru mine trecerea în revistă a conceptelor însoțita de exemple cu cod a fost foarte utilă.

La fel ca și capitolul anterior, capitolul 10 - "Real Time Data" tratează mai mult probleme inginerești de software și mai puțin de analiză de date: preluarea datelor din Twiter sau canale IRC, precum şi comunicarea în timp real prin socket-uri.

Conferință TSM

NUMĂRUL 147 - Automotive

Sponsori

  • Accenture
  • BT Code Crafters
  • Accesa
  • Bosch
  • Betfair
  • MHP
  • BoatyardX
  • .msg systems
  • P3 group
  • Ing Hubs
  • Cognizant Softvision
  • Colors in projects