ABONAMENTE VIDEO REDACȚIA
RO
EN
Numărul 148 Numărul 147 Numărul 146 Numărul 145 Numărul 144 Numărul 143 Numărul 142 Numărul 141 Numărul 140 Numărul 139 Numărul 138 Numărul 137 Numărul 136 Numărul 135 Numărul 134 Numărul 133 Numărul 132 Numărul 131 Numărul 130 Numărul 129 Numărul 128 Numărul 127 Numărul 126 Numărul 125 Numărul 124 Numărul 123 Numărul 122 Numărul 121 Numărul 120 Numărul 119 Numărul 118 Numărul 117 Numărul 116 Numărul 115 Numărul 114 Numărul 113 Numărul 112 Numărul 111 Numărul 110 Numărul 109 Numărul 108 Numărul 107 Numărul 106 Numărul 105 Numărul 104 Numărul 103 Numărul 102 Numărul 101 Numărul 100 Numărul 99 Numărul 98 Numărul 97 Numărul 96 Numărul 95 Numărul 94 Numărul 93 Numărul 92 Numărul 91 Numărul 90 Numărul 89 Numărul 88 Numărul 87 Numărul 86 Numărul 85 Numărul 84 Numărul 83 Numărul 82 Numărul 81 Numărul 80 Numărul 79 Numărul 78 Numărul 77 Numărul 76 Numărul 75 Numărul 74 Numărul 73 Numărul 72 Numărul 71 Numărul 70 Numărul 69 Numărul 68 Numărul 67 Numărul 66 Numărul 65 Numărul 64 Numărul 63 Numărul 62 Numărul 61 Numărul 60 Numărul 59 Numărul 58 Numărul 57 Numărul 56 Numărul 55 Numărul 54 Numărul 53 Numărul 52 Numărul 51 Numărul 50 Numărul 49 Numărul 48 Numărul 47 Numărul 46 Numărul 45 Numărul 44 Numărul 43 Numărul 42 Numărul 41 Numărul 40 Numărul 39 Numărul 38 Numărul 37 Numărul 36 Numărul 35 Numărul 34 Numărul 33 Numărul 32 Numărul 31 Numărul 30 Numărul 29 Numărul 28 Numărul 27 Numărul 26 Numărul 25 Numărul 24 Numărul 23 Numărul 22 Numărul 21 Numărul 20 Numărul 19 Numărul 18 Numărul 17 Numărul 16 Numărul 15 Numărul 14 Numărul 13 Numărul 12 Numărul 11 Numărul 10 Numărul 9 Numărul 8 Numărul 7 Numărul 6 Numărul 5 Numărul 4 Numărul 3 Numărul 2 Numărul 1
×
▼ LISTĂ EDIȚII ▼
Numărul 63
Abonament PDF

Machine learning și Java. Interviu cu Boštjan Kaluža

Ovidiu Mățan
Fondator @ Today Software Magazine



INTERVIU

Meseria "data scientist" este o nouă cerinţă în dezvoltarea software. Care sunt diferenţele dintre aceasta și o meserie standard de programator ce lucrează la nivel de server?

Boštjan Kaluža: Dezvoltarea standard de software implică la modul general, construirea de lucruri care sunt înţelese și discutate anterior procesului de dezvoltare. Prin aceasta, programatorii pot monitoriza, prezice și controla procesul. Totuși, proiectele data science încep cu adresarea unei întrebări care poate deveni un model sau o descoperire. Încercarea de a da răspuns la întrebare face din data science un proces de cercetare exploratorie și experimentală ce necesită mai multă flexibilitate și agilitate în ceea ce privește infrastructura data science și toolurile, comparativ cu ceea ce este necesar în dezvoltarea standard de software. Ulterior, când un model trebuie să devină parte a unei soluţii software, data science este mai apropiată de un proces ingineresc tipic.

Boštjan Kaluža - Chief Data Scientist @ Evolven Author of Java and Machine Learning and Instant Weka How-to

În ultima dumneavoastră carte "Machine learning in Java", vorbiţi despre învăţarea supervizată și cea nesupervizată într-un mod practic. Care sunt strategiile/algoritmii abordaţi în carte?*

Boštjan Kaluža: Cartea discută concepte cheie ale machine learning și tehnici precum clasificare, regresie și clustering. Apoi, se axează pe modul în care aceste aspecte sunt puse în practică demonstrând studiile de caz tipice de care e nevoie în realizarea unei aplicaţii: modelarea relaţiei cu clientul, analiza de piaţă, motoare de recomandare, detectarea fraudei și a anomaliei, recunoașterea imaginii, recunoașterea activităţii umane de la senzori de date la text mining. Strategiile utilizate pentru modelarea studiilor de caz includ librării de ultimă generaţie și algoritmi incluși în deep learning și ensembles.

Cum va fi folosită Java în viitor pentru machine learning, unde principalele limbaje folosite sunt Python și R?

Boštjan Kaluža: Python și R sunt cele mai populare limbaje pentru data science și există un motiv bun pentru care lucrurile stau așa. Ambele sunt limbaje de scriptare ce oferă explorare rapidă de date, vizualizare, prototipuri, cercetare și experimentare. R este mai axat pe muncă exploratorie, analiză de sine-stătătoare și analize statistice avansate, în timp ce Python, fiind un limbaj de programare complet, va fi folosit, în mod uzual, când sarcinile data science trebuie să fie integrate cu aplicaţii sau cod de producţie.

Pe de altă parte, Java este un limbaj enterprise de-facto, ce poate fi asociat cu static typing, suport robust IDE, mentenanţă bună, model decent de threading și librării performante, simultane, de structuri de date.

Mai mult, există deja multe librării Java disponibile pentru machine learning, ceea ce face să fie convenabil să existe interfeţe în aplicaţiile Java existente și să se folosească capabilităţi machine learning puternice. Cred că este loc pentru toate cele trei limbaje, fiecare ocupând locul propriu în diferitele etape ale data science.

Ce librării ML aţi recomanda unui programator Java?

Boštjan Kaluža: Există multe librării Java bune pentru diverse sarcini de lucru, dar patru dintre ele ies în evidenţă. Cel mai versatil model este implementarea Weka constând în 270 de algoritmi ce acoperă preprocesarea datelor, selecţa atributelor, clasificarea, regresia, clusteringul și miningul de reguli asociative. Apoi, Apache Mahout este excepţional în prelucrarea volumului mare de date, utilizând procesare și calcule distribuite. Când vorbim de procesarea limbajului natural, Mallet poate realiza o varietate de sarcini de lucruri precum: segmentare de text, tokenizare, lemmatizare, clustering de documente, extracţie de informaţie și modelare de topicuri. Există și deeplearning4java, o librărie Java nativă pentru deep learning distribuit, cu suport GPU și mai multe structuri de reţele neuronale inclusiv LSTM, reţele convoluţionale, reţele recurente, word2vec, mașini Boltzman restricţionate, autoencoders, etc. .

Spuneţi-ne câteva lucruri despre patentele dumneavoastră din domeniile: detectare de anomalii și recunoașterea tiparelor.

Boštjan Kaluža: Teza mea de doctorat a abordat detectarea tiparelor anormale sau suspicioase.

Detectarea anomaliilor este un proces nesupervizat de machine learning, unde modelul învaţă care sunt tiparele uzuale ale unui subiect aflat sub observaţie. După terminarea perioadei iniţiale de învăţare, noile tipare sunt comparate cu modelul, iar dacă tiparele nu se potrivesc, avem o anomalie. Prin comparaţie, detectarea tiparelor suspicioase este un proces supervizat de machine learning unde trebuie să atrenăm un model cu exemple de tipare pozitive și negative, iar modelul învaţă cum să le distingă pe cele două. Multe din patentele mele sunt centrate pe modul în care aceste concepte se aplică la nivelul operaţiilor IT unde scopul este de a ne asigura că aplicaţiile business cheie sunt de încredere și livrează serviciul. Acest lucru se realizează prin operaţii în medii IT ce includ: realizarea tranzacţiei business, volumul de muncă, timpul de răspuns, configuraţiile și procesele IT. Patentele acoperă aspecte specifice implicate în realizarea sistemelor care analizează astfel de date pentru a extrage informaţie relevantă, de exemplu cum să învăţăm care schimbări de configuraţie afectează stabilitatea unei aplicaţii, cum să ne descurcăm cu un număr mare de alerte de monitorizare, care sunt cauzele posibile ale unui incident, cum să înţelegem automat dependinţele dintre componente în medii IT complexe etc.

La ce trebuie să se aștepte participanţi la conferinţa IT Days 2017, 14-15 noiembrie, Cluj-Napoca, în ceea ce privește prezentarea dumneavoastră?

Prelegerea mea va aborda prima întrebare — cum putem aduce data science mai aproape de dezvoltarea standard de software. Vom discuta procesul de realizare a unei aplicaţii machine-learning, modul de realizarea a specificaţiilor, modelul de dezvoltare propriu-zis, cele mai bune tooluri și platforme, realizarea testelor și a mentenanţei. Precum în dezvoltarea software, doar un proces sistematic poate duce la rezultate de calitate superioară ce se pot repeta de la proiect la proiect.

LANSAREA NUMĂRULUI 149

Marți, 26 Octombrie, ora 18:00

sediul Cognizant

Facebook Meetup StreamEvent YouTube

NUMĂRUL 147 - Automotive

Sponsori

  • Accenture
  • BT Code Crafters
  • Accesa
  • Bosch
  • Betfair
  • MHP
  • BoatyardX
  • .msg systems
  • P3 group
  • Ing Hubs
  • Cognizant Softvision
  • Colors in projects