Experts panel: AI & Maps

Ovidiu Mățan
Fondator @ Today Software Magazine

INTERVIU

Care este impactul AI-ului asupra tehnologiei actuale și cum ne poate face să îmbunătățim modul în care sunt generate hărțile ? Sunt două întrebări la care am încercat să răspundem alături de:

Adrian Margin - Senior Engineering Manager, Machine Learning @ Grab,
Philipp Kandal - Chief Product Officer @ Grab,
Cătălin Golban - Head of Department Engineering Systems Vision @ Bosch,
Cotyso Bodea - CTO @ Everon AG,
Ovidiu Mățan - Founder @ Today Software Magazine (moderator)

Ovidiu Mățan: Vă invit să vă realizați o scurtă introducere

Cotyso Bodea: Am lucrat în domeniul financiar, ulterior am migrat de la Trading (tranzacționări) la Banking. Lucrez încă în domeniul financiar, mai precis în FinTech. Sunt în cadrul unui start-up unde încercăm să democratizăm industria de Banking privat, industrie momentan accesibilă doar celor foarte bogați. Vrem să facem aceste servicii disponibile pentru mai multe categorii.

Adrian Margin: Sunt interesat de domenii precum Computer Vision, Machine Learning, Generative AI și nu numai. Folosim toate aceste componente la Grab pentru a dezvolta și a îmbunătăți hărțile.

Philipp Kandal: Deoarece vin din Singapore, momentan mă bucur de vremea răcoroasă din Cluj. Conduc toate echipele noastre de Product Design și Analytics. Conduc și echipa care se ocupă de dezvoltarea hărților. Am locuit cinci sau șase ani la Cluj, dar acum locuiesc în Singapore. Singapore ne dă posibilitatea să purtăm dialog atât cu China, cât și cu Taiwan. Este extraordinar.

Cătălin Golban: Sunt responsabil cu dezvoltarea tehnologiei la Bosch. Avem foarte multe activități de Computer Vision embedding în proiectele noastre dedicate vehiculelor autonome. Lucrăm atât cu tehnologii cloud, cât și cu Data Engineering, având în vedere noile tendințe AI.

Folosiți AI?

Cotyso Bodea: Da, ne bazăm pe LLMs. Ne ajută foarte mult și nu puteau sosi pe piață la un moment mai bun. Observ că programatorii sunt mai reticenți în a folosi AI pe post de ajutor, în timp ce restul businessului folosește AI (de exemplu, ChatGPT) zilnic. Folosim AI ca parte a produsului nostru. De exemplu, să presupunem că avem un portofoliu gestionat pe web. Din varii motive, portofoliul se depreciază sau nu dă randament. În industria private Banking, acesta e momentul în care clientul își va suna bancherul. AI ne poate ajuta să generăm un rezumat sau o descriere scurtă a ceea ce s-a întâmplat cu acel portofoliu. Pentru a reuși acest lucru, folosim ChatGPT.

Pe ce proiecte AI lucrează echipele voastre? Care sunt provocările principale când lucrați cu hărți?

Adrian Margin: Este foarte important să avem mereu o vedere cât mai actuală, cât mai recentă a datelor. Este o provocare să extragem aceste informații din realitate și să le integrăm ca parte a hărții. Colectăm permanent imagini 365 folosind camere. Procesul este similar serviciului Google Street View. Doar în acest an am adunat peste 120 milioane de astfel de date. Extragerea informațiilor relevante reprezintă doar unul din pilonii activității noastre. Al doilea pilon se referă la colectarea datelor GPS din telefonul șoferilor. În practică, avem miliarde de semnale pe oră. Al treilea pilon, început recent își propune colectarea instant de informații cu ajutorul unei camere H. Pentru a realiza acest lucru, dorim să mutăm partea de procesare dinspre server pe camera în sine. De ce? Deoarece camera include un chip AI, iar scopul nostru este de a rula toate modelele aici, de a face toate operațiunile de geo-poziționare aici și doar apoi de a încărca ceea ce este relevant.

Care sunt tendințele când vine vorba de construit și gestionat hărți?

Philipp Kandal: AI este o tehnologie care revoluționează modul în care lucrăm, întrucât schimbă modul în care interacționăm cu interfața grafică. Nu este prima revoluție la care asist. În anii '90, când am început să scriu cod, am fost martorul trecerii de la desktop la web, iar apoi de la web la mobile. AI schimbă lucrurile foarte mult. În acest moment, ne așteptăm la o logică inteligentă de utilizare a produsului. Ajungi acasă, accesezi un ecran, iar apoi încă unul, așteptând ca arhitectura informației să ghideze toată interacțiunea și experiența de utilizare. Cu avansul actual în AI, totul este dat peste cap. La Grab facem aproximativ 20 de apelări web (web calls) pe ecran, de exemplu. Când folosim AI, ca utilizatori putem întreba orice. Oferim diverse servicii: putem rezerva un mijloc de transport, putem lua un împrumut, putem livra mâncare etc. Până la acest moment, trebuia să dăm click prin interfață. Acum, putem vorbi și cere orice ne dorim, ceea ce înseamnă că și arhitectura se schimbă. Până la acest moment, am construit interfețe de utilizator minimaliste care să ne arate ceea ce este important, dar în viitor ar trebui să construim module API care oferă rezultate utilizatorilor doar când utilizatorii interoghează sistemul. Aici văd eu marea schimbare de abordare - să avem servicii care funcționează precum limbajele naturale. Construim noi înșine multe lucruri, deoarece lucrăm într-un mediu lingvistic complex. LLM-urile nu sunt încă bine dezvoltate când ne uităm la limbile asiatice. ChatGPT și Open AI nu au încă optimizări pentru limbile cu care lucrăm noi. Ne construim noi ceea ce ne trebuie dacă ceea ce există pe piață nu este suficient de bun.

Care este rolul hărților în domeniul Automotive? Cât de utile sunt?

Cătălin Golban: Se completează reciproc. Avem și noi un proiect dedicat hărților. A început acum ceva timp și se bazează pe tehnologia radar. Acum am introdus și datele video. Este adevărat că avem și un anume grad de redundanță, dar sistemele devin din ce în ce mai avansate. Ceea ce îmi place este modul în care îmbinăm funcționalitățile embedded cu tehnologia cloud, ceea ce ne permite să ne aliniem intențiile cu tehnologia AI. Tehnicile de învățare de tip self-supervision folosite pentru antrenamentul AI pe text sau alt input se aplică și altor modalități: input de tip senzor, input de tip radar, input de tip video. Totul se rezumă la abilitatea de a învață și extrage tipare în absența datelor adnotate. Învățarea fără adnotări într-o manieră multi-modală este una foarte eficientă, dar este costisitoare.

Cât de mare este echipa voastră și ce specialități aveți?

Cotyso Bodea: În trecut am fost implicat în proiecte în care coordonam 100 de oameni, dar la actuala companie am o echipă de 8-9 persoane în Cluj. Unitatea de business se află în Zurich, dar tehnologia se află la Cluj. Circul între cele două locații la două săptămâni. Ca orice start-up, avem nevoie de cât mai multe pârghii, motiv pentru care folosim AI. Acest start-up a fost fondat acum patru ani, iar eu m-am alăturat echipei acum un an și jumătate. Scriu cod cu ajutorul ChatGPT. În 2005 m-am oprit din a scrie cod, iar acum m-am reapucat să scriu cod profesionist cu ChatGPT. Am făcut o pauză de 17 ani, fiind implicat în activități de management. M-am reapucat să scriu cod doar ca să le arăt colegilor mei că ChatGPT poate ajuta cu scrierea rapidă de cod.

ChatGPT poate oferi o acuratețe de 40%-60%. Ce se întâmplă cu răspunsurile greșite pe care le generează?

Cotyso Bodea: Utilizarea unui tool precum Copilot se aseamănă cu învățarea unei limbi străine. E un du-te-vino continuu. E un proces, dar, după ce înveți cum să îl folosești, vei fi mai rapid decât erai.

Adrian Margin: Avem o echipă care era foarte bună pe Python și C++. Doream să scriem cod în Kotlin, dar echipa nu știa Kotlin deloc. Asta s-a întâmplat acum cinci ani. Cerința era să dezvoltăm toate modelele și să rulăm codul eficient în Kotlin. Pe lângă rezolvarea părții funcționale, am avut acces la toate versiunile GPT chiar după apariția lor pe piață, deci am putut învăța, ceea ce e grozav la Grab. Mai mult, Copilot a fost disponibil pentru fiecare developer. Echipa a fost extrem de încântată să le încerce. Ne-a ajutat să învățăm și să implementăm structura codului. Drept consecință, curba noastră de învățare a fost optimă. În practică, nu mai scriu cod care merge în producție. Scriu cod doar pentru a descoperi și testa lucruri noi. Totuși, când chiar scriu cod, folosesc GPT4 sau Copilot. De exemplu, am avut o întrebare: Cum pot vizualiza aceste date? Am o hartă pe care vreau să mapez date geo-spațiale. Mai mult, doresc să obțin o vizualizare a semnelor de circulație sau a altor elemente specifice străzilor (sens unic sau nu). Ca să obținem aceste rezultate, putem începe o conversație cu GPT4. Totul începe cu generarea unui script. Apoi, soliciți ca răspunsul să fie împărțit pe module. Apoi, ceri ca funcția să fie extrasă într-un mod eficient. Apoi, poți schimba semnătura metodei, determinând parametrii să facă ceva specific. În mod surprinzător, dacă observăm o eroare și o descriem, GPT4 poate să o rezolve.

De ce este Grab activ doar în Asia?

Philipp Kandal: Am pornit afacerea în Asia de Sud-Est, iar apoi ne-am extins în opt țări, unde locuiesc aproximativ 700 de milioane de oameni. Avem, lunar, 35 de milioane de utilizatori care fac tranzacții. Considerăm că mai avem foarte multe de făcut aici. Ne mândrim cu faptul că unul din 20 de oameni ne folosesc serviciile. Știm și că încă nu am ajuns la 9 din 20 de oameni. Dorim să oferim servicii mai bune locuitorilor acestor țări.

Dacă ar fi să lansați un produs mâine, care ar fi acesta?

Philipp Kandal: Când vine un val nou de tehnologie, este cel mai bun moment să începi ceva. Aș face ceva ce nu era posibil până acum. Acum câteva săptămâni eram în Tailanda încercând propriile servicii ca orice client obișnuit. Am accesat serviciul de livrare și mă gândeam cum ar putea ChatGPT să fie ghidul meu. ChatGPT funcționează și cu fotografii. Putem încărca fotografii. Călătoream și vedeam multe temple. Puteam să încarc în GPT fotografii ca acesta să îmi spună de ce sunt acestea relevante pentru cultura tailandeză. GPT a fost destul de bun pe post de ghid turistic. Acum trei ani, era imposibil să existe colaborare între Computer Vision și limbaj natural. Totul evoluează foarte repede. La începutul acestui an, GPT nu era adaptat pentru Computer Vision. Nu puteam comunica prin voce, dar acum putem. Între timp, s-au integrat atât Voice Recognition, cât și Text to Speech. Putem încărca o foaie de calcul pe care să o analizăm. Putem accesa internetul pentru informații în timp real direct din GPT.

Cotyso Bodea: Un prieten care lucrează la Google mi-a spus că există multe modele extraordinar de bune care se folosesc intern, dar care nu au fost dezvoltate pentru public. Intern, Google avea modele comparabile cu GPT4 acum câțiva ani. După ce Google va face tranziția modelelor către public, modelele vor fi uimitoare.

Cătălin Golban: Munca cu embeddings este o temă fierbinte în Automotive. Companiile își gândesc și își publică modelele pe modelul profesor-elev. Inițial se construiește modelul profesor, iar apoi modelul elev care este mai mic. Apoi, poți genera modele și mai mici. Este incredibil că putem distila modelele, anume că avem un model mare care instruiește modelul mai mic, astfel încât modelul mic să fie inclus pe mobil sau laptop. Există o industrie dezvoltată în jurul rețelelor neuronale care pot infera informația (text, imagine, informație multi-modală) eficient. În Automotive, scopul este să ajungem la înțelegere folosind informație textuală. Când pui text și video împreună, obții performanță mai mare decât atunci când ai doar informație video. Dacă avem adnotare de text, este mai ușor pentru un model video să detecteze un obiect. Multi-modalitatea are potențial mare. Mașina ar putea să vă explice de ce s-a oprit, poate pentru că era un pericol pe stradă. Există un potențial imens în folosirea informației de la senzori multipli.

Experts panel: AI & Maps

LANSAREA NUMĂRULUI 161

În aceeaşi ediţie ... (139)

NUMĂRUL 159 - Industria Automotive

Sponsori

Ovidiu Mățan a mai scris