TSM - AI experimental - Interviu cu Thordur Arnason și Lena Thorsmæhlum

Ovidiu Mățan - Fondator @ Today Software Magazine

Cap de lance în experimentarea cu AI și în explorarea colaborării om-AI, Gervi Labs pune curiozitatea în slujba tehnologiile GenAI pentru a implementa aplicații pentru lumea reală. Co-fondatorii, Lena Thorsmæhlum și Thordur Arnason, sunt pionierii acestei cercetări pe care o vor prezenta la conferința IT Days din România. În aceste interviu exclusiv, autorii prezintă elementele cheie ale proiectelor lor, dar și rolul AI în arte și în interacțiunea viitoare dintre oameni și roboți.

Interviu asistat de Aison, laborant sintetic, cu instrumente whisper-large-v3, GPT-4o și Gemini 1.5 Pro 002.

Ovidiu Mățan: În primul rând, dorim să știm câteva lucruri despre voi și despre Gervi Labs. Lena, ai dori să începi?

Lena: Gervi Labs este locul în care noi—2 oameni și 7 laboranți sintetici—explorăm capabilitățile GenAI, mai precis modul în care AI poate augumenta creativitatea, execuția și rezolvarea problemelor. Ne place să facem experimente la limita dintre tehnologie și alte domenii, combinând curiozitatea umană cu potențialul AI. Numele nostru, Gervi, vine din norvegiana veche și înseamnă imitare sau realitate sintetică, ceea ce se aliniază perfect cu obiectivul central al activității noastre, anume rolul explorator al AI în crearea de lucruri noi, neobișnuite.

Unul din proiectele voastre se numește "A cookbook that is not a cookbook" (Un rețetar care nu este un rețetar), iar acesta poate fi descărcat. Cum l-ați generat și cât timp v-a luat să îl "scrieți"?

Rețetarul nostru a fost un experiment inițiat în vara anului 2022. Proiectul a fost inspirat de GPT-3, modelul AI de la acea vreme, și de dorința noastră de a explora capabilitățile AI în crearea de conținut. Am jucat rolul de editori, ghidând AI să scrie rețetarul, să facă poze și să îl ilustreze. Ideea a fost de a testa abilitatea AI într-un domeniu precum gătitul—un domeniu pe care AI nu îl poate "înțelege" cu adevărat, din moment ce AI nu poate gusta și nu poate interacționa senzorial. Am ales un rețetar, deoarece acesta este un concept atât uman! Fiind noi înșine pasionați de gătit (chiar am câștigat câteva competiții), am dorit să aplicăm această informație în ceva experimental.

Ne-a luat 10 săptămâni să finalizăm proiectul, ceea ce a însemnat 40-50 ore de muncă, în principal deoarece era un proiect secundar. Rolul nostru a fost de a ghida și de a edita rezultatul AI, nu de a crea direct conținut. Am publicat proiectul pentru a arăta că un conținut generat de AI poate fi viabil și poate fi utilizat în viața reală, volumul fiind disponibil pe site-ul Gervi Labs și Apple Books.

Un alt proiect, "Do AIs Dream of Electric Sheep?" (Poate AI să viseze oi electrice?) pune AI față în față cu concepetele lui Carl Jung. Cum ați tradus arhetipurile și inconștientul colectiv pe înțelesul AI?

Lena: Acest proiect s-a născut din fascinația noastră pentru munca lui Carl Jung în domeniul arhetipurilor și al inconștientului colectiv, un subiect apropiat de inima mea, încă de când eram cursantă la școala de arte. Am început să explorăm cum poate AI să proceseze și să reprezinte aceste concepte în propriile "vise". Ne-am inspirat din experimentele timpurii cu AI care s-au bazat pe materiale vizuale onirice, dar am vrut să aprofundăm aceste lucruri, integrând psihologia lui Jung cu neuroștiința modernă.

Thordur: Am folosit ca date de intrare și conversațiile lungi, permițând sistemului AI "să viseze" peste noapte, generând imagini și interpretându-le, traducându-le înapoi în format text ca prompt-uri. Proiectul și-a propus să emuleze cum pot oamenii procesa aminitiri în timpul somnului—încercând să ne dăm seama, atât în moduri liniare, cât și în moduri fragmentare, care este natura lumii în care trăim. Într-un fel, am explorat cum un sistem AI ar putea interpreta subconștientul uman, deși deseori a alunecat în coșmar! Diferența dintre prompt-urile inițiale de tip text și interpretarea lor finală a fost uneori radical diferită, similar cu modul în care visele umane pot face salturi ciudate, ilogice.

Dacă vorbim de ciclul nocturn care a constat în 8 ore de vis și care a generat imagini difuze, ne puteți spune cât de mare a fost diferența dintre textul inițial și interpretarea finală?

Thordur: Diferența dintre textul original și interpretarea imaginilor rezultate a variat de la caz la caz. Uneori, sistemul AI a urmat o cale aproape liniară, dar am avut și cazuri de divergență extremă. De exemplu, un prompt simplu putea devia în ceva radical diferit după câteva cicluri de reinterpretare. Acest rezultat oglindește modul în care oamenii visează, sărind de la o idee la alta, fără logică clară, ceea ce a fost fascinant de observat.

Lena: Lucrăm la un proiect la scară largă, în domeniul artei, alături de Lin Wang, o artistă chineză ce locuiește în Norvegia, artistă cunoscută pentru sculpturile sale masive de porțelan inspirate de tatuajele marinarilor. Acest proiect dorește introducerea elementelor AI în universul tehnicilor tactile, vechi de secole, așa cum este lucrul cu porțelanul. Colaborăm cu această artistă pentru a înțelege cum poate AI să îmbunătățească atât actul de creație, cât și experiența senzorială.

Thordur: Lucrăm cu o serie de tehnologii AI de tip voce, mai precis pentru citirea de text cu voce sintetică. Experimentul nostru, «The Town of Trottersville and the Curious Contraption» (Orașul Trottersville și capcana ciudată) este un material audio scurt. De fapt, este o povestire scrisă împreună cu AI, pe baza căreia am produs o carte audio cu voci sintetice. Acest proiect arată cât de mult a evoluat materialul audio generat cu AI, fiind o zonă pe care o explorăm constant.

Lena: AI este un partener creativ minunat. Consider că orice artist poate fi co-creator alături de AI, în ciuda scepticismului inițial. Obiectivul nostru nu trebuie să fie doar rezultatul final, ci și modul în care AI poate augumenta procesul creativ în sine. Artiștii transgresează limitele constant, iar AI poate fi un instrument care să augumenteze această abilitate, pentru ca artiștii să itereze mai rapid și să exploreze noi dimensiuni ale muncii lor.

Thordur: Ceea ce ne încântă cel mai mult este caracterul multimodal al AI—poate conecta imagini, sunete, text și, potențial, date senzoriale, precum gustul și mirosul. Modalitățile de extindere a creativității sunt nebănuite. Făcut ca la carte, AI crește gradul de accessibilitate, dar și pe cel de creativitate pentru artiști.

Care este următorul pas în evoluția AI? Credeți că ne îndreptăm spre o singularitate unde nu mai avem granițe clare între roboți și oameni?

Thordur: Cred că limita dintre oameni și AI se șterge încet-încet, în special în contextul în care robotica și AI-ul se dezvoltă în ritm exponențial. Nu mai ține de domeniul SF să avem roboți care să muncească zilnic alături de noi. Androizii vor deveni mai prevalenți în case, birouri, cabinete medicale, iar roboții fini (soft), meniți să interacționeze cu oamenii în siguranță, avansează rapid. Suntem undeva la 50/50 între SF și realitate.

Lena: În laboratorul nostru, explorăm constant modul în care AI poate simți și exprimenta lumea. Nu e vorba doar de a face sistemele AI capabile de detecție fizică, ci și despre a înțelege perspectiva lor asupra lumii noastre. Acesta este filonul central al Gervi Labs—înțelegerea interacțiunii dintre simțurile umane și simțurile sintetice, pentru a descoperi noi moduri de a lucra.

Rămâneți conectați la cercetările Gervi Labs, pe măsură ce Lena și Thordur continuă să exploreze frontiera dintre creativitatea umană și inteligența sintetică.