Cum învăţăm să uităm informaţii

Cosmin Gabriel Popa
SA R&D Osprov Team
@Hewlett Packard

PROGRAMARE

Computerele au fost concepute ca o alternativă facilă la creierul uman. Trebuiau replicate puterea şi „misterele” creierului. Oamenii erau vârful evoluţiei raţiunii, dar, la un moment dat, oamenii şi-au dat seama că sunt limitaţi. În cele din urmă, oamenii au început să creeze instrumente pe care să le poată controla pentru a-şi depăşi limitele. Uitarea este un defect uman natural. De aceea, azi trăim într-o eră în care “Internetul nu uită niciodată”. Poate că a venit momentul ca Internetul să înceapă să uite.

Memoria perfectă este un blestem nu doar pentru cel care are această abilitate, ci şi pentru cei care vor intra în contact cu această entitate ce nu greşeşte niciodată. Cum te comporţi pus faţă în faţă cu o astfel de „fiinţă”? Ce îi spui? Cum ar trebui să arăţi? La ce te poţi gândi când tot ceea ce eşti este înregistrat cu o precizie imensă, iar aceste lucruri vor persista până la finalul timpurilor? Timpul este cel mai crunt judecător şi călău, iar acesta este unul dintre lucrurile cele mai înspăimântătoare vizavi de circumstanţele care te aduc în faţa unui astfel de juriu.

De fapt, dincolo de implicaţiile filosofice, “computerele” tind să stocheze totul – de la cartelele ponsabile mecanice la dischete, DVD-uri, CD-uri, harddisk-uri, harddisk-uri externe, centre de stocare de date şi servicii cloud, iar acestea sunt doar câteva din soluţiile folosite. Vor apărea şi altele pe măsură ce tehnologia evoluează. Istoria şi predicţiile arată că, în timp, capacităţile de stocare vor creşte şi vor deveni, inevitabil, mai ieftine – ceea ce înseamnă, mai simplu spus, că putem stoca mai mult cu mai puţini bani. Există şi metode alternative de stocare a datelor (a informaţiei utile şi extrem de importante). Un exemplu îl reprezintă cercetarea legată de stocarea datelor în secvenţele ADN, ceea ce poate duce la capacitatea de a stoca 700 terabytes de date în 1 gram de ADN, traducând datele în cod 1-0, iar apoi asimilându-le structurii TGAC (T şi G=1, A şi C=0), baze ce pot fi sintetizate cu adrese specifice, iar apoi reconvertite în secvenţe. Deci, dacă avem volume semnificative de putere de stocare acum şi dacă găsim noi metode de stocare care să ne permită să stocăm cât mai multe date în cel mai mic spaţiu posibil, de ce ar mai trebui să uităm?

Oamenii aleg ceea ce vor să-şi amintească. Uneori, aceasta nu este o decizie conştientă. Există şi o activitate de conservare a creierului – când se stochează informaţie nouă, informaţia veche eliberează spaţiul pe care îl ocupă. Aşa funcţionează memoria pe termen scurt. Cu timpul, informaţia esenţială şi necesară se relochează în memoria pe termen lung şi este disponibilă la cerere. Este inevitabil ca o bună parte din informaţie (poate date redundante) să fie uitate la alegere sau non-intenţional. Folosirea instrumentelor mnemonice va creşte capacitatea de memorare şi de recuperare a informaţiei, dar acest lucru se face selectiv. Acest lucru presupune că putem filtra date/informaţii în funcţie de importanţa acestora. Neurocercetătorii spun că uitarea este crucială pentru funcţionarea eficientă a minţii, pentru învăţare, adaptare şi recuperarea (reamintirea) lucrurilor semnificative. Cercetătorii în domeniul Reţelelor Neuronale încearcă să rezolve interferenţa catastrofică, numită şi uitare catastrofică. Confruntaţi cu această problemă, cercetătorii au descoperit moduri în care pot schimba structura Reţelelor Neuronale astfel încât abilităţile deja dobândite să nu fie uitate, când o nouă abilitate este dobândită.

Vom ajunge la un punct unde vom fi forţaţi să “învăţăm cum să uităm”. Acesta este un aspect esențial. Uitarea nu este un proces de ştergere, ci este unul de selecţie – să ne dăm seama, din experienţă, ce este important şi ce poate fi lăsat deoparte. Dacă aplicăm acest concept oricărui dispozitiv (sau oricărei alte căi alternative) care stochează date putem crea un mecanism de învăţare supervizată menit să decidă care este informaţia importantă din masa de date deja stocate sau din masa de date noi, de intrare. Acest lucru mai înseamnă că datele irelevante vor fi uitate (eventual şterse) odată cu trecerea timpului.

O metodă este mutarea datelor. Într-un sistem complex unde există mai multe nivele de stocare, vom avea posibilitatea să mutăm informaţia în orice format pe orice nivel în funcţie de importanţă. Acest lucru presupune ca utilizatorul să aibă acces rapid la informaţia importantă pentru el, zi de zi – datele irelevante vor fi arhivate şi mutate între nivele (Fig. 1)

Fig. 1: Mutarea datelor pentru performanţă optimă

Ce se întâmplă cu datele care ating cel mai îndepărtat nivel de stocare? Acestea, odată „îmbătrânite” se vor autodistruge. Ajunsă la acest nivel, informaţia va putea fi accesată, dacă e necesar. Dacă se doreşte recuperarea datelor de pe acest nivel, odată formulată cererea, mecanismul va muta datele înapoi spre punctul cde recuperare care este cel mai accesibil şi mai rapid pentru utilizator.

A doua metodă este arhivarea datelor. Se aplică acelaşi principiu, dar, de data aceasta, suntem conştienţi de faptul că sistemul cu care lucrăm nu este distribuit pe mai multe nivele de stocare. Teoretic, ne referim la o singură unitate, o singură maşină care trebuie să-şi îmbunătăţească performanţa. Aplicând acelaşi mecanism, datele vor fi arhivate când devin irelevante (la fel ca modificarea lor de la un nivel de stocare la altul) până când vor fi şterse. Dacă datele irelevante devin relevante din nou, sistemul le va face disponibile extrăgându-le din arhive (Fig. 2)

Fig. 2: Arhivarea datelor pentru performanţă optimă

Utilizarea acestor metode, deşi rezolvă parţial problema lui “cum se face” în ceea ce priveşte spaţiul de stocare, ele nu reprezintă soluţia completă pentru această problemă. Avem nevoie de un instrument care poate să selecteze informaţia importantă şi utilă din carul cu fân. După cum s-a menţionat deja, aceasta este o procedură de învăţare supervizată care ţine cont, în permanenţă, de nevoile utilizatorului, acesta dacă ținem cont că nevoile utilizatorului sunt mai importante decât o mutare sau o arhivare forţată realizată doar pentru a elibera spaţiul. Utilizatorul va acţiona asupra sistemului cu propriile reguli după care va funcţiona instrumentul. În plus, mecanismul va învăţa care sunt datele importante din informaţiile statistice şi din monitorizarea sistemului. Acest lucru va permite un flux mai bun în accesarea datelor importante repede şi-i va sugera utilizatorului reguli pentru o mai bună gestionare a sistemului (Fig. 3)

Fig. 3: Structura “uitării”

Acest mecanism va învăţa să uite, se va adapta din ce în ce mai bine la cerinţele utilizatorului, iar acest lucru presupune că utilizatorul va avea acces constant la informaţia care trebuie curăţată, cea importantă şi irevocabilă. Gândiţi-vă la Big Data unde volume mari de informaţie nu sunt accesate pentru perioade mari de timp, gândiţi-vă la Internet unde informaţia sensibilă sau periculoasă (fotografii, e-mail-uri, conturi bancare, web-site-uri inactive), va fi mereu disponibilă, gândiţi-vă la Build Servers pentru diverse aplicaţii care stochează sute de build-uri intermediare înainte de lansare (release), gândiţi-vă la centrele virtuale unde maşinile virtuale sunt create pentru a fi utilizate o singură dată iar apoi abandonate fără să se mai ştie la ce au fost folosite, gândiţi-vă la laptop-ul vostru şi cât de frustrant este să nu mai aveţi spaţiu pentru pozele de vacanţă. Datele pot avea ataşate metadate ce pot ajuta în gestiunea informaţiei care poate avea impact asupra deciziilor zilnice ale utilizatorilor. Posibilitatea de a adăuga metadate la datele existente pentru a avea un proces de decizie eficient, va exista mereu, dar nu va fi mereu necesară.

Există o serie de avantaje ale unui astfel de mecanism. Există şi dezavantaje, dar toate sunt legate de cât de mici sunt timpii de acces între diferite nivele de stocare. Sistemul va fi asemenea unei capsule independente care va lucra când e nevoie. Mai mult, utilizatorul va accesa datele importante mai rapid ca oricând. Datele nu se pierd până când acestea nu se mai folosesc sau nu mai sunt utile – timpul trece, iar informaţia îmbătrâneşte, aşa cum este normal.

Trebuie să învăţăm lecţiile istoriei – informaţia este importantă mereu, cunoaşterea este cea mai puternică armă, dar există milioane de GB de date stocate în zone obscure nefolosite sau uitate, dar care tot ocupă un spaţiu semnificativ. Ştergerea datelor devine un act intenţional. Din moment ce computerele au fost inspirate de creierul uman, trebuie ca acestea să emuleze comportamentul creierului. Informaţia trebuie utilizată într-un mod inteligent şi productiv care poate să determine şi să susţină evoluţia. În caz contrar, totul va fi sufocat de volume impresionante (prezente sau viitoare) de terabytes. Ar trebui să ne amintim ce contează, ce este important nu doar pentru noi, ci şi pentru societate. Ar trebui să eliminăm „zgomotul alb”. Maşinile şi instrumentele pe care le folosim nu ar trebui să fie diferite.

Cum învăţăm să uităm informaţii

În aceeaşi ediţie ... (50)

NUMĂRUL 166 - AI for Programmers

Sponsori

INTERVIURI

Cosmin Gabriel Popa a mai scris