Cât de siguri sunteți că informația pe care o căutați prin intermediul motoarelor de căutare online, de genul Google sau BING, este informația de care aveți cu adevărat nevoie? Această întrebare, pe cât de simplă, generează două mari probleme: una de ordin etic - Sunt utilizatorii online constrânși într-o "search bubble"? - dar și una de ordin tehnic - Cum ar putea informația relevantă să ne găsească pe noi, utilizatorii, în loc să o căutam noi?
Pe Internet, în fiecare minut sunt generate peste 270.000 de tweets, Google procesează peste două milioane de queries, sunt încărcate peste 72 de ore de material video pe Youtube, sunt trimise peste 100 de milioane de e-mail-uri, Facebook procesează 350 GB de date și sunt create 571 de website-uri. În fapt, în 2012 au fost create date însumând 2.5 quintilioane de bytes, peste 90% din datele online fiind generate în ultimii doi ani. În acest context, fenomenul Big Data nu schimbă doar tehnologiile web, ci și modul în care utilizatorii interacționează cu informația.
Avem de-a face cu o schimbare radicală de paradigmă. Deja motoarele de căutare generaliste sunt gradual înlocuite de motoare de căutare axate pe domenii (travel, e-commerce, etc.), însă o nouă suită de tehnologii care utilizeaza machine learning, natural language processing, predictive analysis și semantic intelligence au introdus deja conceptul de Discovery, care vor înlocui complet modul în care ne găsim datele în online, prin Search.
Search și Discovery sunt două modalități diferite a aborda consumul din informație în online. Căutarea de informație este potrivită atunci când știm ce căutam, însă dacă dorim să aflăm - într-un mod sintetizat și categorizat - ceea ce se întâmplă, în timp real și contextualizat, răspunsul este conceptul de Discovery.
Să luăm ca exemplu experiența de search folosind motorul de căutare Google. Din momentul în care facem primul search de pe un device nou, query-urile Google vor fi personalizate în funcție de IP și regiune. Apoi, pe măsură ce facem noi și noi căutări și click-uri pe linkurile rezultate, Google va crea un profil specific fiecărui utilizator, generând ceea ce se numește "Search Bubble" sau "Filter Bubble". Utilizatorii devin constrânși într-un set limitat de rezultate, pe care îl pot schimba doar prin modificarea setărilor din Google, lucru pe care foarte puțini utilizatori îl fac. Care rezultate sunt favorizate în detrimentul altora, care sunt rezultatele care devin demoted, fiind afișate după pagina 1 și cât de aproape suntem de informația cu adevărat relevantă pe care o căutam - toate aceste aspecte sunt ascunse în filtrul de sugestii al motorului de căutare. O tentativă de rezolvare a acestei probleme este realizarea unui motor de căutare nediscriminatoriu, de genul www.duckduckgo.com, care însă nu rezolvă problema cu adevărat importantă: cât timp suntem dispuși să petrecem online căutând informația care ne interesează cu adevărat?
Un studiu realizat de Nielsen Norman Group, un think-tank specializat în domeniul online user experience, arată că utilizatorii citesc cel mult 28% din conținutul unei pagini web în timpul unei vizite, 20% fiind media. Aceste date, corelate cu modul în care utilizatorii caută datele online, sunt dovada că paradigmele pe care a fost construită experiența online în urmă cu peste 10 ani au devenit învechite, nefiind ajustate în funcție de cantitatea enormă de informație generată în prezent și de nevoia utilizatorilor online de a avea acess la informația relevantă cât mai ușor și rapid.
Conceptul de Discovery vine în întâmpinarea acestor probleme, având avantajul de a genera awareness în locul unor răspunsuri exacte, de a pune la dispoziția utilizatorului conținut în timp real, prin monitorizarea domeniilor de interes, de a pune la dispoziția utilizatorului posibilitatea de a selecta conținutul preferat și relevant, dar și de a oferi conținut neașteptat, nou, care să creeze o nouă arie de interes pentru utilizator.
Cum se construiește un motor de Discovery? Chiar dacă acest domeniu inovativ este încă într-o fază incipientă, există deja platforme de Content Curation, în special pentru conținutul online de știri sau pentru rețele sociale. O astfel de platformă inteligență a fost construită de compania clujeană ZA Cloud. MediaServista - www.mediaservista.com - este prima platformă inteligentă pentru conținut online din România, care se bazează pe conceptul Discovery. Platforma MediaServista - un produs cloud Software as a Service accesibil prin REST API, este deja folosită de site-ul www.stirili.ro, unul dintre cele mai populare agregatoare de știri din România, pentru a livra conținut personalizat utilizatorilor folosind peste 350 de surse din presa online, de la ziare quality la bloguri, știri procesând peste 1 milion de articole de la lansarea din mai 2013.
La baza unui motor de Discovery se află procesarea datelor, îmbinată cu învățarea activă a preferințelor utilizatorilor. Folosind tehnologii de Natural Language Processing (procesare naturală de limbaj), conținutul online poate fi categorizat automat, indiferent de limbă, pentru a genera o bază de date semantică, unde conținutul are înțeles . Pe de altă parte, interacțiunea utilizatorului cu conținutul, ce citește, cât citește, la ce face share pe rețele sociale și ce pagini web sunt semnalate explicit ca fiind preferate, este folosită pentru a crea un profil unic al fiecărui utilizator, lăsând posibilitatea modificării acestui profil într-un mod ușor și intuitiv. Conținutul livrat utilizatorului va fi atât conținut relevant, pe care engine-ul l-a învățat în timp, dar și conținut nou pentru a se asigura că utilizatorul nu cade în capcana Search Bubble. Modul în care conținutul online, procesat în timp real și profilul fiecărui utilizator sunt potrivite pentru a crea o experiență personalizată de tip Discovery, se realizează prin tehnologii de analiză predictivă. Ce pagină web să fie servită utilizatorului, cât de relevantă este pentru utilizator și cum să fie servită, aceste operațiuni sunt fundamentul oricărui motor de Discovery.
Și pentru a realiza o experiență de procesare a informației mai facilă, în care utilizatorul nu este nevoit să citească prea mult text pentru a ajunge la informația relevantă, se poate genera un rezumat automat, folosind tot tehnologii NLP precum și modificarea paginilor web prin impunerea unor elemente semantice. Eliminarea conținutului adițional și prezentarea paginii în format read-able plain text sau generarea unor grafice semantice, care prezintă entitățile și locațiile prezentate în material sub forma unui grafic ușor de înțeles sunt de asemenea demersuri care conduc la o procesare mai facilă a informației. Pentru a demonstra avantajele sumarizării automate a textului, platforma MediaServista pune la dispoziție o pagină de test pentru limbile română și engleză: