TSM - SEO – time is money

Andrei Draga - Senior Software Engineer @ Betfair Romania Development


Dacă site-ul tău ar fi un muzeu, iar vizitatorii ar avea la dispoziție doar o oră pentru a-l vizita, ce le-ai arăta?

Ce este SEO?

SEO (Search Engine Optimization) este un set de practici și strategii aplicate unui site web cu scopul de a îi crește relevanța și vizibilitatea.

Pentru a face paginile unui site web accesibile pentru cât mai mulți utilizatori, niște programe numite web crawlers (cunoscute și sub numele de spiders sau bots) navighează în mod sistematic pe World Wide Web pentru a colecta și indexa informațiile de pe site-uri. Rezultatele relevante ale crawlingului sunt afișate ulterior utilizatorilor prin intermediul motoarelor de căutare precum Google, Bing sau Yahoo.

Un crawler web, cum ar fi Googlebot (crawlerul principal al Google), nu alocă un timp fix pentru un site, predictibil, cunoscut și sub formă de crawling budget, însă alocă diverse cuante de timp care trebuie maximizate de către strategia SEO folosită. Dacă în cazul unor site-uri cu pagini statice sau modificate rar, cum ar fi blogurile, optimizarea bugetului de crawling nu este prioritară, în cazul site-urilor cu conținut dinamic generat în volum mare (site-uri de știri, marketplace-uri, platforme de pariuri etc.), orice detaliu face diferența privind poziția site-ului în rezultatele afișate de către motorul de căutare.

Pentru a facilita descoperirea de către boți a linkurilor nou apărute pe un site în continuă schimbare, pe lângă calitatea intrinsecă a conținutului paginilor web, site-ul expune și sitemapuri de tip XML și HTML. Folosindu-se de acestea, boții află despre existența linkurilor, frecvența actualizării lor, priorități, echivalențe în alte limbi, structura generală a site-ului, fără a mai fi nevoit să facă un crawling propriu-zis și o parsare a fiecărei pagini. De reținut este faptul că aceste hărți cu linkuri nu înlocuiesc crawlingul, ci joacă doar un rol complementar.

Use case: analiză platformă de pariuri sportive

Un site de pariuri sportive are următoarele particularități:

Pentru aceste caracteristici specifice, se pretează abordări SEO specifice:

Sitemaps

În mod uzual, sitemapurile conțin toate URL-urile de pe site, atât în format XML (referite încă din fișierul standard robots.txt), cât și în format HTML. Dacă primele sunt mult mai utile pentru boți, cele din urmă sunt orientate spre utilizatorul uman al site-ului, însă oferă și indicii boților despre structura arborescentă de pe site, despre relația dintre pagini, fiind complementare sitemapurilor XML.

Însă ce facem când dispunem de un crawling budget limitat și avem peste 10,000 de

URL-uri pe site aflate într-o continuă schimbare (se termină meciuri, încep altele)?

  1. Împrospătăm sitemapurile frecvent, în funcție de tipul paginii.

  2. Alocăm priorități evenimentelor în funcție de:

  3. Înștiințăm boții prin mecanisme de tip ping după o regenerare.

  4. Excludem linkurile care nu sunt de interes pentru a maximiza șansa celorlalte de a fi vizitate în cuanta de timp alocată.

Exemplu:

<urlset 
 xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9”>
<url>

<loc>
 https://www.betfair.ro/sport/football/anglia-premier-league/newcastle-v-liverpool/34630163 
</loc>

<lastmod>2025-08-19T17:36+00:00</lastmod>
<changefreq>always</changefreq>
<priority>0.7</priority>
</url>
...
</urlset>

Din același CMS, la pachet cu excluderea din XML sitemap pentru un URL, putem adăuga și o meta informație în cadrul paginilor HTML:

<meta name="robots" content="noindex, nofollow">

având următoarele scopuri:

în cazul în care paginile sunt găsite prin mecanismul de crawling, nu pornind de la XML sitemaps.

Response time

Fiindcă ne dorim ca un bot de crawling să parcurgă cât mai multe pagini în timpul dat, o țintă importantă este să reducem timpul de răspuns al paginilor web.

Strategiile clasice de tip minificare HTML ajută în primul rând utilizatorul prin reducerea timpului de descărcare și randare, botul beneficiind de aceleași avantaje ca efect secundar. Însă în continuare ne concentrăm pe strategii destinate botului, fără impact asupra utilizatorului uman.

Un prim lucru pe care trebuie să îl evităm este fenomenul numit cloaking, o practică prin care un site web afișează conținut diferit pentru boți față de ceea ce vede utilizatorul real cu scopul de a manipula indexarea. O asemenea abordare poate duce la penalizări SEO, scoaterea paginilor din index sau la scăderi drastice în ranking pentru un website. Pentru a evita cloakingul este important să returnăm același conținut și ideal același status code, dar avem flexibilitate în ceea ce privește prezentarea (layout, interactivitate) și eventuala pre-randare.

Dacă avem pagini statice, putem să le cacheuim încă de la nivel de CDN, gestionând corect politica de expirare sau invalidare a cache-ului când se schimbă conținutul.

Alternativa ar fi doar să le pre generăm (SSG = Static Site Generation) și să le servim direct de pe server.

În cazul paginilor cu conținut dinamic se întâlnesc două mari abordări:

Server-side rendering (SSR):

Client-side rendering (CSR) :

Pentru a gestiona paginile de tip CSR, se introduce un layer de tip proxy care transformă CSR-ul în SSR de fiecare dată când requestul provine de la un bot de crawling identificabil pe baza valorii HTTP header-ului User-Agent.

Acesta rezolvă problema funcțională, însă deoarece rezultatul pre-randării este un HTML static, se pretează și pentru a ține un cache cu aceste pagini pre-randate pentru a servi conținutul mai rapid în cazul următoarelor request-uri.

Cum optimizăm timpii de răspuns pentru paginile cached?

Cum ne protejăm de umplerea memoriei cu pagini cached?

Cum eficientizăm stocarea?

Arhivăm. Fiindcă fiecare site poate avea zeci de mii de pagini, iar acesta poate să existe în diferite forme (pe mai multe domenii, în mai multe limbi), pentru 500,000 de pagini cu o medie de 500 kB per pagină, am avea o nevoie de 250 GB spațiu de stocare, ceea ce ar fi acceptabil pentru storage pe disk, dar foarte scump pentru a stoca în RAM. Empiric, prin compresie putem reduce aceste valori de ~25x, de la 250 GB până 10 GB de RAM.

Concluzii

Dacă vrei să ascunzi ceva, nu îl pune într-un seif, ci pe pagina a doua din Google.

Și fiindcă puțini își amintesc cine a ieșit pe locul 2 într-o cursă, împletește strategiile de business cu finețea tehnică dacă vrei un site remarcabil.