ABONAMENTE VIDEO REDACȚIA
RO
EN
NOU
Numărul 158
Numărul 157 Numărul 156 Numărul 155 Numărul 154 Numărul 153 Numărul 152 Numărul 151 Numărul 150 Numărul 149 Numărul 148 Numărul 147 Numărul 146 Numărul 145 Numărul 144 Numărul 143 Numărul 142 Numărul 141 Numărul 140 Numărul 139 Numărul 138 Numărul 137 Numărul 136 Numărul 135 Numărul 134 Numărul 133 Numărul 132 Numărul 131 Numărul 130 Numărul 129 Numărul 128 Numărul 127 Numărul 126 Numărul 125 Numărul 124 Numărul 123 Numărul 122 Numărul 121 Numărul 120 Numărul 119 Numărul 118 Numărul 117 Numărul 116 Numărul 115 Numărul 114 Numărul 113 Numărul 112 Numărul 111 Numărul 110 Numărul 109 Numărul 108 Numărul 107 Numărul 106 Numărul 105 Numărul 104 Numărul 103 Numărul 102 Numărul 101 Numărul 100 Numărul 99 Numărul 98 Numărul 97 Numărul 96 Numărul 95 Numărul 94 Numărul 93 Numărul 92 Numărul 91 Numărul 90 Numărul 89 Numărul 88 Numărul 87 Numărul 86 Numărul 85 Numărul 84 Numărul 83 Numărul 82 Numărul 81 Numărul 80 Numărul 79 Numărul 78 Numărul 77 Numărul 76 Numărul 75 Numărul 74 Numărul 73 Numărul 72 Numărul 71 Numărul 70 Numărul 69 Numărul 68 Numărul 67 Numărul 66 Numărul 65 Numărul 64 Numărul 63 Numărul 62 Numărul 61 Numărul 60 Numărul 59 Numărul 58 Numărul 57 Numărul 56 Numărul 55 Numărul 54 Numărul 53 Numărul 52 Numărul 51 Numărul 50 Numărul 49 Numărul 48 Numărul 47 Numărul 46 Numărul 45 Numărul 44 Numărul 43 Numărul 42 Numărul 41 Numărul 40 Numărul 39 Numărul 38 Numărul 37 Numărul 36 Numărul 35 Numărul 34 Numărul 33 Numărul 32 Numărul 31 Numărul 30 Numărul 29 Numărul 28 Numărul 27 Numărul 26 Numărul 25 Numărul 24 Numărul 23 Numărul 22 Numărul 21 Numărul 20 Numărul 19 Numărul 18 Numărul 17 Numărul 16 Numărul 15 Numărul 14 Numărul 13 Numărul 12 Numărul 11 Numărul 10 Numărul 9 Numărul 8 Numărul 7 Numărul 6 Numărul 5 Numărul 4 Numărul 3 Numărul 2 Numărul 1
×
▼ LISTĂ EDIȚII ▼
Numărul 158
Abonamente

SEO – time is money

Andrei Draga
Senior Software Engineer @ Betfair Romania Development



PROGRAMARE


Dacă site-ul tău ar fi un muzeu, iar vizitatorii ar avea la dispoziție doar o oră pentru a-l vizita, ce le-ai arăta?

Ce este SEO?

SEO (Search Engine Optimization) este un set de practici și strategii aplicate unui site web cu scopul de a îi crește relevanța și vizibilitatea.

Pentru a face paginile unui site web accesibile pentru cât mai mulți utilizatori, niște programe numite web crawlers (cunoscute și sub numele de spiders sau bots) navighează în mod sistematic pe World Wide Web pentru a colecta și indexa informațiile de pe site-uri. Rezultatele relevante ale crawlingului sunt afișate ulterior utilizatorilor prin intermediul motoarelor de căutare precum Google, Bing sau Yahoo.

Un crawler web, cum ar fi Googlebot (crawlerul principal al Google), nu alocă un timp fix pentru un site, predictibil, cunoscut și sub formă de crawling budget, însă alocă diverse cuante de timp care trebuie maximizate de către strategia SEO folosită. Dacă în cazul unor site-uri cu pagini statice sau modificate rar, cum ar fi blogurile, optimizarea bugetului de crawling nu este prioritară, în cazul site-urilor cu conținut dinamic generat în volum mare (site-uri de știri, marketplace-uri, platforme de pariuri etc.), orice detaliu face diferența privind poziția site-ului în rezultatele afișate de către motorul de căutare.

Pentru a facilita descoperirea de către boți a linkurilor nou apărute pe un site în continuă schimbare, pe lângă calitatea intrinsecă a conținutului paginilor web, site-ul expune și sitemapuri de tip XML și HTML. Folosindu-se de acestea, boții află despre existența linkurilor, frecvența actualizării lor, priorități, echivalențe în alte limbi, structura generală a site-ului, fără a mai fi nevoit să facă un crawling propriu-zis și o parsare a fiecărei pagini. De reținut este faptul că aceste hărți cu linkuri nu înlocuiesc crawlingul, ci joacă doar un rol complementar.

Use case: analiză platformă de pariuri sportive

Un site de pariuri sportive are următoarele particularități:

Pentru aceste caracteristici specifice, se pretează abordări SEO specifice:

Sitemaps

În mod uzual, sitemapurile conțin toate URL-urile de pe site, atât în format XML (referite încă din fișierul standard robots.txt), cât și în format HTML. Dacă primele sunt mult mai utile pentru boți, cele din urmă sunt orientate spre utilizatorul uman al site-ului, însă oferă și indicii boților despre structura arborescentă de pe site, despre relația dintre pagini, fiind complementare sitemapurilor XML.

Însă ce facem când dispunem de un crawling budget limitat și avem peste 10,000 de

URL-uri pe site aflate într-o continuă schimbare (se termină meciuri, încep altele)?

  1. Împrospătăm sitemapurile frecvent, în funcție de tipul paginii.

    • Propunem următoarele frecvențe de refresh.

      1. Meciurile trebuie incluse în sitemap imediat ce apar pe site și scoase cât mai repede după ce acestea s-au încheiat. Ex: 10 minute.

      2. O competiție sportivă se actualizează mai rar, întinzându-se uzual pe mai multe etape. Ex: 1 oră.

      3. Un sport există aproape întotdeauna. Ex: 24 ore

      4. Link-urile unor pagini precum homepage, landing page sunt statice. Ex: 7 zile.
    • Pentru fiecare frecvență de generare, alegem cea mai apropiată valoare permisă în XML sitemap conform XSD-ului oficial:

      1. 10 minute => always,

      2. 1 oră => hourly,

      3. 24 ore => daily,

      4. 7 zile => weekly.
  2. Alocăm priorități evenimentelor în funcție de:

    • Perioada anului.

      1. Exemplu: În luna mai prioritizăm finala UEFA Champions League.
    • Domeniu și limbă.

      1. Exemplu: paginile de pe https://www.betfair.ro/ , limba română, sunt accesate de utilizatori români care sunt mai tentați să parieze pe sportivii sau echipele românești decât pe ligi superioare calitativ, dar care nu sunt de top, precum cele din Cehia, Belgia sau Turcia.
  3. Înștiințăm boții prin mecanisme de tip ping după o regenerare.

  4. Excludem linkurile care nu sunt de interes pentru a maximiza șansa celorlalte de a fi vizitate în cuanta de timp alocată.

    • Competiții mai puțin importante:

      • Exemplu: Regionalliga (liga a 4-a de fotbal din Germania) cu toate meciurile și marketurile aferente.
    • Sporturi nepopulare în anumite țări:

      1. Exemplu: horse racing sau cricket în România.
    • Sporturi sezoniere:

      1. Exemplu: sporturi de iarnă în timpul verii.

Exemplu:

<urlset 
 xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9”>
<url>

<loc>
 https://www.betfair.ro/sport/football/anglia-premier-league/newcastle-v-liverpool/34630163 
</loc>

<lastmod>2025-08-19T17:36+00:00</lastmod>
<changefreq>always</changefreq>
<priority>0.7</priority>
</url>
...
</urlset>

Din același CMS, la pachet cu excluderea din XML sitemap pentru un URL, putem adăuga și o meta informație în cadrul paginilor HTML:

<meta name="robots" content="noindex, nofollow">

având următoarele scopuri:

în cazul în care paginile sunt găsite prin mecanismul de crawling, nu pornind de la XML sitemaps.

Response time

Fiindcă ne dorim ca un bot de crawling să parcurgă cât mai multe pagini în timpul dat, o țintă importantă este să reducem timpul de răspuns al paginilor web.

Strategiile clasice de tip minificare HTML ajută în primul rând utilizatorul prin reducerea timpului de descărcare și randare, botul beneficiind de aceleași avantaje ca efect secundar. Însă în continuare ne concentrăm pe strategii destinate botului, fără impact asupra utilizatorului uman.

Un prim lucru pe care trebuie să îl evităm este fenomenul numit cloaking, o practică prin care un site web afișează conținut diferit pentru boți față de ceea ce vede utilizatorul real cu scopul de a manipula indexarea. O asemenea abordare poate duce la penalizări SEO, scoaterea paginilor din index sau la scăderi drastice în ranking pentru un website. Pentru a evita cloakingul este important să returnăm același conținut și ideal același status code, dar avem flexibilitate în ceea ce privește prezentarea (layout, interactivitate) și eventuala pre-randare.

Dacă avem pagini statice, putem să le cacheuim încă de la nivel de CDN, gestionând corect politica de expirare sau invalidare a cache-ului când se schimbă conținutul.

Alternativa ar fi doar să le pre generăm (SSG = Static Site Generation) și să le servim direct de pe server.

În cazul paginilor cu conținut dinamic se întâlnesc două mari abordări:

Server-side rendering (SSR):

Client-side rendering (CSR) :

Pentru a gestiona paginile de tip CSR, se introduce un layer de tip proxy care transformă CSR-ul în SSR de fiecare dată când requestul provine de la un bot de crawling identificabil pe baza valorii HTTP header-ului User-Agent.

Acesta rezolvă problema funcțională, însă deoarece rezultatul pre-randării este un HTML static, se pretează și pentru a ține un cache cu aceste pagini pre-randate pentru a servi conținutul mai rapid în cazul următoarelor request-uri.

Cum optimizăm timpii de răspuns pentru paginile cached?

Cum ne protejăm de umplerea memoriei cu pagini cached?

Cum eficientizăm stocarea?

Arhivăm. Fiindcă fiecare site poate avea zeci de mii de pagini, iar acesta poate să existe în diferite forme (pe mai multe domenii, în mai multe limbi), pentru 500,000 de pagini cu o medie de 500 kB per pagină, am avea o nevoie de 250 GB spațiu de stocare, ceea ce ar fi acceptabil pentru storage pe disk, dar foarte scump pentru a stoca în RAM. Empiric, prin compresie putem reduce aceste valori de ~25x, de la 250 GB până 10 GB de RAM.

Concluzii

Dacă vrei să ascunzi ceva, nu îl pune într-un seif, ci pe pagina a doua din Google.

Și fiindcă puțini își amintesc cine a ieșit pe locul 2 într-o cursă, împletește strategiile de business cu finețea tehnică dacă vrei un site remarcabil.

Conferință TSM

NUMĂRUL 157 - Summertime coding

Sponsori

  • BT Code Crafters
  • Bosch
  • Betfair
  • MHP
  • BoatyardX
  • .msg systems
  • P3 group
  • Ing Hubs
  • Cognizant Softvision
  • GlobalLogic

INTERVIU

Andrei Draga a mai scris