ABONAMENTE VIDEO REDACȚIA
RO
EN
Numărul 153
NOU
Numărul 152
Numărul 151 Numărul 150 Numărul 149 Numărul 148 Numărul 147 Numărul 146 Numărul 145 Numărul 144 Numărul 143 Numărul 142 Numărul 141 Numărul 140 Numărul 139 Numărul 138 Numărul 137 Numărul 136 Numărul 135 Numărul 134 Numărul 133 Numărul 132 Numărul 131 Numărul 130 Numărul 129 Numărul 128 Numărul 127 Numărul 126 Numărul 125 Numărul 124 Numărul 123 Numărul 122 Numărul 121 Numărul 120 Numărul 119 Numărul 118 Numărul 117 Numărul 116 Numărul 115 Numărul 114 Numărul 113 Numărul 112 Numărul 111 Numărul 110 Numărul 109 Numărul 108 Numărul 107 Numărul 106 Numărul 105 Numărul 104 Numărul 103 Numărul 102 Numărul 101 Numărul 100 Numărul 99 Numărul 98 Numărul 97 Numărul 96 Numărul 95 Numărul 94 Numărul 93 Numărul 92 Numărul 91 Numărul 90 Numărul 89 Numărul 88 Numărul 87 Numărul 86 Numărul 85 Numărul 84 Numărul 83 Numărul 82 Numărul 81 Numărul 80 Numărul 79 Numărul 78 Numărul 77 Numărul 76 Numărul 75 Numărul 74 Numărul 73 Numărul 72 Numărul 71 Numărul 70 Numărul 69 Numărul 68 Numărul 67 Numărul 66 Numărul 65 Numărul 64 Numărul 63 Numărul 62 Numărul 61 Numărul 60 Numărul 59 Numărul 58 Numărul 57 Numărul 56 Numărul 55 Numărul 54 Numărul 53 Numărul 52 Numărul 51 Numărul 50 Numărul 49 Numărul 48 Numărul 47 Numărul 46 Numărul 45 Numărul 44 Numărul 43 Numărul 42 Numărul 41 Numărul 40 Numărul 39 Numărul 38 Numărul 37 Numărul 36 Numărul 35 Numărul 34 Numărul 33 Numărul 32 Numărul 31 Numărul 30 Numărul 29 Numărul 28 Numărul 27 Numărul 26 Numărul 25 Numărul 24 Numărul 23 Numărul 22 Numărul 21 Numărul 20 Numărul 19 Numărul 18 Numărul 17 Numărul 16 Numărul 15 Numărul 14 Numărul 13 Numărul 12 Numărul 11 Numărul 10 Numărul 9 Numărul 8 Numărul 7 Numărul 6 Numărul 5 Numărul 4 Numărul 3 Numărul 2 Numărul 1
×
▼ LISTĂ EDIȚII ▼
Numărul 153
Abonamente

Code Search

Daniel Ciugurean
Software Engineer @ Centrul de Inginerie Bosch



PROGRAMARE

Code Search este un instrument care își propune să le faciliteze dezvoltatorilor navigarea prin baze de coduri uriașe, folosind o interfață sofisticată care oferă sugestii de căutare instantanee. Dezvoltat la Centrul de Inginerie Bosch din Cluj, în ultimii patru ani, și lansat în producție de la începutul anului 2023, acest index global îmbunătățește eficiența dezvoltatorilor printr-un ciclu rapid de explorare a codului. Deși componentele de bază au fost create de un singur inginer, trecerea de la zero linii de cod la prezentări la nivel de VP și lansarea globală au fost posibile doar cu sprijinul multor persoane din cadrul companiei. Astăzi, Code Search este utilizat de angajați din cincisprezece țări.

Problema

În timp ce contribuie la un proiect software, dezvoltatorii trebuie frecvent să acceseze baza globală de cunoștințe pentru a răspunde la diverse întrebări. Accesul la un instrument care le permite să caute exemple de cod în câteva milisecunde este un avantaj semnificativ, considerat standard în companiile de software cu performanțe de top, precum Google, Meta, Uber, Mozilla și Stripe, printre altele. Înainte de Code Search nu se putea căuta în tipare precise de cod la scară largă, deoarece nici Bitbucket, nici GitHub Enterprise nu oferă capabilități de căutare regex (chiar și interogările literale simple precum "function()" nu ar funcționa din cauza modului în care aceste platforme gestionează tokenizarea). De asemenea, căutările simbolice bazate pe extragerea semantică în timpul indexării nu sunt posibile în aceste servicii de găzduire a codului.

În esență, proiectul Code Search încearcă să rezolve două probleme:

  1. Problema navigării absolute > Căutarea și navigarea: Unde? Ce? Cum?

    • Unde este localizată o anumită bucată de cod?

    • Câte instanțe ale unui pattern sunt prezente într-un repozitoriu sau în mai multe repozitorii?

    • Ce fișiere conțin o anumită versiune a unei dependențe?

    • Acest cod a fost prezent vreodată într-un repozitoriu?
  2. Problema navigării relative > Răspunsul la întrebări despre cod cu un singur clic: De ce? Cine și când?

    • Cum este utilizat un simbol sau cine apelează această funcție?

    • Când a fost adăugat simbolul?

Soluția

Code Search cuprinde trei componente principale:

  1. Un motor de pattern matching de înaltă performanță care permite utilizatorilor să efectueze aproape instantaneu căutări cu regex în corpusuri mari de cod sursă.

  2. Un sistem de indexare care ne permite să extragem informații simbolice precise pentru aproape orice limbaj.

  3. O experiență de navigare în cod care este optimizată pentru citire și explorare rapidă.

Pattern matching

Performanța este tratată ca element esențial.

Pagina cu rezultatele căutării

Primul prototip utilizabil pentru Code Search a fost dezvoltat în mai puțin de zece săptămâni, bazându-ne inițial pe biblioteci terțe pentru a gestiona părți ale procesului de indexare și căutare. De exemplu, am folosit google/zoekt pentru a gestiona expresiile regulate și PostgreSQL (cu suport pentru indexul RUM ) pentru a stoca și a gestiona căutările peste identificatorii de simboluri. Cu toate acestea, acum aproximativ un an, am ajuns la concluzia că este necesar să controlăm întregul sistem de sus până jos pentru a debloca următoarea etapă în performanță și utilizabilitate. Astfel, versiunea actuală a Code Search este liberă de orice dependințe terțe care afectează calea critică. Nu mai există glue code între diverse subsisteme care sunt scrise în limbaje diferite. 99% din backend este un monolit scris într-un singur limbaj de programare. Acum controlăm întregul flow - de la clicul utilizatorului până la modul în care motorul de căutare preia datele de pe disc, modul în care fișierul de index este organizat în memorie și cum sunt generate liniile de context ale rezultatelor de căutare.

Datorită acestui efort, acum suntem utilizatori fericiți ai unuia dintre cele mai rapide motoare de căutare cu expresii regulate, optimizat special pentru cod. De exemplu, căutările literale și regex pe întregul kernel Linux (37M LOC) durează cel mult 100ms pe un hardware foarte modest (o interogare de tipul /TODO|FIXME/ -file:/.c$/ limit:500 se finalizează în mai puțin de 15ms).

Informații simbolice

Folosește cineva această metodă? Putem să o deprecăm?

Utilizăm un sistem pe niveluri pentru a sprijini repozitoriile interne în funcție de nevoile lor. Pentru repozitoriile Tier 1, integrăm informații la nivel de compilator pentru a oferi o navigare asemănătoare unui IDE direct în browser. Utilizăm Kythe pentru a realiza acest lucru. Pentru miile de repozitorii Tier 2, folosim simbolurile extrase de ctags și tree-sitter pentru a sprijini navigarea aproximativă. Utilizările simbolurilor sunt recuperate utilizând filtrul de căutare is:call.

Simbolurile sunt stocate într-un index unificat care servește căutărilor după cale, conținut și identificatori semantici.

Browser de repozitorii

Abilitatea de a naviga rapid prin codul global al companiei accelerează înțelegerea și încurajează reutilizarea, sporind în cele din urmă productivitatea generală. Procesul de integrare a noilor ingineri devine mult mai rapid, deoarece nu mai este nevoie să aștepte ca IDE-urile să genereze indexurile la pornire - Code Search este întotdeauna la un tab distanță. Pentru o inițiere și mai rapidă a dezvoltatorilor, echipele pot partaja link-uri canonice către diferite părți ale proiectelor lor, ca o primă trecere peste componentele majore.

Deoarece experiența utilizatorului este concepută mai degrabă pentru citire decât pentru scrierea de cod, putem defini mai clar semnificația fiecărei acțiuni efectuate de utilizator.

Pași următori

Această fundație tehnologică deschide calea pentru instrumente avansate care ne vor permite să extragem informații valoroase din codul companiei noastre. Proiectul Code Search nu mai este realizat de o singură persoană și lucrăm cu sârguință pentru a extinde utilitatea acestui instrument în trei direcții:

  1. Indexare exhaustivă - Cu cât indexăm mai mult cod, cu atât Code Search devine mai valoros. Un alt obiectiv al acestei arhitecturi a fost indexarea eficientă a repozitoriilor la mai multe versiuni. De exemplu, indexarea golang/go la 'master^HEAD', 'commit:e3f3083' și 'branch:dev/cc'.

  2. Instrumente de raportare - Indexarea multi-revizie permite dezvoltarea unor instrumente valoroase de raportare, cum ar fi: - Reprezentați grafic numărul de TODO-uri din acest repozitoriu între aceste puncte din istoric. - Monitorizarea progresului tranziției de la lib:A la lib:B prin reprezentarea grafică a utilizării acestora. - Am deprecat acest API, să vedem cât de repede s-au adaptat proiectele și au trecut la noul API recomandat. - Deja descoperim aspecte care nu au fost niciodată evidențiate explicit de la începutul găzduirii interne a codului nostru.

  3. Integrarea cu editoare de text - În prezent, utilizatorii trebuie să schimbe contextul către browser pentru a căuta codul global al companiei. Extensia noastră pentru VS Code este aproape finalizată, eliminând astfel încă un obstacol în adoptarea acestui instrument.

Pe măsură ce Code Search continuă să evolueze, obiectivul nostru rămâne același: să oferim dezvoltatorilor acces instant și intuitiv la codul de care au nevoie. Ceea ce a început ca un proiect mic a crescut într-un instrument global, redefinind modul în care inginerii Bosch navighează și înțeleg bazele de cod.

Dacă sunteți interesați de sisteme optimizate pentru performanță, ne-ar plăcea să vă auzim părerile.

Conferință TSM

NUMĂRUL 150 - Technologiile SAP ABAP

Sponsori

  • BT Code Crafters
  • Bosch
  • Betfair
  • MHP
  • BoatyardX
  • .msg systems
  • P3 group
  • Ing Hubs
  • Cognizant Softvision
  • GlobalLogic
  • Colors in projects

Daniel Ciugurean a mai scris