ABONAMENTE VIDEO REDACȚIA
RO
EN
NOU
Numărul 150
Numărul 149 Numărul 148 Numărul 147 Numărul 146 Numărul 145 Numărul 144 Numărul 143 Numărul 142 Numărul 141 Numărul 140 Numărul 139 Numărul 138 Numărul 137 Numărul 136 Numărul 135 Numărul 134 Numărul 133 Numărul 132 Numărul 131 Numărul 130 Numărul 129 Numărul 128 Numărul 127 Numărul 126 Numărul 125 Numărul 124 Numărul 123 Numărul 122 Numărul 121 Numărul 120 Numărul 119 Numărul 118 Numărul 117 Numărul 116 Numărul 115 Numărul 114 Numărul 113 Numărul 112 Numărul 111 Numărul 110 Numărul 109 Numărul 108 Numărul 107 Numărul 106 Numărul 105 Numărul 104 Numărul 103 Numărul 102 Numărul 101 Numărul 100 Numărul 99 Numărul 98 Numărul 97 Numărul 96 Numărul 95 Numărul 94 Numărul 93 Numărul 92 Numărul 91 Numărul 90 Numărul 89 Numărul 88 Numărul 87 Numărul 86 Numărul 85 Numărul 84 Numărul 83 Numărul 82 Numărul 81 Numărul 80 Numărul 79 Numărul 78 Numărul 77 Numărul 76 Numărul 75 Numărul 74 Numărul 73 Numărul 72 Numărul 71 Numărul 70 Numărul 69 Numărul 68 Numărul 67 Numărul 66 Numărul 65 Numărul 64 Numărul 63 Numărul 62 Numărul 61 Numărul 60 Numărul 59 Numărul 58 Numărul 57 Numărul 56 Numărul 55 Numărul 54 Numărul 53 Numărul 52 Numărul 51 Numărul 50 Numărul 49 Numărul 48 Numărul 47 Numărul 46 Numărul 45 Numărul 44 Numărul 43 Numărul 42 Numărul 41 Numărul 40 Numărul 39 Numărul 38 Numărul 37 Numărul 36 Numărul 35 Numărul 34 Numărul 33 Numărul 32 Numărul 31 Numărul 30 Numărul 29 Numărul 28 Numărul 27 Numărul 26 Numărul 25 Numărul 24 Numărul 23 Numărul 22 Numărul 21 Numărul 20 Numărul 19 Numărul 18 Numărul 17 Numărul 16 Numărul 15 Numărul 14 Numărul 13 Numărul 12 Numărul 11 Numărul 10 Numărul 9 Numărul 8 Numărul 7 Numărul 6 Numărul 5 Numărul 4 Numărul 3 Numărul 2 Numărul 1
×
▼ LISTĂ EDIȚII ▼
Numărul 93
Abonament PDF

Rețele neuronale convoluționale

Sabina Cătană
Project Lead @ Wipro Technologies



PROGRAMARE

În deep learning, rețelele neuronale care sunt cel mai des folosite la analiza imaginilor sunt cele convoluționale (ConvNet / CNN). În acest articol se va prezenta logica din spatele acestor rețele şi straturile de bază din care sunt formate.

O astfel de rețea poate să aibă o împărțire ca în fig. 1. Ca input este dată o imagine (de exemplu, o poză cu cifra 2). Această imagine este trecută prin mai multe straturi, ca în final să dea ca rezultat cifra "2".

Fig. 1 Rețea de tip CNN preluată din lucrarea "A Comprehensive Guide to Convolutional Neural Networks — the ELI5 way" by Sumit Saha

De asemenea, putem să cerem de la o astfel de rețea să ne identifice corect litera "X" (fig. 2).

Fig. 2 Imaginea de intrare are litera "X" și se doreşte ca modulul de CNN să identifice corect litera

Evident că imaginea de intrare, chiar dacă indică litera "X", poate să fie uşor diferită de cea din fig. 2, poate să fie translatată, mai mică, rotită sau îngroşată. Şi în acest caz, se aşteaptă ca rețeaua de tip CNN să fie capabilă să identifice corect litera "X" (fig. 3).

Fig. 3 Diferite imagini cu litera "X"

Aici se pune întrebarea cum poți să faci calculatorul "să vadă" că este vorba despre aceeaşi literă "X" (fig. 4).

Fig. 4 Cele două imagini indică în mod corect litera "X"?

Pătrățelele negre sunt înlocuite cu valoarea "1" şi cele albe cu "-1" pentru a se simplifica calculele. Calculatorul va compara imaginile la nivel de pixel şi va observa că sunt diferențe. Răspunsul va fi un categoric "NU, nu indică acelaşi lucru!" (fig. 5).

Fig. 5 Diferențe

Dar, dacă le compară la nivel de trăsături, calculatorul va identifica elemente identice. Putem să spunem că aceste elemente comune sunt "/", "\", "x" (fig. 6).

Fig. 6 Trăsături comune între cele două poze

Pentru a găsi aceste trăsături, se pot folosi 3 filtre care vor convoluționa peste imagine (fig. 7).

Fig. 7 Cele 3 filtre care vor convoluționa peste imagine

Astfel, operația de aplicare a celor 3 filtre se face folosind stratul de convoluție. Rezultatul va fi: 3 imagini în care sunt extrase cele 3 trăsături (fig. 8).

Fig. 8 Stratul de convoluție

O altă operație necesară în astfel de rețele este aceea de reducere a dimensiunii imaginilor intermediare, fără a se pierde din trăsăturile esențiale şi pentru a uşura calculele viitoare. Acest lucru se realizează cu stratul de Pooling (fig. 9).

Fig. 9 Stratul de Pooling

Pentru situația în care se doreşte anularea unor valori care nu mai sunt necesare în calculele viitoare, se poate folosi o funcție de tip ReLU (Rectified Linear Unit) care va înlocui valorile negative cu zero (stratul ReLU, fig 10). Acest lucru va uşura calculele viitoare.

Fig. 10 Stratul ReLU

Combinând toate aceste 3 straturi, ajungem la o rețea ca în fig. 11, care a identificat următoarele 3 trăsături ale literei "X": "/", "\", ".".

Fig. 11 Cele 3 trăsături găsite de rețea: "/", "\", "."

Fiecare imagine de 2x2 pixeli este translatată într-un vector coloană (4x1) care este unit cu ceilalți vectori coloană. Pixelii care indicau cele 3 trăsături ale literei "X" în pozele de 2x2 vor vota acest lucru şi din vectorul coloană. Acesta este dat ca intrare la o rețea neuronală de tip fully connected pentru a interpreta corect rezultatul (fig. 12).

Fig. 12 Stratul de rețea neuronală de tip fully connected

În final, se poate reprezenta o rețea de tip CNN ca în fig. 13.

Fig. 13 Rețea neuronala de tip CNN

Cel care defineşte rețeaua de tip CNN specifică numărul şi tipurile de straturi şi numărul de filtre pentru straturile de convoluție. Revenind la filtrele din fig. 7, trebuie menționat că valorile folosite au fost alese pentru a se înțelege mai uşor modul de funcționare al acestora. Acestea se calculează în timpul procesului de antrenare al rețelei. Ea este capabilă să găsească singură care sunt trăsăturile esențiale din pozele folosite ca date de antrenament.

În fig. 14 sunt prezentate pozele generate de către straturile unei rețele de tip CNN după un proces de antrenare folosind poze cu persoane. După primele straturi de convoluție, rețeaua a fost capabilă să identifice linii luminoase, puncte închise sau deschise la culoare. În straturile următoare, este capabilă să reprezinte ochi, buze, urechi ca în final să se poată vizualiza fețe.

Fig. 14 "Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hierarchical Representations" by Honglak Lee, Roger Grosse, Rajesh Ranganath and Andrew Y. Ng, Computer Science Department, Stanford University, Stanford, CA 94305, USA

Rețelele neuronale convoluționale sunt folosite cu succes în identificarea de obiecte şi persoane.

La final doresc să mulțumesc colegilor din cadrul Wipro Technologies Timişoara care m-au ajutat la realizarea acestui material: Sergiu Adrian Done, Iulia Botnari, Nicolae Dicu, Viorel Vasile Voichiță, Bogdan Ioan Druțu, Ilie Alin Lița.

NUMĂRUL 149 - Development with AI

Sponsori

  • Accenture
  • BT Code Crafters
  • Accesa
  • Bosch
  • Betfair
  • MHP
  • BoatyardX
  • .msg systems
  • P3 group
  • Ing Hubs
  • Cognizant Softvision
  • Colors in projects