Existența algoritmilor de AI pentru imagini nu mai e o veste nouă de mult timp, iar faptul că mulți dintre aceștia se află deja printre noi e cunoscut. În ultima vreme aflăm de capabilități tot mai exotice ale AI-ului, de la clasificare de imagini și detecții de obiecte, până la deep-fakes și generare de imagini naturale ce nu există [1, 2, 3]. Mai puțin cunoscută e prezența acestor algoritmi în zona medicală, și anume în imagistica medicală. În cadrul NTT DATA Romania există o echipă care își dedică cunoștințele de statistică, analiză de date, algoritmică și matematică în proiecte ce dezvoltă aplicații de AI pentru radiologie, iar eu fac parte din ea. Această nișă a inteligenței artificiale e vastă și puțin explorată, existând încă multe necunoscute și întrebări mai filosofice sau mai practice. O întrebare abstractă ar fi dacă "se pretează rețelele neuronale dezvoltate pentru imagini naturale la imagini din imagistica medicală", iar una practică și foarte cunoscută de cei care activează în domeniu este "cum fac să-mi îmbunătățesc modelul să detecteze și leziunea aceea mică?
În continuare, voi prezenta pe scurt proiectul la care lucrez . Acesta își propune să detecteze, în mod automat, diferite leziuni cerebrale din imagini RMN. Voi prezenta arhitectura rețelei neuronale pe care o folosesc, apoi voi face un rezumat al imagisticii RMN, iar la final voi prezenta câteva rezultate.
În domeniul AI există trei mari categorii de arhitecturi:
clasificatori, rețele care clasifică binar sau multi-clasă o imagine;
detectori, rețele care localizează cât mai multe obiecte dintr-o imagine într-un chenar și le clasifică în mai multe clase;
În continuare voi prezenta Retinanet care este o rețea de tip detector.
Acest tip de rețea neuronală pur convoluțională a fost propus în 2018 de [4]. Scopul principal din spatele Retinanet e găsirea unui echilibru dintre obiectele detectate și restul imaginii. Autorii propun remedierea acestui imbalans prin folosirea unei funcții de cost care reduce importanța obiectelor clasificate în mod sistematic corect, forțând rețeaua să se concentreze pe cazurile mai dificile. Această funcție obiectivă a fost numită "Focal Loss" care la o primă vedere arată simplu: L=λLloc+Lcls. Aici λLloc este termenul pentru localizare, reprezintă termenul pentru clasificare, iar hiperparametrul controlează echilibrul dintre cei doi termeni. Termenul care se ocupă de clasificare se bazează pe o funcție modificată de entropie cu un termen în plus ce ajută la "focalizarea" rețelei pe scorurile extreme, adică pe acele cazuri mai dificil de detectat și clasificat. În aceasta constă inovația acestei rețele.
De ce am ales să subliniez acțiunea de focalizare și prezența parametrului de echilibru din Focal Loss? Pentru că în practică este extrem de rar să avem date perfect sau pe cât posibil de echilibrate. Mereu o clasă sau un subgrup de clase va fi suprareprezentat. Acest imbalans reduce mult din performanța rețelelor de detecție. Nu numai echilibrul claselor pozitive, și anume obiectele pe care vrem să le detectăm, are un impact asupra modelului dar și cantitatea covârșitoare de fundal, sau clasa negativă, afectează performanța. Spre exemplu, dacă într-o imagine avem un obiect cu mărimea de 10% din imagine, automat înseamnă că 90% din imagine e clasificată ca fundal sau negativ. Aici intervine termenul de focalizare care forțează rețeaua să dea importanță mai mare obiectelor pozitive față de fundal, cât și să păstreze echilibrul înăuntrul claselor pozitive.
Din punct de vedere arhitectural Retinanet face parte din clasa de detectoare care construiesc un modul de detecție "deasupra" unei rețele neuronale convolutive convenționale. În experiența mea, am folosit ca arhitectură primară rețeaua ResNet [5], în special varianta ResNet-50. Modulul RetinaNet se compune dintr-o rețea piramidală de caracteristici (Feature Pyramid Network) din ale cărei câteva nivele (de obicei, ultimele 5) ies sub-rețele care se specializează pe localizare și clasificare (Fig. 1).
În imagistica medicală se pot face mai multe investigații pentru a detecta eventuale infarcte la nivel cerebral, cele mai folosite modalități fiind computer-tomograf (CT) împreună cu varianta de angio-CT, și rezonanța magnetică (RMN). Ambele modalități prezintă avantaje cât și dezavantaje: CT-ul este net mai rapid dar presupune o doză de radiație ionizantă, iar RMN-ul este lent dar până la ora actuală conferă cea mai bună rezoluție, iar tehnica nu implică radiații ionizante. Un alt avantaj al RMN-ului e că din aceeași ședință avem la dispoziție o întreagă gamă de tipuri diferite de imagini și orientări ale scanului, ceea ce nu putem obține la fel de ușor de la un CT. În restul articolului mă voi axa doar pe imagini RMN.
Sau pe scurt "imagini RMN", sunt imagini reconstruite din semnalul de rezonanță magnetică. Principiul pe care se bazează este de domeniul mecanicii cuantice în care nu voi intra, dar voi menționa doar că semnalul provine de la multiplele moduri de aliniere si dez-aliniere ale spinului magnetic al moleculelor de apă. Pentru un semnal bun avem nevoie ca miliarde de nuclee dintr-un volum mic de țesut să reacționeze în același mod la câmpurile magnetice externe aplicate de aparatura RMN. Cantitatea de apă variabilă din țesuturile din corp este un foarte bun discriminant de semnal.
Față de CT, RMN-ul pune la dispoziția radiologilor și medicilor o suită variată de tipuri de imagini, denumite "secvențe", în funcție de tipul de țesut sau leziunea de interes. Toate aceste secvențe se pot achiziționa în timpul unui singur scan, dar nu e necesar ca toate să fie prezente. Tehnicianul radiolog decide ce combinație de secvențe să aleagă în funcție de tipul investigației medicale. Cele mai comune secvențe sunt:
T1 - fluid: hipointens, mușchi: mediu, grăsime: hiperintens, creier materie cenușie: mediu, materie alba: hiperintense ;
T2 - fluid: hiperintens, mușchi: mediu, grăsime: hiperintens, creier materie cenușie: mediu, materie alba: hipointens ;
DWI difuzie - țesut moale: intermediar, grăsime: hipointens, creier materie cenușie: mediu, materie alba: hipointens ;
Nu este ușor să antrenezi o rețea neuronală care a fost construită pentru imagini naturale pe un set de imagini ne-naturale, precum cele RMN. În domeniul AI, în radiologie încă există foarte mult loc pentru dezvoltare și inovație, aceasta deoarece majoritatea rețelelor folosite sunt inițial concepute pentru imagini naturale. Așadar, în mod inevitabil performanța rețelelor va fi mai mică. Totuși, pornind de la o instanță de Retinanet preantrenată și aplicând tehnici de transfer de cunoaștere (transfer learning), am reușit să obținem rezultate încurajatoare pentru detecția și clasificarea infarctelor cerebrale. Senzitivitățile și preciziile astfel obținute sunt într-atât de bune încât câteva dintre modelele antrenate de noi sunt folosite de medicii radiologi în faza de testare într-un spital din străinătate.
Deși unele tipuri de infarct sunt aparente pentru ochiul liber neprofesionist (Fig.2), altele sunt mai subtile și mult mai reduse în intensitatea aparentă și dimensiune (Fig.3 & Fig.4).
În imaginile din figurile 2-4 se pot vedea cu ochiul liber abnormalitățile la nivelul creierului din imaginile RMN. Astfel de cazuri reprezintă o parte importantă din setul de date, iar restul imaginilor e compus din cazuri mult mai greu de identificat sau clasificat chiar și pentru radiologii cu experiență. Pentru moment suntem departe de a concura cu precizia și acuratețea radiologilor, dar soluțiile de detecție automată de astfel de leziuni vor să vină în ajutorul medicilor. Un medic radiolog interpreta în jur de 679 imagini de tip RMN per zi în anul 2010 [9]. De atunci cantitatea de imagini produse de aparatura medicală e în continuă creștere iar presiunea asupra radiologilor crește și ea, iar cu aceasta cresc și șansele de eroare sau de ratare a unor leziuni importante. O soluție automată vine ca un adjuvant pentru radiolog asigurându-se că acestuia nu îi scapă niciun caz clar de leziune, iar radiologul se poate axa pe cazurile cu adevărat dificile și importante. Și în plus, un algoritm nu suferă de oboseală și nici nu necesită repaus.
Fig. 2 a) Simulare detecție de infarct cerebral acut din RMN-DWI. Ref: [6]
Fig. 3 Simulare detecție de infarct cerebral lacunar acut din RMN-DWI. Ref: [7]
Fig. 4 SImulare de detecție infarct cerebral din RMN-DWI. Ref: [8]
Deși algoritmii de AI de viziune artificială au ajuns la un nivel de maturitate destul de avansat pentru imaginile naturale, există încă o zonă largă puțin explorată a imaginilor medicale. Am prezentat cum am utilizat o rețea neuronală dezvoltată pentru imagini naturale pe un set de imagini RMN și rezultatele optimiste pe care le-am obținut cu aceasta. Drept concluzie: AI-ul nu va înlocui complet munca unui radiolog în viitorul mediu, dar sperăm că îi va permite radiologului să-și folosească timpul pentru interpretarea acelor cazuri complexe care necesită într-adevăr o prezență umană lăsând algoritmilor de AI munca repetitivă cu potențial mare de oboseală și eroare.
https://petapixel.com/2019/02/19/this-website-generates-ai-portraits-of-people-who-dont-exist/
https://machinelearningmastery.com/introduction-to-style-generative-adversarial-network-stylegan/
https://www.health.harvard.edu/mind-and-mood/could-a-silent-stroke-erode-your-memory
de Ovidiu Mățan
de Mihai Talpoș