Transformarea manualului tradițional al mașinii într-un asistent virtual interactiv reprezintă un pas important în digitalizarea experienței șoferului modern. Acest articol are ca subiect procesul de dezvoltare și optimizare a unei soluții care combină tehnologii avansate de procesare a limbajului natural cu platformă mobilă Android.
Prima etapă a proiectului a necesitat alegeri tehnologice fundamentale. După o analiză detaliată a opțiunilor disponibile, am selectat Java ca platformă principală de dezvoltare. Această decizie a fost influențată de limitările suportului nativ Android pentru Python și JavaScript. În timp ce Node.js oferă funcționalități limitate prin React Native, iar Python necesită soluții complexe de tip bridge, ecosistemul Java oferă integrare nativă și performanță optimă pe Android.
Pentru implementarea funcționalităților RAG (Retrieval Augmented Generation), am ales biblioteca LangChain4j în versiunea 0.31.0. Deși într-un stadiu incipient de dezvoltare, această bibliotecă oferă suport nativ pentru operațiuni RAG esențiale, precum indexarea documentelor, calculul embeddings și generarea răspunsurilor contextualizate.
Integrarea inițială a pipeline-ului RAG în aplicația Android a evidențiat provocări semnificative. O descoperire crucială a fost incompatibilitatea dintre biblioteca AWT utilizată pentru procesarea PDF-urilor și engine-ul grafic Android. Pentru a depăși această limitare, am introdus un pas intermediar de convertire a PDF-urilor în text, ca soluție temporară în prima fază. Această abordare, deși funcțională, a condus la timpi de procesare suboptimali.
În cea de-a doua fază, am reimplementat arhitectura sistemului folosind containere Docker. Am migrat către ChromaDB pentru stocarea vectorială și Ollama pentru modelele de limbaj și embeddings, eliminând astfel dependențele AWT problematice. Această nouă arhitectură se pretează excelent la o configurație de tip ethernet între două ECU-uri: unul rulând imaginile Docker sub sistem de operare automotive Linux, și celălalt dedicat aplicației Android.
Experimentele cu diverse modele de embeddings au condus la îmbunătățiri spectaculoase ale performanței. Testând modele precum all-minilm, mistral și nomic-embed-text, am redus timpul de procesare de la 45 de minute la 2.5-3 minute. Similar, pentru modelele de limbaj, evaluarea variantelor phi3, mistral, qwen2, tinyllama și tinydolphin a fost esențială, dat fiind că ECU-ul dedicat modelului dispune de doar 1GB RAM. Am selectat în final tinyllama și tinydolphin, care oferă cel mai bun raport performanță-resurse în aceste constrângeri hardware.
Sistemul a devenit complet configurabil prin parametri precum embeddingStoreBaseUrl, embeddingModelName, languageModelTemperature și documentSplittersMaxSegmentSizeInChars, permițând ajustarea fină a performanței și calității răspunsurilor. Timpul de răspuns s-a redus de la 10 minute la sub un minut.
Integrarea cu platforma Android a necesitat rezolvarea unor provocări specifice. Am descoperit că Android utilizează o adresă IP diferită pentru localhost, iar rularea multiplă a modelelor pe același host poate cauza conflicte de porturi. Soluția a constat în implementarea unui sistem de configurare dinamică a porturilor și externalizarea procesării PDF-urilor într-o aplicație Java separată.
Arhitectura finală, bazată pe comunicarea între multiple ECU-uri, permite procesarea paralelă eficientă și oferă flexibilitate în configurarea individuală a componentelor pentru segmentare, embeddings și generare de răspunsuri. Această distribuție a sarcinilor între unitățile de procesare automotive și sistemul de infotainment optimizează atât performanța cât și utilizarea resurselor disponibile.
Experiența acumulată în dezvoltarea acestui sistem deschide noi posibilități pentru optimizări viitoare. Planurile includ:
Explorarea noilor versiuni ale bibliotecii LangChain4j;
Optimizarea în continuare a modelelor de limbaj și embeddings;
Îmbunătățirea sistemului de configurare dinamică;
Extinderea capabilităților de procesare paralelă;
Acest proiect demonstrează importanța unei abordări iterative în dezvoltarea sistemelor complexe de procesare a limbajului natural pe platforme mobile. Optimizările arhitecturale și selecția atentă a modelelor au permis crearea unei soluții eficiente care balansează performanța cu consumul de resurse, deschizând calea către noi inovații în domeniul asistenților virtuali automotive.