ABONAMENTE VIDEO REDACȚIA
RO
EN
NOU
Numărul 150
Numărul 149 Numărul 148 Numărul 147 Numărul 146 Numărul 145 Numărul 144 Numărul 143 Numărul 142 Numărul 141 Numărul 140 Numărul 139 Numărul 138 Numărul 137 Numărul 136 Numărul 135 Numărul 134 Numărul 133 Numărul 132 Numărul 131 Numărul 130 Numărul 129 Numărul 128 Numărul 127 Numărul 126 Numărul 125 Numărul 124 Numărul 123 Numărul 122 Numărul 121 Numărul 120 Numărul 119 Numărul 118 Numărul 117 Numărul 116 Numărul 115 Numărul 114 Numărul 113 Numărul 112 Numărul 111 Numărul 110 Numărul 109 Numărul 108 Numărul 107 Numărul 106 Numărul 105 Numărul 104 Numărul 103 Numărul 102 Numărul 101 Numărul 100 Numărul 99 Numărul 98 Numărul 97 Numărul 96 Numărul 95 Numărul 94 Numărul 93 Numărul 92 Numărul 91 Numărul 90 Numărul 89 Numărul 88 Numărul 87 Numărul 86 Numărul 85 Numărul 84 Numărul 83 Numărul 82 Numărul 81 Numărul 80 Numărul 79 Numărul 78 Numărul 77 Numărul 76 Numărul 75 Numărul 74 Numărul 73 Numărul 72 Numărul 71 Numărul 70 Numărul 69 Numărul 68 Numărul 67 Numărul 66 Numărul 65 Numărul 64 Numărul 63 Numărul 62 Numărul 61 Numărul 60 Numărul 59 Numărul 58 Numărul 57 Numărul 56 Numărul 55 Numărul 54 Numărul 53 Numărul 52 Numărul 51 Numărul 50 Numărul 49 Numărul 48 Numărul 47 Numărul 46 Numărul 45 Numărul 44 Numărul 43 Numărul 42 Numărul 41 Numărul 40 Numărul 39 Numărul 38 Numărul 37 Numărul 36 Numărul 35 Numărul 34 Numărul 33 Numărul 32 Numărul 31 Numărul 30 Numărul 29 Numărul 28 Numărul 27 Numărul 26 Numărul 25 Numărul 24 Numărul 23 Numărul 22 Numărul 21 Numărul 20 Numărul 19 Numărul 18 Numărul 17 Numărul 16 Numărul 15 Numărul 14 Numărul 13 Numărul 12 Numărul 11 Numărul 10 Numărul 9 Numărul 8 Numărul 7 Numărul 6 Numărul 5 Numărul 4 Numărul 3 Numărul 2 Numărul 1
×
▼ LISTĂ EDIȚII ▼
Numărul 48
Abonament PDF

ODI 12c versus Talend

Vlad Șerban
Developer @ Paddy Power Betfair



PROGRAMARE


În prezent, una din marile probleme în companii este integrarea datelor din diferite surse, prelucrarea, stocarea şi expunerea lor pentru a satisface cerinţele businessului şi implicit a lua deciziile în legătură cu îmbunătățirea anumitor produse.

Poate multe companii nu cunosc beneficiile aduse de un tool de integrare a datelor, deşi a avea un astfel de tool reprezintă o necesitate şi nu ceva deosebit.

La ce ajută aceste tool-uri?

Ce este un ETL? Un proces folosit pentru baze de date şi în special în data warehouse care constă în extragerea datelor din diferite surse, transformarea datelor pentru a fi stocate în formatul şi structura dorită, și ulterior încărcarea acestor date în destinaţie.

Pentru a alege un tool fiabil, diverse investigaţii şi demonstraţii sunt făcute, după care o comparaţie cât mai în detaliu din care să rezulte o concluzie: tool-ul. Abilităţile minime pentru a face alegerea sunt: procese de integrare programate pentru a muta datele de pe sursa pe destinaţie, abilitatea de a controla mesajele şi erorile, manipularea metadatelor şi monitorizarea proceselor, având dreptul de a interveni asupra lor.

Am ales aleatoriu două tool-uri: Oracle Data Integrator 12c (ODI 12c) şi Talend Data Integration, încercând să fac o scurtă descriere pentru fiecare.

Ce este ODI 12c?

O platformă de integrare a datelor completă, ce satisface toate cerinţele: volum mare de date, performanță şi paralelism. ODI 12c folosește o arhitectură E-LT pentru a garanta o performanță cât mai mare, dar şi pentru un cost cât mai mic. Diferenţa majoră dintre o arhitectură ETL şi una E-LT este prezenţa serverului ETL aşa cum se observă în imaginea de mai jos:

Pachetul de management pe care îl oferă ODI 12c este ilustrat în imaginea de mai jos:

Interfaţa ODI 12c este simplă şi uşor de folosit, având patru taburi importante: Designer, Operator, Topology şi Security Navigators conectate la un Repository, ca şi mai jos:

Designer este folosit pentru a crea şi modifica metadatele, a transforma datele şi pentru a le asigura integritatea. Principalele obiecte utilizate aici sunt data models (toate detaliile despre date, de exemplu: tabele, coloane etc.) şi proiectele (regulile de încărcare şi transformare a datelor, de exemplu: mappings, proceduri, variabile etc.). Projects, Models, Load Plans and Scenarios, Global Objects şi Solutions sunt componentele acestui tab.

Operator este tab-ul folosit pentru monitorizare, în special de operatori, dar îi ajută şi pe developer-i la debug şi code check. Componentele acestuia sunt Session list (toate sesiunile cu detaliile necesare împărţite pe data, agenţi, status etc.), Hierarchical Sessions, Load Plan Executions, Scheduler, Load Plan and Scenarios şi Solutions.

Topology e folosit pentru a defini arhitectura logică şi fizică a infrastructurii.

Security e folosit pentru drepturile utilizatorilor, rolurilor şi obiectelor.

Organizarea logică şi fizică a datelor sursă şi destinaţie, cât şi transformarea lor se face în componenţa Mappings (din Designer/Projects). Folosind drag and drop din Models putem să construim întregul flow de date: definim surse de date care sunt folosite, agregate sau modificate pentru a popula destinaţia. Tot aici sunt folosite diferite Knowledge Modules pentru încărcare sau manipulare de date.

Ce este un Knowledge Module?

Knowledge Modules sunt template-uri de cod dedicate unui task din întregul proces de integrare a datelor. KM-ul nu poate fi executat fără a folosi metadate, avantajul e că nu are referinţe la obiecte fizice (datastores, coloane, physical path). Există șase categorii de KM-uri:

Pentru a automatiza flow-ul de integrare de date este folosit Package, unde se poate crea o diagramă cu interacţiunea dintre subcomponente.

Scenario rezultă din generarea codului salvat în Work Repository, a unor mappings, packages, procedures,variables etc. Chiar dacă se modifică mappings, packages sau procedures, Scenario nu este afectat şi pentru a se aplica modifiăarile trebuie regenerat. Un Scenario poate fi rulat din ODI, linia de comandă sau dintr-un web service.

Ce este Talend?

Talend este primul provider a unei soluţii open source pentru integrarea datelor. Soluţia este construită peste platforma de Eclipse RCP, făcând-o mai uşor de folosit, deoarece pentru multă lume e deja cunoscută această interfaţă. La fel ca şi ODI, Talend foloseste arhitectura E-LT.

Arhitectura pentru Talend Data Integration este ilustrată mai jos:

Repository, design workspace, Palette, diferite view-uri pentru configurări şi Outline/Code viewer sunt componentele interfeţei. În Repository găsim Business Models, Job Designs, Contexts, Code, SQL Templates, Metadata, Documentation şi Recycle bin. Detaliile despre Business Models şi Job Design pot fi afişate în design workspace, iar pentru a le crea sau modifica folosim obiecte din Palette.

Crearea unui Business Model aduce un mare avantaj în găsirea anumitor probleme înainte de a fi implementată soluţia şi la fel şi în corectarea unor probleme la stadiul de design. Business Modelul poate fi creat uşor, atât de către developeri cât şi de oameni din management, folosind diferite forme din Palette. Pe lângă formele din Palette se pot adăuga şi comentarii pentru a clarifica detaliile designului.

Un Job Design este compus din una sau mai multe componente conectate, implementând o parte sau chiar un întreg Business Model.

Componentele de mapare a datelor sunt printre cele mai importante, conţinând datele de intrare, lista de variabile, expresii şi datele de ieşire, incluzând şi legătura dintre ele. Una din componente este tMap care permite diferite operaţii asupra datelor: transformări, concatenări, filtre etc. . O opţiune oferită de tMap, ce ar ajuta la maparea unui volum mare de date, este de a salva datele temporare pe disk şi nu în memorie.

Modalităţile de rulare a unui Job Design sunt multiple, acesta se poate exporta sub diverse forme (script sh sau bat, WAR, ZIP) şi executa din diferite locuri (command line, aplicaţie Java, Talend Data Integration).

Cele două tool-uri se aseamănă foarte mult: ambele folosesc arhitectura E-LT, se bazează pe Java, au o interfaţă uşor de folosit şi se pot instala pe orice sistem de operare. Unul din marile avantaje aduse de ODI 12c este faptul că se integrează foarte bine cu toate produsele Oracle, în special cu Oracle Exadata (compute and storage system), asigurând o performanţă foarte bună. Într-un studiu recent făcut de o companie de research, s-a evidenţiat faptul că ODI 12c stă mai bine pe partea de recovery after fail, feature care este doar parţial prezent în Talend.

Având în vedere expertiza dezvoltată de-a lungul anilor a celor de la Oracle pe partea de baze de date, aceasta ne poate oferi o siguranţă mai mare în utilizarea softului dezvoltat. De asemenea, merită să acordăm încrederea şi unui tool open source precum Talend care vine din urmă şi prezintă o competiţie bună pentru ODI 12c.

NUMĂRUL 149 - Development with AI

Sponsori

  • Accenture
  • BT Code Crafters
  • Accesa
  • Bosch
  • Betfair
  • MHP
  • BoatyardX
  • .msg systems
  • P3 group
  • Ing Hubs
  • Cognizant Softvision
  • Colors in projects