%%{init: {'themeVariables': { 'fontSize': '18px', 'subGraphTitleFontSize': '22px', 'fontFamily': 'Open Sans' }}}%%
flowchart LR
subgraph DATASET["<b>📦 Set de date</b>"]
D1["<b>Imagine 1<br>🐱 pisică</b>"]
D2["<b>Imagine 2<br>🐕 câine</b>"]
D3["<b>Imagine 3<br>🐱 pisică</b>"]
D4["<b>Imagine 4<br>🐕 câine</b>"]
end
DATASET --> TRAIN["<b>Antrenament</b>"]
TRAIN --> MODEL["<b>Model care<br>distinge pisici<br>de câini</b>"]
style DATASET fill:#f5f5f5,color:#000
style D1 fill:#f5f5f5,color:#000
style D2 fill:#f5f5f5,color:#000
style D3 fill:#f5f5f5,color:#000
style D4 fill:#f5f5f5,color:#000
Date
Ce sunt datele?
Datele reprezintă fapte brute, măsurători sau observații, care pot fi colectate, stocate și procesate.
În contextul AI, datele reprezintă materia primă utilizată pentru antrenarea modelului AI prin procesul de învățare automată (machine learning). De asemenea datele constituie setul de informații pe baza cărora modelele deja antrenate generează predicții sau concluzii (inferențe).
Linia de producție: „Datele”
În „linia de producție”, datele sunt materia primă din care se obține rezultatul final.
În practică, un sistem AI are (cel puțin) două fluxuri de date:
- Date pentru antrenament (istorice, etichetate/organizate) → folosite la „calibrare” (antrenament)
- Date operaționale (noi, din ziua de azi) → folosite la „producție” (inferență)
Dacă materia primă (datele) conține erori, lipsuri, Prejudecăți din date, linia de producție va livra rezultate instabile, iar feedback-ul va amplifica aceste probleme.
De ce sunt importante?
Performanța oricărui sistem AI este direct proporțională cu datele pe care este antrenat. Succesul acestuia depinde de trei aspecte importante:
- Volumul: un model AI are nevoie de o cantitate mare de exemple (date) pentru a identifica tipare (patterns) relevante. Fără date suficiente, procesul de „învățare” este incomplet iar modelul nu va putea generaliza corect.
- Acuratețea: calitatea rezultatului depinde de calitatea datelor. În AI, acest principiu este cunoscut sub numele de GIGO (Garbage In, Garbage Out — „Gunoi introduci, Gunoi obții”)
- Diversitatea: Datele trebuie să acopere o gamă cât mai largă și mai variată de scenarii. Lipsa diversității generează prejudecăți (bias), făcând sistemul să funcționeze ineficient sau incorect în situații noi sau pentru grupuri subreprezentate.
Datele de antrenament trebuie să fie reprezentative pentru scenariile diverse din lumea reală. Un model antrenat doar pe imagini cu pisici albe nu va recunoaște pisicile negre.
Tipuri de date
Date vs. Informații vs. Cunoștințe
| Nivel | Ce este | Exemplu |
|---|---|---|
| Date | Fapte brute, fără context | 25, București, 2024-01-15 |
| Informații | Date cu context și sens | „Temperatura în București pe 15 ianuarie 2024 a fost de 25°C” |
| Cunoștințe | Informații interpretate | „25°C în ianuarie la București este neobișnuit de cald, posibil din cauza schimbărilor climatice” |
Date structurate vs. nestructurate
Date organizate într-un format predefinit (tabele, baze de date).
| Client | Vârstă | Oraș | Achiziții |
|---|---|---|---|
| Ana | 28 | Cluj | 15 |
| Ion | 45 | Iași | 8 |
Caracteristici: Ușor de căutat, filtrat și analizat automat.
Date fără un format fix: texte, imagini, audio, video. Reprezintă aproximativ 80% din datele generate astăzi.
- Emailuri și documente
- Fotografii și imagini medicale
- Înregistrări audio
- Clipuri video
Caracteristici: Conțin informații bogate, dar sunt mai greu de analizat deoarece nu au o „hartă” clară. Conțin cele mai valoroase detalii pentru sistemele moderne de AI (precum recunoașterea vocală sau analiza video).
Ce este un set de date?
Un set de date este o colecție organizată de date, pregătită pentru a fi folosită în antrenarea sau evaluarea unui model AI. Un set de date pentru AI poate conține adesea date brute și Etichetă (răspunsurile corecte pe care mașina trebuie să le învețe).
Exemple
- Date: Mii de fotografii cu fețe umane
- Etichete: Identitatea fiecărei persoane
- Rezultat: Model care recunoaște persoane
- Date: Milioane de propoziții în română și engleză
- Etichete: Corespondența între propoziții
- Rezultat: Model care traduce text
- Date: Radiografii pulmonare
- Etichete: Diagnostic (sănătos/pneumonie)
- Rezultat: Model care detectează boli
Cum se leagă de alte concepte?
%%{init: {'themeVariables': { 'fontSize': '18px', 'subGraphTitleFontSize': '22px', 'fontFamily': 'Open Sans' }}}%%
flowchart LR
D[<b>DATE</b><br>Tu ești aici]:::current
ALG[Algoritm]
ANT[Antrenament]
M[Model AI]
D --> ANT
ALG --> ANT
ANT --> M
classDef current fill:#CFE8F3,stroke:#000000,stroke-width:2px
| Concept | Relația cu Datele |
|---|---|
| Algoritm | PROCESEAZĂ datele conform unor reguli |
| Antrenament | FOLOSEȘTE datele pentru a învăța tipare |
| Model AI | Este REZULTATUL procesării datelor |
Termeni asociați: → Algoritm | → Antrenament | → Model AI