Ghid AI
  • Despre
  • Glosar
  • Module
    • Concepte Fundamentele AI
  1. Fundamentele AI
  2. 2. Date
  • Fundamentele AI
    • Introducere
    • 1. Inteligența Artificială
    • 2. Date
    • 3. Algoritm
    • 4. Machine Learning
    • 5. Antrenament
    • 6. Pattern/Tipar
    • 7. Model AI
    • 8. Inferență
    • 9. Predicție
    • 10. Sistem AI
    • Studiu de caz

Pe această pagină

  • Ce sunt datele?
  • Linia de producție: „Datele”
  • De ce sunt importante?
  • Tipuri de date
  • Ce este un set de date?
  • Exemple
  • Cum se leagă de alte concepte?
  1. Fundamentele AI
  2. 2. Date

Date

Ce sunt datele?

Datele reprezintă fapte brute, măsurători sau observații, care pot fi colectate, stocate și procesate.

În contextul AI, datele reprezintă materia primă utilizată pentru antrenarea modelului AI prin procesul de învățare automată (machine learning). De asemenea datele constituie setul de informații pe baza cărora modelele deja antrenate generează predicții sau concluzii (inferențe).

Linia de producție: „Datele”

În „linia de producție”, datele sunt materia primă din care se obține rezultatul final.

În practică, un sistem AI are (cel puțin) două fluxuri de date:

  • Date pentru antrenament (istorice, etichetate/organizate) → folosite la „calibrare” (antrenament)
  • Date operaționale (noi, din ziua de azi) → folosite la „producție” (inferență)

Dacă materia primă (datele) conține erori, lipsuri, Prejudecăți din date, linia de producție va livra rezultate instabile, iar feedback-ul va amplifica aceste probleme.

De ce sunt importante?

Performanța oricărui sistem AI este direct proporțională cu datele pe care este antrenat. Succesul acestuia depinde de trei aspecte importante:

  • Volumul: un model AI are nevoie de o cantitate mare de exemple (date) pentru a identifica tipare (patterns) relevante. Fără date suficiente, procesul de „învățare” este incomplet iar modelul nu va putea generaliza corect.
  • Acuratețea: calitatea rezultatului depinde de calitatea datelor. În AI, acest principiu este cunoscut sub numele de GIGO (Garbage In, Garbage Out — „Gunoi introduci, Gunoi obții”)
  • Diversitatea: Datele trebuie să acopere o gamă cât mai largă și mai variată de scenarii. Lipsa diversității generează prejudecăți (bias), făcând sistemul să funcționeze ineficient sau incorect în situații noi sau pentru grupuri subreprezentate.

Datele de antrenament trebuie să fie reprezentative pentru scenariile diverse din lumea reală. Un model antrenat doar pe imagini cu pisici albe nu va recunoaște pisicile negre.

Tipuri de date

Date vs. Informații vs. Cunoștințe

Nivel Ce este Exemplu
Date Fapte brute, fără context 25, București, 2024-01-15
Informații Date cu context și sens „Temperatura în București pe 15 ianuarie 2024 a fost de 25°C”
Cunoștințe Informații interpretate „25°C în ianuarie la București este neobișnuit de cald, posibil din cauza schimbărilor climatice”

Date structurate vs. nestructurate

  • Date structurate
  • Date nestructurate

Date organizate într-un format predefinit (tabele, baze de date).

Client Vârstă Oraș Achiziții
Ana 28 Cluj 15
Ion 45 Iași 8

Caracteristici: Ușor de căutat, filtrat și analizat automat.

Date fără un format fix: texte, imagini, audio, video. Reprezintă aproximativ 80% din datele generate astăzi.

  • Emailuri și documente
  • Fotografii și imagini medicale
  • Înregistrări audio
  • Clipuri video

Caracteristici: Conțin informații bogate, dar sunt mai greu de analizat deoarece nu au o „hartă” clară. Conțin cele mai valoroase detalii pentru sistemele moderne de AI (precum recunoașterea vocală sau analiza video).

Ce este un set de date?

Un set de date este o colecție organizată de date, pregătită pentru a fi folosită în antrenarea sau evaluarea unui model AI. Un set de date pentru AI poate conține adesea date brute și Etichetă (răspunsurile corecte pe care mașina trebuie să le învețe).

%%{init: {'themeVariables': { 'fontSize': '18px', 'subGraphTitleFontSize': '22px', 'fontFamily': 'Open Sans' }}}%%
flowchart LR
    subgraph DATASET["<b>📦 Set de date</b>"]
        D1["<b>Imagine 1<br>🐱 pisică</b>"]
        D2["<b>Imagine 2<br>🐕 câine</b>"]
        D3["<b>Imagine 3<br>🐱 pisică</b>"]
        D4["<b>Imagine 4<br>🐕 câine</b>"]
    end
    
    DATASET --> TRAIN["<b>Antrenament</b>"]
    TRAIN --> MODEL["<b>Model care<br>distinge pisici<br>de câini</b>"]

    style DATASET fill:#f5f5f5,color:#000
    style D1 fill:#f5f5f5,color:#000
    style D2 fill:#f5f5f5,color:#000
    style D3 fill:#f5f5f5,color:#000
    style D4 fill:#f5f5f5,color:#000 

Exemple

  • Recunoaștere facială
  • Traducere automată
  • Diagnostic medical
  • Date: Mii de fotografii cu fețe umane
  • Etichete: Identitatea fiecărei persoane
  • Rezultat: Model care recunoaște persoane
  • Date: Milioane de propoziții în română și engleză
  • Etichete: Corespondența între propoziții
  • Rezultat: Model care traduce text
  • Date: Radiografii pulmonare
  • Etichete: Diagnostic (sănătos/pneumonie)
  • Rezultat: Model care detectează boli

Cum se leagă de alte concepte?

%%{init: {'themeVariables': { 'fontSize': '18px', 'subGraphTitleFontSize': '22px', 'fontFamily': 'Open Sans' }}}%%
flowchart LR
    D[<b>DATE</b><br>Tu ești aici]:::current
    ALG[Algoritm]
    ANT[Antrenament]
    M[Model AI]

    D --> ANT
    ALG --> ANT
    ANT --> M

    classDef current fill:#CFE8F3,stroke:#000000,stroke-width:2px

Concept Relația cu Datele
Algoritm PROCESEAZĂ datele conform unor reguli
Antrenament FOLOSEȘTE datele pentru a învăța tipare
Model AI Este REZULTATUL procesării datelor

Termeni asociați: → Algoritm | → Antrenament | → Model AI


← Inteligența Artificială

Algoritm →

Back to top