Antrenament

Ce este antrenamentul?

Antrenamentul este procesul prin care un algoritm este rulat pe date pentru a estima parametrii unui model AI. În timpul antrenamentului, algoritmul analizează mii sau milioane de exemple, identifică tipare și ajustează parametrii modelului pentru a produce predicții cât mai precise.

Linia de producție: „Antrenamentul”

În „linia de producție”, antrenamentul este faza de calibrare: reglajele sunt ajustate până când linia produce rezultate suficient de bune.

Intrare: date de antrenament + obiectiv (ce înseamnă „bun”)
Proces: iterare (încearcă → măsoară eroarea → ajustează)
Ieșire: un model (reglajele finale)

Notă: calibrarea este urmată de testare (controlul calității) și apoi de monitorizare în producție întrucât datele („materia primă”) se schimbă în timp.

De ce este important?

Antrenamentul este etapa prin care un model AI își îmbunătățește performanța pe o sarcină:

Fără antrenament — modelul nu are parametri calibrați pentru sarcină
Antrenament insuficient — modelul face erori frecvente
Antrenament adecvat — modelul generalizează bine la situații noi

În procesul de învățare automată, performanța unui model depinde de echilibrul dintre complexitatea acestuia și capacitatea de generalizare.

Supra-antrenarea (Overfitting)
Sub-antrenarea (Underfitting)

Supra-antrenarea apare atunci când un model învață „prea bine” datele de antrenament, captând inclusiv zgomotul și valorile extreme (date atipice) ca și cum ar fi tipare relevante, pierzând din vedere imaginea de ansamblu.

Problema: Deși are o acuratețe foarte bună pe datele cunoscute, modelul eșuează când primește date noi, deoarece nu reușește să generalizeze.

Impact: Rezultatele pot fi înșelătoare, oferind o falsă senzație de precizie care dispare în condiții reale de utilizare.

Sub-antrenarea se produce atunci când modelul este „prea superficial” pentru a surprinde structura fundamentală a datelor. Acesta nu reușește să identifice relațiile dintre variabile.

Problema: Modelul are o performanță scăzută atât pe datele de antrenament, cât și pe cele de test, ratând tipare esențiale.

Soluție: Pentru a corecta acest fenomen, este necesară creșterea complexității modelului, fie prin alegerea unui algoritm mai sofisticat, fie prin adăugarea unor variabile suplimentare relevante, care să surprindă mai bine detaliile datelor.

Cum funcționează?

%%{init: {'themeVariables': { 'fontSize': '18px', 'subGraphTitleFontSize': '20px', 'fontFamily': 'Open Sans' }}}%%
flowchart LR
    subgraph INPUT["Intrări"]
        D[📦 Date de<br>antrenament]
        A[⚙️ Algoritm]
    end
    
    subgraph PROCESS["Procesul de antrenament"]
        L[🔄 Ciclu de învățare<br><i>repetă de mii de ori</i>]
    end
    
    subgraph OUTPUT["Rezultat"]
        M[🧠 Model AI<br>antrenat]
    end
    
    D --> L
    A --> L
    L --> M

    style D fill:#f5f5f5,color:#000
    style A fill:#f5f5f5,color:#000
    style L fill:#f5f5f5,color:#000
    style M fill:#f5f5f5,color:#000
    style INPUT fill:#f5f5f5,color:#000
    style PROCESS fill:#f5f5f5,color:#000
    style OUTPUT fill:#f5f5f5,color:#000

Ciclul de învățare

Antrenamentul urmează un ciclu repetitiv:

%%{init: {'themeVariables': { 'fontSize': '18px', 'subGraphTitleFontSize': '22px', 'fontFamily': 'Open Sans' }}}%%
flowchart TB
    A[1 Primește un exemplu<br>din date] --> B[2 Generează o predicție]
    B --> C[3 Compară cu<br>răspunsul corect]
    C --> D[4 Calculează eroarea]
    D --> E[5 Actualizează parametrii<br>pentru a reduce eroarea]
    E --> F{Mai sunt<br>exemple?}
    F -->|Da| A
    F -->|Nu| G[✅ Model antrenat]

Exemplu: Recunoașterea cifrelor scrise de mână

60.000 de imagini cu cifre scrise de mână (0-9), fiecare etichetată cu cifra corectă.

Iterația 1: Algoritmul vede imaginea → prezice „7” → răspuns corect „3” → ajustează
Iterația 2: Vede altă imagine → prezice „5” → corect „5” → confirmă tiparele

…

Iterația 60.000: A văzut toate exemplele o dată ( o „rundă” - întreg setul de date de antrenament a trecut prin algoritmul de învățare)

După multiple „runde”, în care algoritmul a analizat întregul set de date de mai multe ori, modelul atinge o acuratețe de ~98% pe imagini noi, pe care nu le-a văzut niciodată.

Tipuri de antrenament

Tip	Descriere	Când se folosește
Supervizat	Învață din exemple etichetate (intrare + răspuns corect)	Clasificare, predicție, detectare spam
Nesupervizat	Grupează datele după similitudini, fără a avea răspunsuri prestabilite	Segmentarea clienților, recomandări
Semi-supervizat	Puține date etichetate + multe neetichetate	Când etichetarea e costisitoare
Prin recompensă	Învață prin încercare și eroare, primind „premii” pentru acțiuni corecte	Jocuri, robotică, optimizarea rutelor

Cum se leagă de alte concepte?

%%{init: {'themeVariables': { 'fontSize': '18px', 'subGraphTitleFontSize': '22px', 'fontFamily': 'Open Sans' }}}%%
flowchart LR
    D[Date] --> ANT[<b>ANTRENAMENT</b><br>Tu ești aici]:::current
    ALG[Algoritm] --> ANT
    ANT --> M[Model AI]
    M --> S[Sistem AI]

    classDef current fill:#CFE8F3,stroke:#000000,stroke-width:1px

Concept	Relația cu Antrenamentul
Date	Antrenamentul FOLOSEȘTE date pentru a învăța
Algoritm	Algoritmul DEFINEȘTE cum se învață
Model AI	Modelul ESTE rezultatul antrenamentului

Termeni asociați: → Date | → Algoritm | → Model AI

← Machine Learning

Pattern/Tipar →