Inferență

Ce este inferența?

Inferența este procesul prin care un model AI deja antrenat aplică cunoștințele învățate pentru a genera rezultate pe date noi. Este momentul în care modelul trece de la faza de învățare la cea de execuție propriu-zisă, face predicții, clasificări sau generează conținut.

Linia de producție: „Inferența”

În „linia de producție”, inferența este momentul în care linia rulează efectiv pe cazuri noi.

Intrare: un caz nou (text, imagine, formular, tranzacție etc.)
Proces: aplicarea modelului (reglajele salvate)
Ieșire: o predicție (rezultatul liniei)

De ce este importantă?

Inferența este momentul în care AI devine util în practică:

Antrenamentul — costisitor, lent, se face o dată pe an (sau mai rar)
Inferența — rapidă, se face de milioane de ori pe secundă

Aspect	Antrenament	Inferență
Când	Înainte de lansare	În timpul utilizării
Frecvență	O dată (sau periodic)	Continuu, la fiecare cerere
Durată	Ore, zile, săptămâni, luni	Milisecunde
Resurse	Centre de date foarte mari, consum ridicat de energie	Poate rula pe servere cloud sau local (ex.: pe telefon)
Date	Set mare de date de antrenament	O singură intrare
Rezultat	Model antrenat	Predicție/Răspuns

Cum funcționează?

%%{init: {'themeVariables': { 'fontSize': '18px', 'subGraphTitleFontSize': '22px', 'fontFamily': 'Open Sans' }}}%%
flowchart LR
    subgraph TRAINING["<b>⏮️ Antrenament (înainte)</b>"]
        D["<b>📦 Date<br>existente</b>"] --> ALG["<b>⚙️ Algoritm</b>"]
        ALG --> M["<b>🧠 Model <br> antrenat</b>"]
    end
    
    subgraph INFERENCE["<b>▶️ Inferență (acum)</b>"]
        NEW["<b>📥 Date noi</b>"] --> M2["<b>🧠 Model</b>"]
        M2 --> PRED["<b>📤 Predicție</b>"]
    end
    
    M -.->|"<b>modelul gata<br>antrenat</b>"| M2

    style TRAINING fill:#f5f5f5,color:#000
    style INFERENCE fill:#e3f2fd,color:#000

Pașii inferenței

Preluarea datelor noi — modelul primește o imagine, un text, date numerice.
Preprocesare (curățarea datelor) — transformă intrarea în formatul (matematic) pe care modelul îl înțelege.
Calcul — modelul procesează datele prin straturile/parametrii săi.
Postprocesare (transformarea codului în text/imagine) — rezultatul brut este convertit într-un format ușor de înțeles pentru om.
Livrarea rezultatului — predicția, clasificarea sau conținutul generat.

Analogie

Inferența este ca un examen: modelul a învățat (antrenament), acum trebuie să răspundă la întrebări noi (date pe care nu le-a văzut).

Exemple

Intrare (inferență): “Explică-mi ce este inferența”

Ce face modelul:

Tokenizează textul în bucăți
Procesează prin miliarde de parametri
Generează următorul cuvânt, apoi următorul, apoi următorul…
Construiește răspunsul complet

Ieșire: Un paragraf clar despre inferență

Timp: ~2-3 secunde

Intrare (inferență): 10 secunde de audio

Ce face modelul:

Extrage “amprenta” audio
Compară cu milioane de amprente cunoscute
Găsește cea mai bună potrivire

Ieșire: “Shape of You - Ed Sheeran”

Timp: ~3 secunde

Intrare (inferență): Scanare 3D a feței

Ce face modelul:

Extrage puncte caracteristice
Compară cu fața înregistrată
Calculează scorul de similitudine

Ieșire: Telefon deblocat sau blocat

Timp: ~0.1 secunde

Tipuri de inferență

%%{init: {'themeVariables': { 'fontSize': '18px', 'subGraphTitleFontSize': '22px', 'fontFamily': 'Open Sans' }}}%%
flowchart TB
    INF["Inferență"] --> BATCH["Procesare în bloc<br>(programată)"]
    INF --> RT["În timp real<br>(imediat)"]
    INF --> EDGE["Local<br>(pe dispozitiv)"]
    
    BATCH --> B1["Procesează mii de<br>cereri simultan"]
    RT --> R1["Răspuns instant<br>la fiecare cerere"]
    EDGE --> E1["Rulează local<br>fără internet"]
    
    B1 --> BEX["Ex: Analiza<br>emailurilor peste noapte"]
    R1 --> REX["Ex: ChatGPT<br>răspunde imediat"]
    E1 --> EEX["Ex: FaceID<br>pe iPhone"]

    style INF fill:#CFE8F3,color:#000
    style BATCH fill:#DCEDD9,color:#000
    style RT fill:#FFF2D4,color:#000
    style EDGE fill:#F8D5D4,color:#000

Tip	Viteză	Unde rulează	Exemplu
Procesare în bloc (programată)	Minute-ore	Servere cloud	Analiza sentimentului pe milioane de postări sau mesaje
În timp real (imediat)	Milisecunde	Servere cloud	Traducere Google în timp real
Local (pe dispozitiv)	Milisecunde	Dispozitiv local	Recunoaștere facială pe telefon

Cum se leagă de alte concepte?

%%{init: {'themeVariables': { 'fontSize': '18px', 'subGraphTitleFontSize': '22px', 'fontFamily': 'Open Sans' }}}%%
flowchart LR
    D[Date] --> ANT[Antrenament]
    ALG[Algoritm] --> ANT
    ANT --> M[<b>MODEL AI]
    M --> INF[Inferență</b><br>Tu ești aici]:::current
    INF --> P[Predicție]
    
    classDef current fill:#CFE8F3,stroke:#000000,stroke-width:1px

Concept	Relația cu Inferența
Predicție	Predicția este REZULTATUL inferenței
Model AI	Inferența FOLOSEȘTE modelul antrenat
Antrenament	Antrenamentul PREGĂTEȘTE modelul pentru inferență

Termeni asociați: → Model AI | → Antrenament | → Predicție | → Sistem AI

← Model AI

Predicție →