%%{init: {'themeVariables': { 'fontSize': '18px', 'subGraphTitleFontSize': '22px', 'fontFamily': 'Open Sans' }}}%%
flowchart LR
subgraph TRAINING["<b>⏮️ Antrenament (înainte)</b>"]
D["<b>📦 Date<br>existente</b>"] --> ALG["<b>⚙️ Algoritm</b>"]
ALG --> M["<b>🧠 Model <br> antrenat</b>"]
end
subgraph INFERENCE["<b>▶️ Inferență (acum)</b>"]
NEW["<b>📥 Date noi</b>"] --> M2["<b>🧠 Model</b>"]
M2 --> PRED["<b>📤 Predicție</b>"]
end
M -.->|"<b>modelul gata<br>antrenat</b>"| M2
style TRAINING fill:#f5f5f5,color:#000
style INFERENCE fill:#e3f2fd,color:#000
Inferență
Ce este inferența?
Inferența este procesul prin care un model AI deja antrenat aplică cunoștințele învățate pentru a genera rezultate pe date noi. Este momentul în care modelul trece de la faza de învățare la cea de execuție propriu-zisă, face predicții, clasificări sau generează conținut.
Linia de producție: „Inferența”
În „linia de producție”, inferența este momentul în care linia rulează efectiv pe cazuri noi.
- Intrare: un caz nou (text, imagine, formular, tranzacție etc.)
- Proces: aplicarea modelului (reglajele salvate)
- Ieșire: o predicție (rezultatul liniei)
De ce este importantă?
Inferența este momentul în care AI devine util în practică:
- Antrenamentul — costisitor, lent, se face o dată pe an (sau mai rar)
- Inferența — rapidă, se face de milioane de ori pe secundă
| Aspect | Antrenament | Inferență |
|---|---|---|
| Când | Înainte de lansare | În timpul utilizării |
| Frecvență | O dată (sau periodic) | Continuu, la fiecare cerere |
| Durată | Ore, zile, săptămâni, luni | Milisecunde |
| Resurse | Centre de date foarte mari, consum ridicat de energie | Poate rula pe servere cloud sau local (ex.: pe telefon) |
| Date | Set mare de date de antrenament | O singură intrare |
| Rezultat | Model antrenat | Predicție/Răspuns |
Cum funcționează?
Pașii inferenței
- Preluarea datelor noi — modelul primește o imagine, un text, date numerice.
- Preprocesare (curățarea datelor) — transformă intrarea în formatul (matematic) pe care modelul îl înțelege.
- Calcul — modelul procesează datele prin straturile/parametrii săi.
- Postprocesare (transformarea codului în text/imagine) — rezultatul brut este convertit într-un format ușor de înțeles pentru om.
- Livrarea rezultatului — predicția, clasificarea sau conținutul generat.
Analogie
Inferența este ca un examen: modelul a învățat (antrenament), acum trebuie să răspundă la întrebări noi (date pe care nu le-a văzut).
Exemple
Intrare (inferență): “Explică-mi ce este inferența”
Ce face modelul:
- Tokenizează textul în bucăți
- Procesează prin miliarde de parametri
- Generează următorul cuvânt, apoi următorul, apoi următorul…
- Construiește răspunsul complet
Ieșire: Un paragraf clar despre inferență
Timp: ~2-3 secunde
Intrare (inferență): 10 secunde de audio
Ce face modelul:
- Extrage “amprenta” audio
- Compară cu milioane de amprente cunoscute
- Găsește cea mai bună potrivire
Ieșire: “Shape of You - Ed Sheeran”
Timp: ~3 secunde
Intrare (inferență): Scanare 3D a feței
Ce face modelul:
- Extrage puncte caracteristice
- Compară cu fața înregistrată
- Calculează scorul de similitudine
Ieșire: Telefon deblocat sau blocat
Timp: ~0.1 secunde
Tipuri de inferență
%%{init: {'themeVariables': { 'fontSize': '18px', 'subGraphTitleFontSize': '22px', 'fontFamily': 'Open Sans' }}}%%
flowchart TB
INF["Inferență"] --> BATCH["Procesare în bloc<br>(programată)"]
INF --> RT["În timp real<br>(imediat)"]
INF --> EDGE["Local<br>(pe dispozitiv)"]
BATCH --> B1["Procesează mii de<br>cereri simultan"]
RT --> R1["Răspuns instant<br>la fiecare cerere"]
EDGE --> E1["Rulează local<br>fără internet"]
B1 --> BEX["Ex: Analiza<br>emailurilor peste noapte"]
R1 --> REX["Ex: ChatGPT<br>răspunde imediat"]
E1 --> EEX["Ex: FaceID<br>pe iPhone"]
style INF fill:#CFE8F3,color:#000
style BATCH fill:#DCEDD9,color:#000
style RT fill:#FFF2D4,color:#000
style EDGE fill:#F8D5D4,color:#000
| Tip | Viteză | Unde rulează | Exemplu |
|---|---|---|---|
| Procesare în bloc (programată) | Minute-ore | Servere cloud | Analiza sentimentului pe milioane de postări sau mesaje |
| În timp real (imediat) | Milisecunde | Servere cloud | Traducere Google în timp real |
| Local (pe dispozitiv) | Milisecunde | Dispozitiv local | Recunoaștere facială pe telefon |
Cum se leagă de alte concepte?
%%{init: {'themeVariables': { 'fontSize': '18px', 'subGraphTitleFontSize': '22px', 'fontFamily': 'Open Sans' }}}%%
flowchart LR
D[Date] --> ANT[Antrenament]
ALG[Algoritm] --> ANT
ANT --> M[<b>MODEL AI]
M --> INF[Inferență</b><br>Tu ești aici]:::current
INF --> P[Predicție]
classDef current fill:#CFE8F3,stroke:#000000,stroke-width:1px
| Concept | Relația cu Inferența |
|---|---|
| Predicție | Predicția este REZULTATUL inferenței |
| Model AI | Inferența FOLOSEȘTE modelul antrenat |
| Antrenament | Antrenamentul PREGĂTEȘTE modelul pentru inferență |
Termeni asociați: → Model AI | → Antrenament | → Predicție | → Sistem AI