Definiție
Etichetarea datelor este procesul de atribuire a categoriilor, etichetelor sau atributelor datelor brute, astfel încât modelele de învățare automată să poată învăța din acestea. Este esențială pentru învățarea supravegheată.
Scop
Scopul este de a face seturile de date brute utilizabile pentru antrenament și evaluare. Etichetele oferă „răspunsurile” de care modelele au nevoie în timpul învățării.
Importanță
- Esențial pentru construirea unor modele de învățare automată (ML) supervizate și precise.
- Etichetarea deficitară reduce fiabilitatea sistemului.
- Adesea necesită multă muncă și este costisitor.
- Necesită expertiză în domenii precum medicina sau dreptul.
Cum funcționează
- Definiți sarcinile și etichetați schema.
- Segmentați datele brute în unități (imagini, propoziții, clipuri audio).
- Atribuiți etichete manual sau prin intermediul unor instrumente semi-automate.
- Efectuați verificări ale calității și teste de concordanță inter-anotatori.
- Exportați seturi de date etichetate pentru antrenament.
Exemple (din lumea reală)
- Shaip: date de etichetare pentru vehicule autonome.
- Seturi de date Kaggle: etichetate pentru competiții de ML.
- Seturi de date de imagini radiologice: etichetate de experți medicali.
Referințe/Lecturi suplimentare
- Adnotare de date pentru IA — NIST.
- Adnotarea și etichetarea seturilor de date — IEEE Transactions on Data Engineering.
- ISO/IEC 24617: Cadrul de adnotare semantică — ISO.
- Ce este etichetarea datelor? Tot ce trebuie să știe un începător – Shaip