Definiție
Seturile de date preconfigurate sunt seturi de date precolectate și disponibile public sau comercial, care pot fi utilizate direct pentru antrenarea sau evaluarea modelelor de IA.
Scop
Scopul este de a accelera cercetarea și dezvoltarea prin furnizarea de date ușor disponibile, fără colectarea costisitoare.
Importanță
- Economisește timp și resurse pentru echipele de inteligență artificială.
- Permite reproductibilitatea și evaluarea comparativă.
- Este posibil să nu aibă specificitate de domeniu pentru anumite sarcini.
- Necesită verificarea prejudecăților și a constrângerilor de licențiere.
Cum funcționează
- Identificați setul de date relevant pentru sarcina de inteligență artificială.
- Revizuiți restricțiile de licențiere și utilizare.
- Descărcați sau achiziționați setul de date.
- Preprocesați după cum este necesar pentru compatibilitate.
- Antrenați sau evaluați modele folosind setul de date.
Exemple (din lumea reală)
- MNIST: set de date cu cifre scrise de mână pentru benchmarking.
- ImageNet: set de date la scară largă pentru viziune computerizată.
- Common Crawl: set de date cu text web deschis pentru NLP.