Un model AI funcțional este construit pe seturi de date solide, fiabile și dinamice. Fără bogat și detaliat Date de antrenament AI la îndemână, cu siguranță nu este posibil să construiți o soluție AI valoroasă și de succes. Știm că complexitatea proiectului dictează și determină calitatea necesară a datelor. Dar nu suntem exact siguri de câte date de antrenament avem nevoie pentru a construi modelul personalizat.
Nu există un răspuns simplu la ce cantitatea corectă date de instruire pentru învățarea automată Este nevoie. În loc să lucrați cu o cifră de bază, credem că o mulțime de metode vă pot oferi o idee precisă despre dimensiunea datelor de care ați putea avea nevoie. Dar înainte de asta, să înțelegem de ce datele de antrenament sunt cruciale pentru succesul proiectului tău AI.
Semnificația datelor de antrenament
Vorbind la festivalul The Wall Street Journal Future of Everything, Arvind Krishna, CEO IBM, a spus că aproape 80% din lucrează într-un proiect AI este despre colectarea, curățarea și pregătirea datelor.' Și a fost, de asemenea, de părere că companiile renunță la proiectele lor de IA pentru că nu pot ține pasul cu costul, munca și timpul necesar pentru a colecta date valoroase de formare.
Determinarea datelor marime de mostra ajută la proiectarea soluției. De asemenea, ajută la estimarea cu precizie a costurilor, timpului și abilităților necesare pentru proiect.
Dacă se utilizează seturi de date inexacte sau nesigure pentru a antrena modele ML, aplicația rezultată nu va oferi predicții bune.
7 factori care determină volumul de date de antrenament necesare
Deși cerințele de date în ceea ce privește volumul pentru antrenarea modelelor AI sunt complet subiective și ar trebui luate de la caz la caz, există câțiva factori universali care influențează în mod obiectiv. Să ne uităm la cele mai comune.
Model de învățare automată
Volumul datelor de antrenament depinde dacă antrenamentul modelului dvs. se desfășoară pe învățare supravegheată sau nesupravegheată. În timp ce primul necesită mai multe date de antrenament, cel de-al doilea nu.
Învățare supravegheată
Aceasta implică utilizarea datelor etichetate, care, la rândul lor, adaugă complexități instruirii. Sarcini precum clasificarea imaginilor sau gruparea necesită etichete sau atribuții pentru ca mașinile să descifreze și să diferențieze, ceea ce duce la cererea de mai multe date.
Învățare fără supraveghere
Utilizarea datelor etichetate nu este un mandat în învățarea nesupravegheată, reducând astfel nevoia de volume uriașe de date comparativ. Acestea fiind spuse, volumul de date ar fi încă mare pentru ca modelele să detecteze modele și să identifice structurile înnăscute și să le coreleze.
Variabilitate și diversitate
Pentru ca un model să fie cât mai corect și obiectiv posibil, părtinirea înnăscută ar trebui eliminată complet. Acest lucru se traduce doar prin faptul că sunt necesare mai multe volume de seturi de date diverse. Acest lucru asigură că un model învață multitudine de probabilități existente, permițându-i să stea departe de a genera răspunsuri unilaterale.
Învățare privind creșterea și transferul de date
Aprovizionarea datelor de calitate pentru diferite cazuri de utilizare în industrii și domenii nu este întotdeauna fără probleme. În sectoare sensibile, cum ar fi asistența medicală sau finanțele, datele de calitate sunt puțin disponibile. În astfel de cazuri, creșterea datelor care implică utilizarea datelor sintetizate devine singura cale de avans în modelele de antrenament.
Experimentare și validare
Antrenamentul iterativ este echilibrul, în care volumul de date de antrenament necesar este calculat după experimentarea consecventă și validarea rezultatelor. Prin teste și monitorizări repetate
performanța modelului, părțile interesate pot evalua dacă sunt necesare mai multe date de instruire pentru optimizarea răspunsului.
Cum să reduceți cerințele privind volumul datelor de antrenament
Indiferent dacă este vorba despre constrângerile bugetare, termenul limită de lansare pe piață sau indisponibilitatea datelor diverse, există câteva opțiuni pe care companiile le pot folosi pentru a-și reduce dependența de volume uriașe de date de instruire.
Augmentarea datelor
în cazul în care datele noi sunt generate sau sintetizate din seturi de date existente este ideal pentru utilizare ca date de antrenament. Aceste date provin din și imită datele părinte, care sunt date 100% reale.
Transferul învățării
Aceasta implică modificarea parametrilor unui model existent pentru a efectua și executa o nouă sarcină. De exemplu, dacă modelul dvs. a învățat să identifice merele, puteți utiliza același model și modifica parametrii de antrenament existenți pentru a identifica și portocalele.
Modele pre-antrenate
Unde cunoștințele existente pot fi folosite ca înțelepciune pentru noul tău proiect. Acesta ar putea fi ResNet pentru sarcinile asociate cu identificarea imaginilor sau BERT pentru cazurile de utilizare NLP.
Exemple reale de proiecte de învățare automată cu seturi de date minime
Deși poate părea imposibil ca unele proiecte ambițioase de învățare automată să poată fi executate cu un minim de materii prime, unele cazuri sunt uimitor de adevărate. Pregătește-te să fii uimit.
Raport Kaggle | Farmaceutice | Oncologie clinică |
Un sondaj Kaggle arată că peste 70% dintre proiectele de învățare automată au fost finalizate cu mai puțin de 10,000 de eșantioane. | Cu doar 500 de imagini, o echipă MIT a pregătit un model pentru a detecta neuropatia diabetică în imagini medicale din scanările oculare. | Continuând exemplul cu asistența medicală, o echipă de la Universitatea Stanford a reușit să dezvolte un model pentru detectarea cancerului de piele cu doar 1000 de imagini. |
Făcând presupuneri educate
Nu există un număr magic cu privire la cantitatea minimă de date necesară, dar există câteva reguli de bază pe care le puteți folosi pentru a ajunge la un număr rațional.
Regula de 10
Ca regula degetului mare, pentru a dezvolta un model AI eficient, numărul de seturi de date de antrenament necesare ar trebui să fie de zece ori mai mare decât fiecare parametru de model, numit și grade de libertate. Regulile „de 10” au scopul de a limita variabilitatea și de a crește diversitatea datelor. Ca atare, această regulă generală vă poate ajuta să începeți proiectul, oferindu-vă o idee de bază despre cantitatea necesară de seturi de date.
Invatare profunda
Metodele de învățare profundă ajută la dezvoltarea modelelor de înaltă calitate, dacă sunt furnizate mai multe date sistemului. Este în general acceptat că a avea 5000 de imagini etichetate pe categorie ar trebui să fie suficient pentru a crea un algoritm de învățare profundă care poate funcționa la egalitate cu oamenii. Pentru a dezvolta modele excepțional de complexe, sunt necesare cel puțin 10 milioane de articole etichetate.
Computer Vision
Dacă utilizați învățarea profundă pentru clasificarea imaginilor, există un consens că un set de date de 1000 de imagini etichetate pentru fiecare clasă este un număr corect.
Curbe de învățare
Curbele de învățare sunt folosite pentru a demonstra performanța algoritmului de învățare automată în raport cu cantitatea de date. Având abilitățile de model pe axa Y și setul de date de antrenament pe axa X, este posibil să înțelegem modul în care dimensiunea datelor afectează rezultatul proiectului.
Dezavantajele de a avea prea puține date
Ați putea crede că este destul de evident că un proiect are nevoie de cantități mari de date, dar uneori, chiar și companiile mari cu acces la date structurate nu reușesc să le procure. Instruirea pe cantități limitate sau înguste de date poate opri modele de învățare automată de a-și atinge întregul potențial și de a crește riscul de a furniza predicții greșite.
Deși nu există o regulă de aur și generalizarea aproximativă este de obicei făcută pentru a prevedea nevoile de date de instruire, este întotdeauna mai bine să aveți seturi de date mari decât să suferi de limitări. Limitarea datelor de care suferă modelul dumneavoastră ar fi limitările proiectului dumneavoastră.
Ce trebuie să faceți dacă aveți nevoie de mai multe seturi de date
Deși toată lumea vrea să aibă acces la seturi mari de date, este mai ușor de spus decât de făcut. Obținerea accesului la cantități mari de seturi de date de calitate și diversitate este esențială pentru succesul proiectului. Aici vă oferim pași strategici pentru a ușura mult colectarea datelor.
Deschideți setul de date
Seturile de date deschise sunt de obicei considerate o „sursă bună” de date gratuite. Deși acest lucru ar putea fi adevărat, seturile de date deschise nu sunt ceea ce are nevoie proiectul în majoritatea cazurilor. Există multe locuri de unde pot fi procurate date, cum ar fi surse guvernamentale, portaluri de date deschise ale UE, exploratorii de date Google Public și multe altele. Cu toate acestea, există multe dezavantaje ale utilizării seturilor de date deschise pentru proiecte complexe.
Când utilizați astfel de seturi de date, riscați antrenament și testare modelul dvs. pe date incorecte sau lipsă. Metodele de colectare a datelor nu sunt, în general, cunoscute, ceea ce ar putea afecta rezultatul proiectului. Confidențialitatea, consimțământul și furtul de identitate sunt dezavantaje semnificative ale utilizării surselor de date deschise.
Set de date îmbunătățit
Când ai ceva cantitatea de date de antrenament dar nu suficient pentru a satisface toate cerințele proiectului dumneavoastră, trebuie să aplicați tehnici de creștere a datelor. Setul de date disponibil este reutilizat pentru a satisface nevoile modelului.
Eșantioanele de date vor suferi diverse transformări care fac setul de date bogat, variat și dinamic. Un exemplu simplu de mărire a datelor poate fi văzut atunci când aveți de-a face cu imagini. O imagine poate fi mărită în multe moduri – poate fi tăiată, redimensionată, oglindită, transformată în diferite unghiuri și setările de culoare pot fi modificate.
Date sintetice
Când există date insuficiente, putem apela la generatoare de date sintetice. Datele sintetice sunt utile în ceea ce privește învățarea prin transfer, deoarece modelul poate fi antrenat mai întâi pe date sintetice și mai târziu pe setul de date din lumea reală. De exemplu, un vehicul autonom bazat pe inteligență artificială poate fi mai întâi antrenat să recunoască și să analizeze obiectele din interior viziunea computerului jocuri video.
Datele sintetice sunt benefice atunci când există o lipsă de viață reală date de antrenat și testează-ți modele instruite. Mai mult decât atât, este folosit și atunci când se ocupă de confidențialitatea și sensibilitatea datelor.
Colectarea datelor personalizată
Colectarea personalizată a datelor este poate ideală pentru a genera seturi de date atunci când alte formulare nu aduc rezultatele necesare. Seturi de date de înaltă calitate pot fi generate folosind instrumente de scraping web, senzori, camere și alte instrumente. Când aveți nevoie de seturi de date personalizate care să îmbunătățească performanța modelelor dvs., achiziționarea de seturi de date personalizate ar putea fi mișcarea potrivită. Mai mulți furnizori de servicii terți își oferă expertiza.
Pentru a dezvolta soluții de IA de înaltă performanță, modelele trebuie să fie instruite pe seturi de date fiabile de bună calitate. Cu toate acestea, nu este ușor să obțineți seturi de date bogate și detaliate care au un impact pozitiv asupra rezultatelor. Dar atunci când faci parteneriate cu furnizori de date de încredere, poți construi un model AI puternic cu o bază solidă de date.
Ai un proiect grozav în minte, dar aștepți seturi de date personalizate pentru a-ți antrena modelele sau te străduiești să obții rezultatul potrivit din proiectul tău? Oferim seturi extinse de date de instruire pentru o varietate de nevoi ale proiectelor. Valorificați potențialul Shaip vorbind cu unul dintre noștri oamenii de știință de date astăzi și înțelegerea modului în care am oferit clienților seturi de date de înaltă performanță și de calitate în trecut.