Lucrători în mulțime pentru colectarea datelor

Lucrători în mulțime pentru colectarea datelor – o parte indispensabilă a IA etică

În eforturile noastre de a construi soluții de IA robuste și imparțial, este pertinent să ne concentrăm pe antrenarea modelelor pe o gamă imparțială, dinamică și reprezentativă de date. Procesul nostru de colectare a datelor este extrem de important în dezvoltarea de soluții AI credibile. În acest sens, adunarea Date de instruire AI prin intermediul lucrătorilor în mulțime devine un aspect critic al strategiei de colectare a datelor.

În acest articol, să explorăm rolul lucrătorilor în mulțime, impactul acestuia asupra dezvoltării AI algoritmi de învățare și modelele ML și nevoia și beneficiile pe care le oferă întregului proces. 

De ce sunt obligați lucrătorii în mulțime să construiască modele AI?

Ca oameni, generăm tone de date, dar doar o fracțiune din aceste date generate și colectate este valoroasă. Din cauza lipsei standardelor de evaluare comparativă a datelor, majoritatea datelor colectate sunt fie părtinitoare, pline de probleme de calitate, fie nu sunt reprezentative pentru mediu. Din ce în ce mai mult masina de învățare și sunt dezvoltate modele de învățare profundă care se dezvoltă pe cantități masive de date, nevoia de seturi de date mai bune, mai noi și diverse este simțită din ce în ce mai mult.

Este locul în care lucrătorii mulțimii intră în joc.

Datele crowd-sourcing construiesc un set de date cu participarea unor grupuri mari de oameni. Lucrătorii mulțimii infuzează inteligența umană în inteligența artificială.

Platforme de crowdsourcing oferiți microsarcini de colectare și adnotare a datelor unui grup mare și diversificat de oameni. Crowdsourcing-ul permite companiilor să acceseze o forță de muncă masivă, dinamică, rentabilă și scalabilă.

Cea mai populară platformă de crowd-sourcing – Amazon Mechanical Turk, a reușit să obțină 11 mii de dialoguri de la om la om în 15 ore și a plătit lucrătorii $0.35 pentru fiecare dialog reușit. Lucrătorii în mulțime sunt angajați pentru o sumă atât de slabă, aruncând lumină asupra importanței construirii standardelor etice de aprovizionare a datelor.

Teoretic, pare un plan inteligent, dar nu este o strategie ușor de executat. Anonimatul lucrătorilor din mulțime a dat naștere la probleme cu salariile scăzute, nerespectarea drepturilor lucrătorilor și munca de proastă calitate care afectează performanța modelului AI. 

Beneficiile de a avea lucrători în mulțime pentru a sursa date

Angajând un grup divers de lucrători în mulțime, dezvoltatorii de soluții bazate pe inteligență artificială pot distribui micro sarcini și aduna observații variate și răspândite rapid și la un cost relativ scăzut.

Unele dintre beneficiile proeminente ale angajării lucrătorilor în mulțime pentru proiecte AI sunt

Data collection benefits through crowd workers

Timp mai rapid de introducere pe piață: Conform cercetărilor de la Cognilytica, aproape 80% of inteligență artificială timpul proiectului este alocat activităților de colectare a datelor, cum ar fi curățarea datelor, etichetarea și agregarea acestora. Doar 20% din timp este alocat dezvoltării și formării. Barierele tradiționale în calea generării de date sunt eliminate, deoarece un număr mare de colaboratori pot fi recrutați într-un timp scurt. 

Soluție rentabilă: Colectarea de date aglomerată reduce timpul și energia cheltuite cu pregătirea, recrutarea și integrarea acestora. Acest lucru elimină costurile, timpul și resursele necesare, deoarece forța de muncă este angajată pe o metodă de plată pe sarcină. 

Crește diversitatea în setul de date: Diversitatea datelor este esențială pentru întreaga formare a soluției AI. Pentru ca un model să producă rezultate imparțial, acesta trebuie să fie antrenat pe un set de date divers. Cu ajutorul crowd-sourcing-ului de date, este posibil să se genereze seturi de date diverse (geografice, limbi, dialecte) cu puțin efort și costuri.

Îmbunătățește scalabilitatea: Când recrutați lucrători de încredere, vă puteți asigura de înaltă calitate colectare de date care poate fi scalată în funcție de nevoile proiectului dvs.

Intern vs. crowdsourcing – Cine iese câștigător?

Date interneDate crowdsource
Pot fi garantate acuratețea și consistența datelor.Calitatea datelor, acuratețea și coerența pot fi menținute dacă sunt angajate platforme de crowdsourcing fiabile cu măsuri standard de asigurare a calității
Aprovizionarea internă a datelor nu este întotdeauna o decizie practică, deoarece echipa dvs. internă ar putea să nu satisfacă cerințele proiectului.Diversitatea datelor poate fi asigurată, deoarece este posibil să recrutați un grup eterogen de lucrători în mulțime în funcție de nevoile proiectului.
Recrutarea și instruirea lucrătorilor pentru nevoile proiectului este costisitoare.Soluție rentabilă pentru de colectare a datelor deoarece este posibil să recrutați, să instruiți și să îmbarcați lucrători cu mai puține investiții.
Timpul de introducere pe piață este mare, deoarece colectarea internă a datelor durează considerabil.Timpul de piață este semnificativ mai mic, deoarece multe contribuții vin rapid.
Un grup mic de colaboratori și etichetatori interniUn grup mare și divers de colaboratori și etichetatoare de date
Confidențialitatea datelor este foarte ridicată cu o echipă internă.Confidențialitatea datelor este dificil de păstrat atunci când lucrezi cu muncitori aglomerați din întreaga lume.
Mai ușor de urmărit, instruit și evaluat colectorii de dateEste dificil să urmăriți și să instruiți colectorii de date.

Reducerea decalajului dintre lucrătorii crowdsource și solicitant.

Bridging the gap between crowdsource workers and requestor Există o nevoie urgentă de a reduce decalajul dintre muncitorii de mulțime și solicitanți, nu doar în domeniul salariilor.

Există o lipsă flagrantă de informații din partea solicitantului deoarece lucrătorilor li se oferă doar informații cu privire la sarcina specifică. De exemplu, deși lucrătorilor li se oferă micro-sarcini, cum ar fi înregistrarea dialogurilor în dialectul lor nativ, rareori li se oferă context. Ei nu au informațiile necesare cu privire la motivul pentru care fac ceea ce fac și cum să o facă cel mai bine. Această lipsă de informații afectează calitatea lucrării aglomerate.

Pentru o ființă umană, a avea întregul context oferă claritate și scop muncii lor.

Adăugați la acest amestec o altă dimensiune a NDA – acordurile de nedivulgare care limitează cantitatea de informații oferite unui lucrător de mulțime. Din perspectiva lucrătorilor în mulțime, această retragere a informațiilor arată o lipsă de încredere și o importanță redusă pentru munca lor.

Când aceeași situație este privită de la celălalt capăt al spectrului, există o lipsă de transparență din partea lucrătorului. Solicitantul nu înțelege pe deplin lucrătorul însărcinat să facă lucrarea. Unele proiecte ar putea necesita un anumit tip de muncitor; cu toate acestea, în majoritatea proiectelor, există ambiguitate. The adevărul de bază asta poate complica evaluarea, feedback-ul și formarea pe linie.

Pentru a contracara aceste dificultăți, este importantă colaborarea cu experți în colectarea datelor cu experiență în furnizarea de date diverse, organizate și bine reprezentate de la o selecție largă de colaboratori.

Alegerea Shaip ca partener de date poate avea multiple beneficii. Ne concentrăm pe diversitate și pe distribuțiile reprezentative ale datelor. Personalul nostru experimentat și dedicat înțelege compulsiunile fiecărui proiect și dezvoltă seturi de date care pot antrena soluții robuste bazate pe inteligență artificială în cel mai scurt timp.

[Citește și: Ghid de inițiere a datelor de instruire AI: definiție, exemplu, seturi de date]

Partajare socială