Licențiere standard pentru imagini faciale și date video

Seturi de date de recunoaștere facială standard pentru antrenamentul modelelor de inteligență artificială

Valorificarea seturilor de date provenite din surse etice și diverse din punct de vedere demografic pentru a accelera antrenamentul modelelor de inteligență artificială și a reduce părtinirea pentru un conglomerat tehnologic global de top.

Seturi de date de recunoaștere facială standard

rezumatul proiectului

Clientul a căutat să accelereze Dezvoltarea recunoașterii faciale bazate pe inteligență artificială fără a trece prin cicluri lungi și costisitoare de colectare a datelor. Pentru a realiza acest lucru, aveau nevoie seturi de date gata de utilizare care nu erau doar mare și diversă, Dar, de asemenea, provenit din surse etice și conform cu reglementările globale privind confidențialitatea datelor.

Shaip a furnizat seturi de date complete cu variații controlate ale iluminării, pozițiilor capului, ocluziilor și emoțiilor, permițând modelelor clientului să obțină atât acuratețe, cât și corectitudine, îndeplinind în același timp criteriile etnice și demografice necesare. Fiecare set de date a inclus metadate detaliate, adnotări ale pozițiilor și casete de delimitare pentru recunoașterea emoțiilor, permițând antrenarea și testarea modelelor în scenarii din lumea reală extrem de diverse.

Seturi de date de recunoaștere facială standard

Statistici cheie

Peste 7,000 de subiecți

în setul de date istorice cu peste 300,000 de imagini și 2,000 de videoclipuri.

Peste 10,000 de subiecți

în setul de date privind emoțiile în unghiuri multiple.

Imagini 74,880

în Iluminare
Set de date privind variațiile.

Imagini 18,600

acoperind șase
emoții fundamentale.

Domeniul de aplicare al proiectului

Clientul a cerut seturi de date de imagini faciale și video la scară largă, provenite din surse etice și diverse din punct de vedere demografic pentru a sprijini dezvoltarea și instruirea modelelor de recunoaștere facială. Aceste seturi de date au fost esențiale pentru a susține cazurile de utilizare în sisteme anti-spoofing, verificare a identității, potrivire a imaginilor și analiză a expresiilor, asigurând performanțe robuste și imparțiale ale inteligenței artificiale în aplicațiile din lumea reală.

Domeniul de aplicare al misiunii a inclus:

  • livrarea seturi de date selectate conceput pentru a îndeplini cazuri de utilizare a recunoașterii faciale, precum anti-spoofing, verificarea identității și recunoașterea expresiilor.
  • Furnizarea imagini și videoclipuri cu adnotări detaliate pentru date demografice, poza capului, ocluzii, tipul de iluminare și emoții.
  • Asigurarea acoperire demografică echilibrată pentru a reduce prejudecățile sistemice în instruire.
  • Garantare conformitate și consimțământ cu standardele globale de protecție a datelor și a confidențialității.

Contribuții la setul de date eșantion:

  • Setul de date istorice (~7,000 de subiecți): Peste 300,000 de imagini și 2,000 de videoclipuri cu variații de poziție și ocluzie.
  • Set de date privind emoțiile în mai multe unghiuri (~10,000 de subiecți): 15–20 de imagini per subiect, indiferent de unghiuri și stări emoționale.
  • Set de date cu șase emoții (~3,100 subiecți): 18,600 de imagini adnotate care acoperă expresii umane esențiale.
  • Set de date privind variația iluminării (~468 subiecți): 74,880 de imagini în nouă condiții de iluminare.

Activități

Proiectul a abordat provocări cheie comune în construirea de modele robuste de inteligență artificială:

Prejudecăți în modelele AI

Prevenirea suprareprezentării anumitor etnii sau genuri pentru a asigura echitatea.

Variabilitatea lumii reale

Capturarea condițiilor de iluminare, a unghiurilor faciale, a ocluziilor și a expresiilor naturale.

Scară și calitate

Oferirea a sute de mii de imagini de înaltă rezoluție fără a compromite diversitatea.

Respectarea reglementărilor

Îndeplinirea cerințelor stricte la nivel global privind confidențialitatea și protecția datelor, cu consimțământul deplin al participanților.

Soluţie

Shaip a implementat o abordare structurată pentru a asigura calitatea și relevanța setului de date:

  • Seturi de date echilibrate, curatoriate cu o reprezentare largă pe etnie, gen și vârstă.
  • capturat poziții din mai multe unghiuri și variații de iluminare pentru a reproduce condiții din lumea reală.
  • Adăugat adnotări detaliate (de exemplu, poziția capului, ocluzii, emoții) pentru a îmbogăți utilizabilitatea setului de date.
  • Strict stabilit fluxuri de lucru pentru controlul calității și conformitate pentru a garanta aprovizionarea etică și respectarea confidențialității.

Portofoliu de seturi de date

Setul de date Volum Demografie / Diversitate Standarde / Specificații
Set de date istorice cu imagini faciale și videoclipuri (~7,000 de subiecți) 7,000 de imagini de înregistrare; peste 300,000 de imagini istorice; 2,000 de videoclipuri (1 în interior + 1 în exterior la 1,000 de subiecți) Etnie: Negru (35%), Est-Asiatic (42%), Sud-Asiatic (13%), Alb (10%); Sex: 50% Masculin / 50% Feminin; Vârstă: Adulți 18+ (ultimii 10 ani) Durata videoclipului: 1–2 min; Variația poziției capului (P1–P7); 5 tipuri de ocluzie (O0–O4)
Set de date cu imagini faciale (~5,000 de subiecți) 35 de imagini per subiect; 2,500 de indieni; 1,000 de asiatici; 1,500 de negri Vârstă: 18–60 ani; Distribuție echilibrată pe sexe Fără înfrumusețare; Fundal și îmbrăcăminte variate; Rezoluție minimă: 960×1280
Set de date privind emoțiile în unghiuri multiple (~10,000 de subiecți – chinezi) 15–20 de imagini per subiect; Poze: Față, Stânga, Dreapta (30°–60°); Expresii: Zâmbet, cu gura deschisă, trist, serios, neutru Etnie: chineză; Vârstă: 18–26; Sex: împărțit 50/50 Rezoluție: 2160×3840 pixeli sau mai mare
Set de date privind șase emoții umane (~3,100 de subiecți) 6 imagini per subiect (expresii diferite); 18,600 de imagini în total Etnii: japoneze (9,000), coreene (2,400), chineze (2,400), sud-est asiatice (2,400), sud-asiatice (2,400); Vârstă: 20–65 ani Adnotări în casete de delimitare pentru emoții; Fundaluri simple; Fără pălării, ochelari sau obstacole
Set de date privind variația iluminării (~468 de subiecți indieni) 160 de imagini per subiect; Total: 74,880 de imagini Vârstă: 20–70; 70% bărbați 9 condiții de iluminare (interior, exterior, lumină laterală, iluminare din spate, neon etc.)
Set de date cu imagini faciale multietnice (~600 de subiecți) 3,752 de imagini în total Etnii: africane, din Orientul Mijlociu, native americane, sud-asiatice, sud-est-asiatice; Vârstă: 20–70 ani -

Rezultat

Colaborarea a avut un impact semnificativ asupra afacerii și tehnicii:

  • Precizie îmbunătățită a modeluluiPrecizie și reamintire îmbunătățite pentru modelele de recunoaștere facială în mai multe cazuri de utilizare.
  • Reducerea părtiniriiReprezentarea demografică echilibrată a redus prejudecățile sistemice în rezultatele inteligenței artificiale.
  • Termene de dezvoltare accelerateSeturile de date preconfigurate au permis prototiparea rapidă și antrenamentul modelelor fără o colectare îndelungată a datelor.
  • Respectarea reglementărilorToate seturile de date au respectat standardele globale de confidențialitate și au inclus consimțământul participanților.

Seturile de date diverse, provenite din surse etice, ale Shaip ne-au oferit viteza, calitatea și conformitatea de care aveam nevoie. Cu date gata de utilizare, am accelerat antrenamentul modelelor de inteligență artificială și am redus semnificativ prejudecățile sistemice.

Golden-5-Star