Construirea unui set de date de imagini faciale din afara UE/Regatul Unit cu diversitate în funcție de progresia vârstei

Un corpus de imagini faciale separate în timp, cu 1,205 participanți, pentru a consolida corectitudinea și robustețea modelelor de viziune computerizată.

Set de date cu imagini faciale cu diversitate în funcție de progresia vârstei

rezumatul proiectului

O companie globală de tehnologie care dezvoltă inteligență artificială centrată pe față pentru experiențe de siguranță, personalizare și identitate a căutat un set de date din afara UE/Regatul Unit cu fotografii separate în timp pentru a reduce părtinirea și a îmbunătăți rezistența modelului în funcție de vârstă, mediu și accesorii.

Clientul a colaborat cu Shaip pentru a colectează, selectează și validează un corpus vast de imagini faciale în care fiecare participant contribuie cu fotografii recente și mai vechi. Scopul a fost de a codifica progresia naturală a vârstei, aplicând în același timp o proveniență strictă din afara UE/Regatul Unit și atingând cote echilibrate de gen/vârstă.

Set de date cu imagini faciale cu diversitate în funcție de progresia vârstei

Statistici cheie

Participanții

 1,205 (doar pentru țări din afara UE/Regatul Unit, 50/50 sex ±10–15%)

 Amestec de vârste

 Toleranță 40% (10–29), 40% (30–49), 20% (50+) ±10–15%

Acoperire

Asia de Sud/Sud-Est, Africa de Nord și de Nord/Est, Singapore, America de Sud

Companiei

19 săptămâni

Activități

Restricție geografică

Aprovizionarea exclusivă de la populații din afara UE/Regatul Unit, evitând imaginile provenite din UE/Regatul Unit din călătorii.

Cote echilibrate la scară largă

Atingând 1,205 participanți cu toleranțe stricte în ceea ce privește sexul și vârsta.

Dovezi separate în timp

Asigurarea că fiecare act de identitate conține atât fotografii recente, cât și istorice, aliniate la intervalele de vârstă.

Calitatea operațională

Aplicarea limitelor minime de dimensiune a imaginii/feței, varietate și duplicare fără a încetini randamentul.

Soluţie

1. Panouri de țară și controale de proveniență

Noi am stabilit grupuri de aprovizionare la nivel de țară în regiunile țintă și parteneri instruiți pe această temă reguli de proveniență (Numai pentru țări din afara UE/Regatul Unit). Fotografiile au fost verificate pentru riscurile legate de originea călătoriei folosind indicii de metadate (an, markeri de locație) plus atestări ale emitentului, reducând scurgerile din UE/Regatul Unit înainte de controlul calității. Aceasta reflectă practica dovedită a Shaip de a efectua verificări anticipate ale riscurilor pentru a proteja debitul din aval.

2. Designul capturii progresiei vârstei

În loc să „cerem 20 de imagini”, am conceput un flux de trimitere pe două căi care i-a îndrumat pe participanți către:

  • Piesa A (Recentă): fotografii din ultimii doi ani;
  • Pista B (Istorică): fotografii mai vechi aliniate la intervalul de vârstă al participantului la momentul trimiterii (de exemplu, intervale 2–10/15/20 de ani).

Portalul i-a încurajat pe utilizatori cu exemple (interior/exterior, unghiuri, accesorii) pentru a promova varietatea fără a specifica prea multe.

3. Orchestrarea diversității și barierele de siguranță privind cotele

A tabloul de bord al cotelor în timp real înscrieri monitorizate de sex, grupă de vârstă și geografie, întrerupând aportul odată ce un strat a atins limitele planificate. Acest lucru a împiedicat reluarea ciclului târziu și reflectă abordarea standard a lui Shaip de a înscriere stratificată + blocări școlare utilizată în seturile de date biometrice anterioare pentru a menține o reprezentare echilibrată.

4. Canal de calitate (intervenție umană + verificări preliminare automate)

  • Porți automate: detectarea feței + praguri minime de dimensiune, verificări de bază ale estomparii/zgomotului și grupare în aceeași zi pentru a semnala din timp potențialele duplicate.
  • Niveluri QA umane: Recenzori la nivel de imagine validați exclusivitate subiect (doar participantul principal), varietate de scene/unghiuri și fără filtre de înfrumusețareAuditorii CQA au verificat loturile la fața locului înainte de acceptare. Acest lucru Asigurarea calității pe mai multe niveluri oglindește programele de date biometrice publicate de Shaip.

5. Conformitate și consimțământ

anul școlar ≥20 ani cu consimțământ semnat; sub 20 de cazuri acceptate doar cu consimțământul tutorelui. Am înregistrat prezența consimțământului în metadate și am aliniat listele de verificare ale recenzenților la eligibilitate + consimțământ câmpuri, asigurând auditabilitatea.

6. Metadate și trasabilitate

Am livrat metadate la nivel de participant și imagine (legături cu datele de identificare, date demografice, naționalitate/reședință, anul fotografiei, data depunerii etc.) și nume de câmpuri standardizate pentru simplificare etichetare și evaluare în avalAceasta urmează cele mai bune practici ale lui Shaip de a etichetare bogată în metadate pentru seturi de date biometrice.

7. Livrare în etape la scara de risc De

An Plan de 8 loturi a început cu a Calibrare cu 10 participanți stabilit, urmat de o creștere controlată. Feedback-ul clienților după lotul 1 a influențat ajustările rubricii, apoi volumele au crescut în tranșe previzibile pentru a atinge Participanții la 1,205 în ~19 săptămâni.

Domeniul de aplicare al proiectului

Dimensiune Ce am livrat
populație 1,205 participanți din afara UE/Regatul Unit, cu intervale de vârstă și gen echilibrate.
Conţinut ≥20 de imagini per participant: recente + istorice pentru a codifica progresia vârstei; scene, unghiuri și accesorii variate.
Operațiuni de calitate Verificări preliminare automate + asigurarea calității multistrat umană (controale de duplicare; exclusivitate a subiectului; respingere a filtrelor).
Conformitate Verificarea provenienței din afara UE/Regatul Unit; guvernanța consimțământului și validarea eligibilității.
Metadata Atribute ale participantului + imaginii pentru trasabilitate și evaluare ML în aval.
Livrare 8 loturi etapizate, începând cu calibrarea și apoi livrarea în stare stabilă până la ținta finală.

Rezultat

  • Corpus echilibrat, pregătit pentru audit: Cotele demografice au fost respectate în limita toleranței; Proveniența din afara UE/Regatul Unit a fost aplicată pentru toate imaginile pentru instruire conformă.
  • Variabilitate pregătită pentru model: Imaginile separate în timp, mediile/unghiurile diverse și acoperirea accesoriilor permit testarea robusteții și analiza erorilor de prejudecată.
  • Predictibilitate operațională: Prima implementare a calibrării + măsurile de siguranță privind cotele au redus lucrările repetate și au protejat calendarul până la obiectivul complet de 1,205 participanți.
  • Eficiență în aval: Metadatele bogate și igiena consistentă a fișierelor au scurtat calea către adnotare și construirea de teste comparative, urmând ghidurile de strategie ale setului de date biometrice ale lui Shaip.

Shaip a transformat un set complex de date faciale din afara UE/Regatul Unit într-un corpus echilibrat, pregătit pentru audit. Designul lor cu progresie în vârstă și QA pe niveluri au oferit echipei noastre de CV date curate și diverse în care puteam avea încredere - fără riscuri legate de termene limită.

Golden-5-Star