Proiectul Vaani

Proiectul Vaani: Rolul lui Shaip în modelarea inteligenței artificiale multilingve pentru India

Într-o țară la fel de diversă cultural și bogată din punct de vedere lingvistic precum India, construirea unei IA incluzive începe cu colectarea de seturi de date reprezentative și de înaltă calitate. Asta e viziunea din spate Proiectul Vaani—o inițiativă la scară largă, open-source, condusă de ARTPARK, IISc Bengaluru și Google, cu scopul de a da voce oricărei limbi și dialectului indian.

Scopul ambițios? A colecta Peste 150,000 de ore de vorbire și Peste 15,000 de ore de transcriere de la 1 milioane de oameni peste 773 districte a Indiei.

Fiind unul dintre furnizorii cheie pentru această misiune națională, Shaip a jucat un rol esențial în gestionarea datelor de vorbire spontană, transcripție și colectare de metadate - punând bazele tehnologiilor vocale echitabile care reprezintă cu adevărat India reală.

Viziunea din spatele proiectului Vaani

Proiectul Vaani este conceput pentru a reduce decalajul de incluziune AI prin crearea cel mai mare set de date multimodale, multilingve, open-source în India. Aceste date sunt fundamentale pentru dezvoltarea de recunoaștere a vorbirii, traducere și sisteme AI generative în limbile indiene native – dintre care multe sunt subreprezentate în ecosistemele tehnologice globale.

Viziunea pe termen lung este de a alimenta aplicațiile de impact în:

Cum a contribuit Shaip la construirea celui mai mare set de date de vorbire open-source din India pentru Proiectul Vaani

Shaip a fost încredințat cu colecția de 8,000 de ore de vorbire spontană și 800 de ore de transcrieri verificate manual. Responsabilitatea noastră a cuprins integrarea difuzorului, captarea audio, etichetarea metadatelor, coordonarea transcripției și controlul calității.

8,000 ore a datelor audio spontane

800 ore de transcripții manuale de înaltă calitate

Înregistrări de la Peste 400 de vorbitori nativi per district, reprezentând diverse grupuri de vârstă, genuri și dialecte

80 de raioane, acoperit

Solicitare bazată pe imagini pentru a asigura vorbire naturală, contextuală

Iată ce a făcut abordarea noastră unică:

Diversitate la nivel de district

Diversitate la nivel de district

Am obținut înregistrări din 80 de districte răspândite în state precum Bihar, Uttar Pradesh, Karnataka, Bengalul de Vest și Maharashtra. Fiecare district a contribuit cu 100 de ore de date audio, asigurând echilibrul regional. Am implicat vorbitori nativi, asigurând reprezentarea accentelor regionale și a dialectelor adesea trecute cu vederea în seturile de date mainstream AI.

Reprezentare lingvistică și demografică

Reprezentare lingvistică și demografică

Am obținut înregistrări din 80 de districte răspândite în state precum Bihar, Uttar Pradesh, Karnataka, Bengalul de Vest și Maharashtra. Fiecare district a contribuit cu 100 de ore de date audio, asigurând echilibrul regional. Am implicat vorbitori nativi, asigurând reprezentarea accentelor regionale și a dialectelor adesea trecute cu vederea în seturile de date mainstream AI.

Vorbire pe bază de imagine

Pentru a stimula vocabularul spontan și natural, participanților li s-au arătat 45-90 de imagini pe sesiune și li sa cerut să le descrie. Participanții au fost îndemnați să utilizeze imagini diverse - de la simboluri culturale la obiecte de zi cu zi - pentru a obține răspunsuri naturale și spontane în limba lor maternă. Acest lucru a asigurat că înregistrările reflectă vorbirea contextuală din lumea reală - esențială pentru antrenarea sistemelor avansate de NLP.

Standarde de transcriere de înaltă calitate

Standarde de transcriere de înaltă calitate

Doar 10% din datele de vorbire au fost transcrise - în valoare de 800 de ore. Trancrierile au fost efectuate de lingviști locali pe o rază de 20–50 km față de vorbitor, asigurând familiaritatea cu dialectele și nuanțele. O verificare al doilea strat a asigurat <5% rata de eroare a cuvintelor (WER).

Asigurare strictă a calității

Datele audio trebuiau să îndeplinească un nivel ridicat: fără zgomot de fundal, ecouri, vibrații ale telefonului sau distorsiuni. Audio a fost înregistrat în medii liniștite, fără ecou. Fișierele au fost supuse unei examinări riguroase pentru a respecta regulile privind claritatea vorbirii, nivelurile de zgomot, acuratețea metadatelor și verificarea difuzorului. Etichetarea metadatelor trebuia să fie precisă în toate fișierele și toate înregistrările au fost verificate pentru alinierea difuzorului și a locației.

Provocări pe care le-am rezolvat

Succesul nostru s-a rezumat la planificarea meticuloasă, validarea bazată pe tehnologie și parteneriatele cu echipele locale care au înțeles nuanțele culturale ale fiecărei regiuni.

Impact și aplicații

Contribuția lui Shaip nu numai că a accelerat progresul Proiectului Vaani, ci și a pus bazele pentru IA incluzivă în India. Setul de date de vorbire organizat este deja folosit pentru a construi și a ajusta modele AI pentru:

  • Asistenți vocali vernaculari
  • Motoare regionale de traducere
  • Instrumente de comunicare accesibile pentru persoanele cu deficiențe de vedere
  • Platforme edtech bazate pe inteligență artificială pentru studenții din mediul rural
  • Telemedicina rurala
  • Servicii vocale pentru cetățeni
  • Traducere și transcriere în timp real

Concluzie

Proiectul Vaani este un pas îndrăzneț către IA incluzivă și accesibilă – iar Shaip este onorat să joace un rol fundamental. Munca lui Shaip la Proiectul Vaani reafirmă angajamentul nostru de a construi sisteme AI etice, incluzive, bazate pe diversitate și reprezentare. Cu peste 8,000 de ore de discurs colectat și 800 de ore transcrise, suntem mândri că am jucat un rol într-unul dintre cele mai vizionare proiecte de incluziune digitală din India.

Pe măsură ce Project Vaani continuă să atingă obiectivul său mai mare de peste 150,000 de ore de date, suntem pregătiți să sprijinim următoarea frontieră a inovației AI care vorbește pentru – și pentru – fiecare indian.

Doriți să colaborați cu noi pentru a construi AI care înțelege lumea reală? www.shaip.com

Partajare socială