AI conversațional: recunoaștere automată a vorbirii

Peste 8 de ore audio colectate, 800 de ore transcrise pentru tehnologia vocală multilingvă

ai conversațional

Introducere

India avea nevoie de o platformă care să se concentreze pe crearea de seturi de date multilingve și soluții tehnologice lingvistice bazate pe inteligență artificială pentru a oferi servicii digitale în limbile indiene. Pentru a lansa această inițiativă, Clientul a colaborat cu Shaip pentru a colecta și a transcrie limba indiană pentru a construi modele de vorbire în mai multe limbi.

Volum

Ore de date colectate
10
Nr. pagini adnotate
10 +
Durata proiectului
< 1 luni

Provocări

Pentru a ajuta clientul cu foaia de parcurs de vorbire a tehnologiei vorbirii pentru limbile indiene, echipa trebuia să achiziționeze, să segmenteze și să transcrie volume mari de date de instruire pentru a construi modelul AI. Cerințele critice ale clientului au fost:

Colectare de date

  • Obțineți 8000 de ore de date de antrenament din locații îndepărtate din India
  • Furnizorul să colecteze vorbirea spontană de la grupele de vârstă 20-70 de ani
  • Asigurați un mix divers de vorbitori în funcție de vârstă, gen, educație și dialecte
  • Fiecare înregistrare audio trebuie să fie de cel puțin 16 kHz cu 16 biți/eșantion.
De colectare a datelor

Transcrierea datelor

Urmați instrucțiunile de transcriere a detaliilor despre caractere și simboluri speciale, ortografie și gramatică, majuscule, abrevieri, contracții, litere individuale vorbite, numere, punctuații, acronime și inițiale, vorbire disfluentă, vorbire neinteligibilă, limbi non-țintă, non-vorbire

Transcrierea datelor

Verificare calității și feedback

Toate înregistrările vor fi supuse evaluării și validării calității, doar înregistrările vocale validate vor fi livrate

Soluţie

Cu înțelegerea noastră profundă a IA conversațională, am ajutat clientul să colecteze, să transcrie datele audio cu o echipă de colecționari experți, lingviști și adnotatori pentru a construi un corp mare de date audio din părți îndepărtate ale Indiei.

Sfera de activitate pentru Shaip a inclus, dar nu s-a limitat la, achiziționarea de volume mari de date de antrenament audio, transcrierea datelor și livrarea fișierelor JSON corespunzătoare care conțin metadatele [atât pentru difuzoare, cât și pentru transcrieri. Pentru fiecare vorbitor, metadatele includ un ID anonim al vorbitorului, detalii despre dispozitiv, informații demografice precum sexul, vârsta și educația, împreună cu codul PIN, statutul socio-economic, limbile vorbite și o înregistrare a duratei șederii vieții. Pentru fiecare transcriptor, datele încorporează un ID de transcriptor anonimizat, detalii demografice similare celor ale vorbitorilor, durata experienței de transcriere a acestora și o defalcare amănunțită a limbilor pe care le pot citi, scrie și vorbi.

Shaip colectat 8000 ore de date audio / Vorbire spontană la scară și transcrisă 800 de ore, menținând în același timp nivelurile dorite de calitate necesare antrenării tehnologiei de vorbire pentru proiecte complexe. Formularul de consimțământ explicit a fost preluat de la fiecare dintre participanți. Discursul/Spontan colectat sa bazat pe imagini furnizate de Universitate. De 3500 imagini, 1000 sunt generice şi 2500 se referă la cultura specifică districtului, festivaluri etc. Imaginile descriu diverse domenii precum gări, piețe, vreme și multe altele.

Colectare de date

StatDistricteleore audioTranscriere
(ore)
BiharSaran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui2000200
UttarpradeshDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
RajasthanNagaur, Churu20020
UttarakhandTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
Bengalul de VestPaschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur80080
JharkhandSahebganj, Jamtara20020
APGuntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
GoaNord+Sud Goa10010
KarnatakaDakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
BucharestSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
Total8000800

Orientări generale

Format

    • Audio la 16 kHz, 16 biți/eșantion.
    • Un singur canal.
    • Audio brut fără transcodare.

Stil

    • Discurs spontan.
    • Propoziții bazate pe imagini furnizate de universitate. Din 3500 de imagini, 1000 sunt generice, iar 2500 se referă la cultura specifică districtului, festivaluri etc. Imaginile descriu diverse domenii, cum ar fi gările, piețele, vremea și multe altele.

Fundal de înregistrare

    • Înregistrat într-un mediu liniștit, fără ecou.
    • Fără perturbări ale smartphone-ului (vibrații sau notificări) în timpul înregistrării.
    • Fără distorsiuni, cum ar fi efectele de tăiere sau de câmp îndepărtat.
    • Vibrații de la telefon inacceptabile; vibrațiile externe sunt tolerabile dacă sunetul este clar.

Specificații difuzor

    • Interval de vârstă de la 20 la 70 de ani, cu o distribuție echilibrată de gen pe district.
    • Minim 400 de vorbitori nativi în fiecare district.
    • Vorbitorii ar trebui să folosească limba/dialectul lor de acasă.
    • Formularele de consimțământ sunt obligatorii pentru toți participanții.


Verificarea calității și asigurarea critică a calității

Procesul de asigurare a calității acordă prioritate asigurării calității înregistrărilor audio și transcripțiilor. Standardele audio se concentrează pe tăcerile precise, durata segmentului, claritatea unui singur difuzor și metadate detaliate, inclusiv vârsta și statutul socio-economic. Criteriile de transcriere subliniază acuratețea etichetelor, veridicitatea cuvintelor și detaliile corecte ale segmentului. Benchmark-ul de acceptare dictează că, dacă mai mult de 20% dintr-un lot audio nu respectă aceste standarde, acesta este respins. Pentru discrepanțe mai mici de 20%, sunt necesare înregistrări de înlocuire cu profiluri similare.

Transcrierea datelor

Ghidurile de transcriere subliniază acuratețea și transcrierea textuală numai atunci când cuvintele sunt clare și ușor de înțeles; cuvintele neclare sunt marcate ca [neinteligibil] sau [inaudibil] în funcție de problemă. Limitele propoziției în audio lung sunt marcate cu , și nu este permisă parafrazarea sau corectarea erorilor gramaticale. Transcrierea textuală acoperă erori, argouri și repetări, dar omite începuturile false, sunetele de umplere și bâlbâiile. Zgomotele de fundal și de prim plan sunt transcrise cu etichete descriptive, în timp ce numele proprii, titlurile și numerele urmează reguli specifice de transcriere. Etichetele vorbitorului sunt folosite pentru fiecare propoziție, iar propozițiile incomplete sunt indicate cu.

Fluxul de lucru al proiectului

Fluxul de lucru descrie procesul de transcriere audio. Începe cu integrarea și formarea participanților. Înregistrează audio folosind o aplicație, care este încărcată pe o platformă QA. Acest sunet este supus verificărilor de calitate și segmentării automate. Echipa de tehnologie pregătește apoi segmente pentru transcriere. După transcrierea manuală, există un pas de asigurare a calității. Trancrierile sunt livrate clientului, iar dacă sunt acceptate, livrarea este considerată completă. Dacă nu, revizuirile sunt făcute pe baza feedback-ului clienților.

Rezultat

Datele audio de înaltă calitate de la lingviști experți vor permite clientului nostru să antreneze și să construiască cu precizie modele de recunoaștere a vorbirii multilingve în diferite limbi indiene cu diferite dialecte în timpul prevăzut. Modelele de recunoaștere a vorbirii pot fi utilizate pentru:

  • Depășiți bariera lingvistică pentru incluziunea digitală prin conectarea cetățenilor la inițiativele în propria lor limbă maternă.
  • Promovează guvernanța digitală
  • Catalizator pentru a forma un ecosistem pentru servicii și produse în limbile indiene
  • Conținut digital mai localizat în domeniile de interes public, în special, guvernanță și politică

Suntem uimiți de experiența lui Shaip în domeniul AI conversațional. Sarcina de a gestiona 8000 de ore de date audio împreună cu 800 de ore de transcriere în 80 de districte diverse a fost cel puțin monumentală. Înțelegerea profundă de către Shaip a detaliilor și nuanțelor complicate ale acestui domeniu a făcut posibilă executarea cu succes a unui proiect atât de provocator. Capacitatea lor de a gestiona și de a naviga fără probleme prin complexitățile acestei cantități mari de date, asigurând în același timp o calitate de top este cu adevărat lăudabilă.

Golden-5-stele

Accelerează-ți AI conversațional
dezvoltarea aplicațiilor cu 100%