Studiu de caz: IA conversațională

Peste 3 de ore de date colectate, segmentate și transcrise pentru a construi ASR în 8 limbi indiene

Culegere de enunţuri
Guvernul își propune să ofere cetățenilor săi acces ușor la internet și servicii digitale în propria lor limbă maternă prin Proiectul Bhashini.

BHASHINI, platforma Indiei de traducere a limbilor bazată pe inteligență artificială, este o parte vitală a inițiativei Digital India.

Proiectată pentru a oferi instrumente de inteligență artificială (AI) și procesare a limbajului natural (NLP) IMM-urilor, startup-urilor și inovatorilor independenți, platforma Bhashini servește ca o resursă publică. Scopul său este de a promova incluziunea digitală, permițând cetățenilor indieni să interacționeze cu inițiativele digitale ale țării în limbile lor materne.

În plus, își propune să extindă în mod semnificativ disponibilitatea conținutului de pe internet în limbile indiene. Acest lucru este orientat în special către domenii de interes public, cum ar fi guvernanța și politica, știința și tehnologia etc. În consecință, acest lucru va stimula cetățenii să folosească internetul în propria limbă, promovând participarea lor activă.

Valorificați NLP pentru a permite un ecosistem divers de colaboratori, entități partenere și cetățeni în scopul depășirii barierelor lingvistice, asigurând astfel incluziunea digitală și împuternicirea

Soluție pentru lumea reală

Dezlănțuirea puterii localizării cu date

India avea nevoie de o platformă care să se concentreze pe crearea de seturi de date multilingve și soluții de tehnologie lingvistică bazate pe inteligență artificială pentru a oferi servicii digitale în limbile indiene. Pentru a lansa această inițiativă, Institutul Indian de Tehnologie din Madras (IIT Madras) a colaborat cu Shaip pentru a colecta, segmenta și transcrie seturi de date în limba indiană pentru a construi modele de vorbire în mai multe limbi.

Provocări

Pentru a sprijini clientul cu foaia de parcurs de vorbire pentru Tehnologia vorbirii pentru limbile indiene, echipa trebuia să achiziționeze, să segmenteze și să transcrie volume mari de date de instruire pentru a construi modelul AI. Cerințele critice ale clientului au fost:

Colectare de date

  • Obțineți 3000 de ore de date de instruire în 8 limbi indiene cu 4 dialecte per limbă.
  • Pentru fiecare limbă, furnizorul va colecta Extempore Speech și
    Discurs conversațional de la grupele de vârstă 18-60 de ani
  • Asigurați un mix divers de vorbitori în funcție de vârstă, gen, educație și dialecte
  • Asigurați un mix divers de medii de înregistrare conform specificațiilor.
  • Fiecare înregistrare audio trebuie să fie de cel puțin 16 kHz, dar de preferință 44 kHz

Segmentarea datelor

  • Creează segmente de vorbire de 15 secunde și ștampilă audio la milisecunde pentru fiecare difuzor dat, tip de sunet (vorbire, bâlbâială, muzică, zgomot), ture, enunțuri și fraze dintr-o conversație.
  • Creați fiecare segment pentru semnalul sonor vizat cu o umplutură de 200-400 de milisecunde la început și la sfârșit.
  • Pentru toate segmentele, următoarele obiecte trebuie să fie completate și anume, Ora de începere, Ora de sfârșit, ID-ul segmentului, Nivelul sonorității, Tipul sunetului, Codul limbii, ID-ul difuzorului etc.

Transcrierea datelor

  • Urmați instrucțiunile de transcriere a detaliilor despre caractere și simboluri speciale, ortografie și gramatică, majuscule, abrevieri, contracții, litere individuale vorbite, numere, punctuații, acronime, disfluent, vorbire, vorbire neinteligibilă, limbi non-țintă, non-vorbire etc.

Verificare calității și feedback

  • Toate înregistrările vor fi supuse evaluării și validării calității, doar discursul validat urmează să fie livrat

Soluţie

Cu o înțelegere profundă a inteligenței artificiale conversaționale, am ajutat clientul să colecteze, să segmenteze și să transcrie datele cu o echipă de colecționari experți, lingviști și adnotatori pentru a construi un corpus mare de date audio în 8 limbi indiene.

Sfera de activitate pentru Shaip a inclus, dar nu s-a limitat la, achiziționarea de volume mari de date de antrenament audio, segmentarea înregistrărilor audio în mai multe, transcrierea datelor și livrarea fișierelor JSON corespunzătoare care conțineau metadatele [SpeakerID, Age, Gender, Language, Dialect,
Limba maternă, calificare, ocupație, domeniu, format fișier, frecvență, canal, tip de sunet, număr de vorbitori, număr de limbi străine, configurație utilizată, audio în bandă îngustă sau în bandă largă etc.]. 

Shaip a colectat 3000 de ore de date audio la scară, menținând în același timp nivelurile dorite de calitate necesare antrenării tehnologiei de vorbire pentru proiecte complexe. Formularul de consimțământ explicit a fost preluat de la fiecare dintre participanți.

1. Colectare de date

2. Segmentarea datelor

  • Datele audio care au fost colectate au fost în continuare bifurcate în segmente de vorbire de 15 secunde fiecare și marcate temporal la milisecunde pentru fiecare vorbitor dat, tip de sunet, ture, enunțuri și fraze dintr-o conversație.
  • A creat fiecare segment pentru semnalul sonor vizat cu o umplutură de 200-400 de milisecunde la începutul și la sfârșitul unui semnal sonor.
  • Pentru toate segmentele, următoarele obiecte au fost prezente și umplute și anume, Ora de început, Ora de sfârșit, ID-ul segmentului, Nivelul sonorității (tare, normal, liniștit), tipul de sunet primar (vorbire, bâlbâială, muzică, zgomot, suprapunere), cod de limbă ID vorbitor, transcriere etc.

3. Verificarea calității și feedback

  • Toate înregistrările au fost evaluate pentru calitate și au fost livrate numai înregistrările vocale validate cu WER de 90% și TER de 90%
  • Lista de verificare a calității urmată:
       » Lungimea segmentului este de maxim 15 secunde
       » Transcriere din domenii specifice, și anume: Vremea, diferite tipuri de știri, sănătate, agricultură, educație, locuri de muncă sau finanțe
       » Zgomot de fundal scăzut
       » Fără clip audio dezactivat – Fără distorsiuni
       » Segmentarea audio corectă pentru transcriere

4. Transcrierea datelor
Toate cuvintele rostite, inclusiv ezitările, cuvintele de completare, începuturile false și alte ticuri verbale, au fost surprinse cu acuratețe în transcriere. De asemenea, am urmat instrucțiunile de transcriere a detaliilor despre literele mari și mici, ortografie, majuscule, abrevieri, contracții, numere,
semne de punctuație, acronime, vorbire disfluentă, zgomote non-vorbire etc. Mai mult, fluxul de lucru urmat pentru colectare și transcriere este după cum urmează:

Rezultat

Datele audio de înaltă calitate de la lingviști experți vor permite Institutului Indian de Tehnologie - Madras să antreneze și să construiască cu precizie modele de recunoaștere a vorbirii multilingve în 8 limbi indiene cu diferite dialecte în timpul prevăzut. Modelele de recunoaștere a vorbirii pot fi utilizate pentru:

  • Depășiți bariera lingvistică pentru incluziunea digitală prin conectarea cetățenilor la inițiativele în propria lor limbă maternă.
  • Promovează guvernanța digitală
  • Catalizator pentru a forma un ecosistem pentru servicii și produse în limbile indiene
  • Conținut digital mai localizat în domeniile de interes public, în special, guvernanță și politică
Golden-5-stele

Am fost impresionați de experiența lui Shaip în spațiul AI conversațional. Competența lor generală de execuție a proiectelor de la aprovizionarea, segmentarea, transcrierea și furnizarea datelor de formare necesare de la lingviști experți în 8 limbi în termene și linii directoare stricte; menținând în același timp standardul acceptabil de calitate.”

Accelerează-ți AI conversațional
dezvoltarea aplicațiilor cu 100%

Clienți prezentați

Împuternicirea echipelor să construiască produse AI de top la nivel mondial.