Studiu de caz: Colecția de cuvinte

Au furnizat peste 7 milioane de enunțuri pentru a construi asistenți digitali multilingvi în 13 limbi

Colecția de cuvinte

Soluție pentru lumea reală

Date care alimentează conversațiile globale

Necesitatea instruirii Utterance apare deoarece nu toți clienții folosesc cuvintele sau expresiile exacte în timp ce interacționează sau pun întrebări asistenților lor vocali într-un format scriptat. De aceea, aplicațiile vocale specifice trebuie antrenate pe date de vorbire spontană. De exemplu, „Unde este situat cel mai apropiat spital?” „Găsiți un spital în apropierea mea” sau „Există un spital în apropiere?” toate indică aceeași intenție de căutare, dar sunt formulate diferit.

Culegere de rostiri1

Problemă

Pentru a executa foaia de parcurs de vorbire a Asistentului digital al clienților pentru limbile din întreaga lume, echipa trebuia să obțină volume mari de date de instruire pentru modelul AI de recunoaștere a vorbirii. Cerințele critice ale clientului au fost:

  • Achiziționați volume mari de date de antrenament (promoții de exprimare a unui singur vorbitor de cel mult 3-30 de secunde) pentru servicii de recunoaștere a vorbirii în 13 limbi globale
  • Pentru fiecare limbă, furnizorul va genera solicitări text pentru ca vorbitori să le înregistreze (cu excepția cazului în care
    consumabile pentru client) și transcrieți sunetul rezultat.
  • Furnizați date audio și transcrierea enunțurilor înregistrate cu fișierele JSON corespunzătoare
    care conțin metadatele pentru toate înregistrările.
  • Asigurați un mix divers de vorbitori în funcție de vârstă, gen, educație și dialect
  • Asigurați un mix divers de medii de înregistrare conform specificațiilor.
  • Fiecare înregistrare audio trebuie să fie de cel puțin 16 kHz, dar de preferință 44 kHz

Accelerează-ți AI conversațional
dezvoltarea aplicațiilor cu 100%

„După ce a evaluat mulți furnizori, clientul a ales Shaip datorită experienței lor în proiecte de IA conversaționale. Am fost impresionați de competența de execuție a proiectelor a lui Shaip, de expertiza sa de a furniza, transcrie și livra enunțurile necesare de la lingviști experți în 13 limbi, în termene stricte și cu calitatea cerută.”

Soluţie

Cu o înțelegere profundă a inteligenței artificiale conversaționale, am ajutat clientul să colecteze, să transcrie și să adnoteze datele cu o echipă de lingviști și adnotatori experți pentru a-și instrui Suita vocală multilingvă de procesare a vorbirii bazată pe inteligență artificială.

Domeniul de activitate pentru Shaip a inclus, dar nu s-a limitat la, achiziționarea de volume mari de date de antrenament audio pentru recunoașterea vorbirii, transcrierea înregistrărilor audio în mai multe limbi pentru toate limbile din foaia noastră de parcurs lingvistică de nivel 1 și 2 și furnizarea corespunzătoare. JSON fișierele care conțin metadatele. Shaip a colectat enunțuri de 3-30 de secunde la scară, menținând în același timp nivelurile dorite de calitate necesare antrenării modelelor ML pentru proiecte complexe.

  • Audio colectat, transcris și adnotat: ore 22,250
  • Limbi acceptate: 13 (daneză, coreeană, arabă saudită, olandeză, chineză continentală și taiwaneană, canadian franceză, spaniolă mexicană, turcă, hindi, poloneză, japoneză, rusă)
  • Număr de enunțuri: 7M +
  • Cronologie: luni 7-8

În timp ce colectam enunțuri audio la 16 kHz, ne-am asigurat un amestec sănătos de vorbitori în funcție de vârstă, sex, educație și dialecte în diverse medii de înregistrare.

Rezultat

Datele audio de înaltă calitate de la lingviști experți au permis clientului să se antreneze cu precizie
modelul lor multilingv de recunoaștere a vorbirii în 13 limbi globale de nivel 1 și 2. Cu seturi de date de instruire standard, clientul poate oferi asistență digitală inteligentă și robustă pentru a rezolva probleme viitoare din lumea reală.

Expertiza noastră

0 +
Orele de vorbire colectate
0
Echipa de colectori de date vocale
0 %
Conform PII
0 +
Număr cool
> 0
Acceptarea și acuratețea datelor
0 +
Clientela Fortune 500

Spuneți-ne cum vă putem ajuta cu următoarea inițiativă AI.