Studiu de caz: Colecția de cuvinte

Au furnizat peste 7 milioane de enunțuri pentru a construi asistenți digitali multilingvi în 13 limbi

Soluție pentru lumea reală

Date care alimentează conversațiile globale

Necesitatea instruirii Utterance apare deoarece nu toți clienții folosesc cuvintele sau expresiile exacte în timp ce interacționează sau pun întrebări asistenților lor vocali într-un format scriptat. De aceea, aplicațiile vocale specifice trebuie antrenate pe date de vorbire spontană. De exemplu, „Unde este situat cel mai apropiat spital?” „Găsiți un spital în apropierea mea” sau „Există un spital în apropiere?” toate indică aceeași intenție de căutare, dar sunt formulate diferit.

Problemă

Pentru a executa foaia de parcurs de vorbire a Asistentului digital al clienților pentru limbile din întreaga lume, echipa trebuia să obțină volume mari de date de instruire pentru modelul AI de recunoaștere a vorbirii. Cerințele critice ale clientului au fost:

Achiziționați volume mari de date de antrenament (promoții de exprimare a unui singur vorbitor de cel mult 3-30 de secunde) pentru servicii de recunoaștere a vorbirii în 13 limbi globale
Pentru fiecare limbă, furnizorul va genera solicitări text pentru ca vorbitori să le înregistreze (cu excepția cazului în care
consumabile pentru client) și transcrieți sunetul rezultat.
Furnizați date audio și transcrierea enunțurilor înregistrate cu fișierele JSON corespunzătoare
care conțin metadatele pentru toate înregistrările.
Asigurați un mix divers de vorbitori în funcție de vârstă, gen, educație și dialect
Asigurați un mix divers de medii de înregistrare conform specificațiilor.
Fiecare înregistrare audio trebuie să fie de cel puțin 16 kHz, dar de preferință 44 kHz

Accelerează-ți AI conversațional
dezvoltarea aplicațiilor cu 100%

„După ce a evaluat mulți furnizori, clientul a ales Shaip datorită experienței lor în proiecte de IA conversaționale. Am fost impresionați de competența de execuție a proiectelor a lui Shaip, de expertiza sa de a furniza, transcrie și livra enunțurile necesare de la lingviști experți în 13 limbi, în termene stricte și cu calitatea cerută.”

Soluţie

Cu o înțelegere profundă a inteligenței artificiale conversaționale, am ajutat clientul să colecteze, să transcrie și să adnoteze datele cu o echipă de lingviști și adnotatori experți pentru a-și instrui Suita vocală multilingvă de procesare a vorbirii bazată pe inteligență artificială.

Domeniul de activitate pentru Shaip a inclus, dar nu s-a limitat la, achiziționarea de volume mari de date de antrenament audio pentru recunoașterea vorbirii, transcrierea înregistrărilor audio în mai multe limbi pentru toate limbile din foaia noastră de parcurs lingvistică de nivel 1 și 2 și furnizarea corespunzătoare. JSON fișierele care conțin metadatele. Shaip a colectat enunțuri de 3-30 de secunde la scară, menținând în același timp nivelurile dorite de calitate necesare antrenării modelelor ML pentru proiecte complexe.

Audio colectat, transcris și adnotat: 22,250 oră
Limbi acceptate: 13 (daneză, coreeană, arabă saudită, olandeză, chineză continentală și taiwaneană, canadian franceză, spaniolă mexicană, turcă, hindi, poloneză, japoneză, rusă)
Număr de enunțuri: 7M +
Cronologie: luni 7-8

În timp ce colectam enunțuri audio la 16 kHz, ne-am asigurat un amestec sănătos de vorbitori în funcție de vârstă, sex, educație și dialecte în diverse medii de înregistrare.

Rezultat

Datele audio de înaltă calitate de la lingviști experți au permis clientului să își antreneze cu precizie modelul multilingv de recunoaștere a vorbirii în 13 limbi globale de nivel 1 și 2. Cu seturi de date de instruire standard, clientul poate oferi asistență digitală inteligentă și robustă pentru a rezolva probleme viitoare din lumea reală.

Expertiza noastră

Orele de vorbire colectate

0 +

Echipa de colectori de date vocale

Conform PII

0 %

Număr cool

0 +

Acceptarea și acuratețea datelor

> 0

Clientela Fortune 500

0 +

Resurse recomandate

Ghidul cumpărătorului

Ghidul cumpărătorului: IA conversațională

Chatbot-ul cu care ați conversat rulează pe un sistem AI conversațional avansat, care este antrenat, testat și construit folosind tone de seturi de date de recunoaștere a vorbirii.

Blog

Starea IA conversațională 2021

Infograficele Conversational AI 2021 vorbesc despre ce este AI conversațional, evoluția sa, tipurile, piața AI conversațională în funcție de regiune, cazuri de utilizare, provocări etc.

Blog

3 Obstacole în calea evoluției AI conversaționale

Shaip pornește evoluția IA conversațională ca instrument de implicare a clienților, oferind datele audio adnotate necesare în peste 50 de limbi.

Crearea PNL clinică este o sarcină esențială care necesită o expertiză extraordinară în domeniu. Văd clar că sunteți cu câțiva ani înaintea Google în acest domeniu. Vreau să lucrez cu tine și să te scalez.

Google, Inc. Director

Echipa mea de ingineri a lucrat cu echipa lui Shaip timp de peste 2 ani în timpul dezvoltării API-urilor de vorbire în domeniul sănătății. Am fost impresionați de munca lor realizată în NLP specifică asistenței medicale și de ceea ce sunt capabili să realizeze cu seturi de date complexe.

Google, Inc. Șef de inginerie

Spuneți-ne cum vă putem ajuta cu următoarea inițiativă AI.

Studiu de caz: Colecția de cuvinte

Au furnizat peste 7 milioane de enunțuri pentru a construi asistenți digitali multilingvi în 13 limbi

Soluție pentru lumea reală

Problemă

Soluţie

Rezultat

Expertiza noastră

Resurse recomandate

Ghidul cumpărătorului

Ghidul cumpărătorului: IA conversațională

Blog

Starea IA conversațională 2021

Blog

3 Obstacole în calea evoluției AI conversaționale

Servicii de date AI

Specialitatea

Industrie

Produse

Despre

Resurse

Contactați-ne

Spune-ne mai multe despre tine!

Spune-ne mai multe despre tine!

Spune-ne mai multe despre tine!

Spune-ne mai multe despre tine!

Spune-ne mai multe despre tine!

Spune-ne mai multe despre tine!