Colecție audio de fraze cheie/indemnizații

Studiu de caz: Colecția de fraze cheie pentru sistemele cu activare vocală din mașină

Culegere de fraze cheie

Există o cerere din ce în ce mai mare pentru sisteme activate vocal în mașină în industria auto, redefinind modul în care ne angajăm cu vehiculele noastre de mobilitate.

Industria auto a adoptat rapid sisteme activate prin voce, jucători importanți precum Ford, Tesla și BMW integrând recunoașterea vocală avansată în vehiculele lor. Până în 2022, s-a estimat că peste 50% dintre mașinile noi aveau capabilități de recunoaștere a vocii. Aceste integrări au scopul de a spori siguranța, permițând șoferilor să opereze funcțiile de navigare, divertisment și comunicație fără distragerea atenției.

Valoarea de piață pentru recunoașterea vocii în mașini a fost proiectată să depășească 1 miliard de dolari până în 2023, indicând o cerere în creștere pentru interacțiuni inteligente în mașină, fără mâini.

Automotive

Cercetările sugerează că până în 2022, 73% dintre șoferi vor folosi un asistent vocal în mașină.

Piața sistemelor de recunoaștere a vocii pentru automobile a fost evaluată la 2.01 miliarde USD în 2021 și este de așteptat să ajungă la 3.51 miliarde USD până în 2027, înregistrând un CAGR de aproximativ 8.07%.

Soluție pentru lumea reală

Date care alimentează sistemele activate prin voce

Sistemele cu activare vocală din mașini sporesc siguranța și confortul. Acestea permit șoferilor să acceseze navigația, să efectueze apeluri, să trimită texte și să controleze muzica fără a lua mâinile de pe volan sau a privi ochii de la drum. Răspunzând la comenzile verbale, aceste sisteme reduc distragerea atenției, promovează multitasking și asigură concentrarea continuă asupra conducerii. 

Clientul este un lider global în inteligența conversațională care oferă soluții vocale AI care permit companiilor să ofere clienților lor experiențe conversaționale incredibile. Ei lucrau cu companii de automobile de top pentru a-și instrui sistemele activate prin voce cu fraze cheie de marcă și aveau nevoie de expertiza lui Shaip în colectarea datelor audio.

Soluție în lumea reală
Provocări

Provocări

  • Crowd Sourcing: Recrutați peste 2800 de vorbitori nativi pentru fiecare limbă la nivel global.
  • Colectare de date: Securizează peste 200 de solicitări în 12 limbi într-un interval de timp stabilit.
  • Recunoașterea contextului și a intenției: Pentru a înțelege corect solicitările utilizatorilor, sistemele trebuiau instruite pe diferite variante pentru aceeași frază cheie.
  • Gestionarea zgomotului de fundal: Abordați zgomotul de fundal din lumea reală pentru acuratețea modelului ML.
  • Reducerea părtinirii: Obțineți mostre de voce de la diverse categorii demografice pentru a asigura incluziunea.
  • Specificații audio: 16 kHz 16 biți PCM, mono, un singur canal, WAV; nici o prelucrare.
  • Mediu de înregistrare: Înregistrările trebuie să aibă un sunet curat, fără zgomot de fundal sau perturbări. Expresii cheie care trebuie înregistrate folosind vorbirea normală.
  • Verificarea calitatii:  Toate înregistrările vocale vor fi supuse evaluării și validării calității, vor fi livrate numai înregistrările vocale validate. Dacă Shaip nu îndeplinește standardele de calitate convenite, Shaip va livra din nou datele fără costuri suplimentare

Soluţie

Shaip, cu expertiza sa în spațiul AI conversațional, a permis clientului:

  • Colectare de date: 208 de fraze cheie/instrucțiuni de marcă colectate în 12 limbi globale de la 2800 de vorbitori în intervalul de timp stabilit
  • Diverse accente și dialecte: Specialiști recrutați din întreaga lume, pricepuți în accentele și dialectele dorite.
  • Recunoașterea contextului și a intenției: Fiecare vorbitor a fost însărcinat să înregistreze frazele cheie în 20 de variante distincte, permițând modelelor ML să înțeleagă cu precizie cererile utilizatorilor în termeni de context și intenție.
  • Gestionarea zgomotului de fundal: Pentru a asigura o calitate audio impecabilă, ne-am asigurat că frazele cheie au fost captate într-un mediu senin, cu niveluri de zgomot sub 40 dB, fără perturbări de fundal, cum ar fi TV, radio, muzică, vorbire sau sunete stradale.
  • Reducerea părtinirii: Pentru a minimiza prejudecățile, am implicat indivizi din diverse regiuni și am menținut o reprezentare demografică echilibrată, cu 50% bărbați și 50% femei, cuprinzând grupuri de vârstă de la 18 la 60 de ani.
  • Ghid de înregistrare: Frazele cheie au fost surprinse într-un model de vorbire coerent, normal, fără variații, cum ar fi ritmul rapid sau lent. 2 secunde de tăcere atât la început, cât și la sfârșit, pentru a garanta că nicio parte a discursului nu a fost tăiată din neatenție.
  • Format de înregistrare: Audio a fost înregistrat la 16 kHz, PCM pe 16 biți în mono, utilizând un singur canal și salvat în format de fișier WAV. Audio rămâne neprocesat, ceea ce înseamnă că nu a fost aplicată compresie, reverb sau EQ.
  • Calitate: Fiecare înregistrare a discursului a fost supusă unor verificări și validări riguroase de calitate. Au fost livrate numai înregistrările care au trecut de această evaluare. Orice fișiere care nu respectau standardele de calitate convenite au fost reînregistrate și furnizate fără costuri suplimentare
Soluţie
Rezultat

Rezultat

Datele audio de înaltă calitate a frazei cheie ale mărcii sau instrucțiunile vocale vor permite companiilor de automobile și clienților lor:

  1. Branding și identitate: Instrucțiunile vocale cu expresii specifice de marcă ajută companiile să creeze o conexiune directă și memorabilă între utilizator și marcă, care îmbunătățește reamintirea mărcii.
  2. Usor de folosit: Comenzile vocale facilitează interacțiunea șoferilor cu vehiculele fără a-și lua mâinile de pe volan sau a privi ochii de pe drum, sporind astfel siguranța rutieră.
  3. funcţionalitate: Comenzile vocale fac accesarea și controlul funcțiilor mașinii mai intuitive. Indiferent dacă este navigarea, redarea media sau controlul climatizării.
  4. Integrare cu alte sisteme: Multe sisteme activate prin voce sunt integrate cu smartphone-uri, dispozitive inteligente pentru casă și alte dispozitive IoT. De exemplu, un utilizator ar putea să-și ceară mașinii să aprindă luminile acasă când se apropie de casă.
  5. Avantaj competitiv: Oferirea de sisteme avansate activate prin voce poate fi un punct de vânzare și un factor de diferențiere. Cumpărătorii caută cea mai recentă tehnologie atunci când iau în considerare achiziția unei mașini noi.
  6. Pregătire pentru viitor: Pe măsură ce tehnologia evoluează și IoT devine mai integrat în viața de zi cu zi, având un sistem robust activat prin voce, companiile de automobile sunt mai adaptate la viitoarea tehnologie.
  7. Oportunități de venituri: Oportunități suplimentare de monetizare, de exemplu, sistemele vocale oferă recomandări sau experiențe integrate de comerț electronic (cum ar fi comandarea alimentelor sau găsirea de servicii în apropiere) care ar putea oferi venituri afiliaților.
Golden-5-stele

Când am început să găsim mesaje vocale pentru sectorul auto, provocările au fost numeroase. Captarea diversității în vorbire, accente și tonuri a fost vitală pentru a reprezenta clientela globală a clientului nostru. Shaip s-a remarcat nu doar ca vânzător, ci și ca un adevărat partener. Angajamentul lor de a asigura o gamă variată de voci din diferite regiuni a fost lăudabil. Au mers dincolo de simpla adunare a vocilor; au înțeles nuanțele nevoilor proiectului nostru, garantând înregistrări de top. Respectarea fără cusur la standardele de colecție audio le-a arătat profesionalismul și dedicarea față de proiect.

Accelerează-ți AI conversațional
dezvoltarea aplicațiilor cu 100%