Analiza emoțiilor și sentimentelor vorbirii
Activarea centrelor de apeluri mai inteligente cu informații bazate pe inteligență artificială
Folosind experiența Shaip în colectarea și adnotarea datelor audio pentru a îmbunătăți detectarea în timp real a emoțiilor și sentimentelor pentru un serviciu îmbunătățit pentru clienți.
Discurs automat Emoție și
Analiza sentimentelor
Clientul a colaborat cu Shaip pentru a dezvolta un model automat de analiză a emoțiilor și a sentimentelor vorbirii pentru centrele de apeluri. Proiectul a implicat colectarea și adnotarea a 250 de ore de date audio ale centrului de apel în patru dialecte engleze - SUA, Marea Britanie, Australian și Indian. Acest lucru i-a permis clientului să-și îmbunătățească modelele AI pentru a detecta emoții precum Fericit, Neutru și Furios și sentimente precum Nemulțumit și Satisfăcut în interacțiunile în timp real cu clienții.
Proiectul a depășit provocări precum detectarea sarcasmului, lungimi audio variate și indicii verbale subtile de nemulțumire, oferind rezultate precise și scalabile.

Statistici cheie
Date audio din call center colectate și adnotate în 4 dialecte engleze
250 ore
Nr. de limbi
engleză SUA, engleză britanică, engleză australiană și engleză indiană
Utilizați cazuri
Analiza automată a emoțiilor și sentimentelor vorbirii
Domeniul de aplicare al proiectului
Colectați și adnotați 250 de ore de date audio ale centrului de apel în patru dialecte de engleză:
- engleză americană (30%)
- engleză britanică (30%)
- engleză australiană (20%)
- engleză indiană (20%)
În vedere
Proiectul constă din trei părți:
- Date audio cu anumite entități, inclusiv metadate.
- Fișierele transcrise corespunzătoare cu detalii de segmentare și marcare temporală.
- Adnotări pentru emoții și sentimente:
- Emoție audio: Fericit, Neutru, Furios
- Sentiment de transcriere: Extrem de nemulțumit, nemulțumit, neutru, mulțumit, extrem de mulțumit
Provocări
Asigurarea faptului că datele audio reprezintă cu exactitate dialectele specificate (SUA, Marea Britanie, Australian și Indian) poate fi o provocare. Diferitele regiuni din aceste categorii pot folosi vocabular, accente și pronunție variate.
Adnotarea audio și transcripții pentru emoții și sentimente necesită adnotatori pregătiți, familiarizați cu nuanțele culturale și subtilitățile lingvistice ale fiecărui dialect.
Emoția audio și sentimentul de transcriere nu se aliniază întotdeauna. De exemplu, o persoană poate părea furioasă, dar de fapt își exprime satisfacția. De exemplu, gestionarea conversațiilor cu sarcasm în fraze sarcastice precum „Oh, minunat, o altă persoană care nu poate să-mi rezolve problema” trebuie să fie adnotat corect pentru emoție și sentiment.
Calitatea înregistrărilor audio poate varia, afectând acuratețea transcripției și detectarea emoțiilor. Zgomotul de fundal, conversațiile suprapuse și echipamentele de înregistrare variate pot reprezenta provocări semnificative.
Nemulțumire prin indicii verbale, cum ar fi expirații grele sau alte semne de frustrare.
Soluţie
Utilizând tehnici avansate de procesare a limbajului natural (NLP), au fost implementate următoarele soluții:
Colectarea datelor
- 250 de ore de date audio împărțite în cote specifice dialectului.
- engleză americană (30% sau 75 de ore)
- engleză britanică (30% sau 75 de ore)
- engleză australiană (20% sau 50 de ore)
- engleză indiană (20% sau 50 de ore)
- Utilizatori cu accent nativ din SUA, Marea Britanie, Australia și India.
- Exemple de vorbire care conțin tonuri diferite, cu accent special pe cazurile în care emoția vocală este supărată și sentimentul textului este Nemulțumit sau Extrem de nemulțumit.
Clasificare/Adnotare text
- Adnotarea emoțiilor și sentimentelor pe baza unor categorii specifice:
- Emoție audio: Fericit, Neutru, Furios.
- Sentiment de transcriere: Extrem de nemulțumit, nemulțumit, neutru, mulțumit, extrem de mulțumit.
- Fiecare segment audio conținea o singură emoție primară.
- Segmente de întârziere variate (de la 2 la 30 de secunde) aplicate în cadrul conversațiilor.
- Formatul de transcriere a urmat rezultatul JSON, inclusiv informații despre difuzorul din stânga și din dreapta, etichetele de sentiment și sentimentul segmentului final.
Asigurarea Calității:
Precizia transcripției:
- S-au asigurat că au fost livrate 250 de ore de sunet cu minimum:
- Precizie de 90% rata erorilor de transcriere (TER).
- Precizie de 95% Rata de recunoaștere a cuvintelor (WER).
Procesul QA:
- Au fost efectuate audituri regulate ale mostrelor selectate aleatoriu din setul de date.
- A folosit instrumente automate pentru a măsura TER și WER în setul de date.
- Examinarea manuală a secțiunilor marcate a asigurat că au fost îndeplinite pragurile de precizie.
Rezultat
Datele de instruire vor sprijini dezvoltarea unui model automat de detectare a emoțiilor și sentimentelor, oferind:
- Detectarea emoțiilor în timp real în interacțiunile centrului de apeluri.
- Tratarea mai eficientă a cazurilor complexe, cum ar fi sarcasmul sau nemulțumirea.
- Scalabilitate pentru proiecte viitoare, adaptându-se cu ușurință la volume crescute de date și mai multe limbi.
livrabile
- 250 de ore de fișiere audio (în format PCM WAV de 8 kHz, mono)
- Fișiere de transcriere (cu segmentare, etichete de sentiment și identificatori de vorbitor)
- Metadate (durata audio, detaliile difuzorului etc.)
Parteneriatul cu Shaip pentru proiectul nostru de date pentru call center a fost un moment esențial în promovarea soluțiilor noastre AI. Echipa lor a colectat și adnotat cu experiență 250 de ore de date audio în patru dialecte cheie engleze – SUA, Marea Britanie, Australian și Indian – asigurând cea mai înaltă calitate și precizie. Atenția acordată nuanțelor lingvistice din aceste regiuni a îmbunătățit semnificativ acuratețea modelelor noastre de recunoaștere a vorbirii. În plus, experiența Shaip în gestionarea proiectelor complexe de adnotare a datelor a fost esențială pentru a ne ajuta să construim modele fiabile și conforme la scară.