Cum a livrat Shaip un program scalabil de evaluare a calității clonării vocale pentru un client de vorbire bazat pe inteligență artificială
De la calitatea demonstrativă la cea pregătită pentru implementare — cum a ajutat evaluarea umană structurată un client de vorbire bazat pe inteligență artificială să reducă decalajul dintre indicatorii de laborator și performanța din lumea reală.
rezumatul proiectului
Modelele de clonare vocală pot suna impresionant în demonstrații, dar totuși se confruntă cu dificultăți în utilizarea în lumea reală. Clientul avea nevoie de o modalitate fiabilă de a măsura dacă modelul său se îmbunătățește cu adevărat - în special pentru engleza indiană, care era o piață prioritară de implementare.
Shaip a fost angajat pentru a proiecta și gestiona un program de evaluare umană care să poată răspunde la trei întrebări cheie de afaceri:
- Sună vorbirea natural?
- Se aude în continuare ca difuzorul original?
- Este suficient de sigur și fiabil pentru utilizare în producție?
În loc să se bazeze doar pe metrici automatizate, proiectul a folosit evaluatori umani instruiți pentru a evalua ieșirile audio reale și a identifica unde modelul încă nu funcționa.
Metrici cheie ale setului de date
Utilizare caz
Evaluarea calității clonării vocale
Durata proiectului
12 săptămâni
Mostre revizuite
12,400 de clipuri audio sintetizate
Adnotatori implementați
48 de evaluatori de limba engleză instruiți
Provocări în evaluarea calității TTS și clonării vocale
- Modelul trebuia să funcționeze bine în toate multiple accente englezești, în special engleza indiană.
- Calitatea audio trebuia îmbunătățită în moduri importante pentru utilizatorii finali, nu doar în ceea ce privește parametrii de laborator.
- Echipa avea nevoie de o modalitate clară de a identifica ce nu mergea bine în ieșirea vocală.
- Clipurile audio lungi pierdeau uneori identitatea vorbitorului original în timp.
- Clientul avea nevoie și de cecuri pentru siguranță, risc de uzurpare a identității și prezența filigranului.
Soluție: Cadru de evaluare umană pentru calitatea vocii prin inteligență artificială
Strategia de evaluare
Shaip a construit un cadru structurat de evaluare pentru a evalua naturalețea, claritatea, similaritatea vocii, consecvența și siguranța.
Recenzie umană la scară largă
48 de evaluatori instruiți au analizat 12,400 de mostre audio din engleză indiană, engleză americană neutră și o subtracțiune în hinglish.
Evaluare în trei părți
- Recenzorii au evaluat cât de natural și ușor de înțeles a sunat fiecare clip.
- Au comparat perechi de clipuri pentru a identifica care versiune era mai bună.
- Au etichetat probleme recurente de calitate, cum ar fi ritmul nenatural, problemele de înălțime și deviația difuzoarelor.
Controlul calității
Shaip a folosit sarcini de calibrare, verificări ale standardelor de aur, revizuiri repetate și monitorizare a asigurării calității pentru a menține scorurile consecvente și fiabile.
Bucla de feedback acționabilă
Constatările fiecărui sprint au fost integrate în procesul de optimizare al clientului, ajutând modelul să se îmbunătățească pe parcursul mai multor runde.
Domeniul de aplicare al proiectului: Limbi, accente și acoperire a recenziilor
| Zonă | domeniu |
|---|---|
| Limbă | Engleză |
| Accente prioritare | Engleză indiană, engleză americană neutră |
| Acoperire secundară | Engleză britanică, subtrack Hinglish |
| Tipuri de mostre | Clipuri scurte de referință, mostre cu câteva cadre, discurs lung |
| Ieșire de revizuire | Evaluări de calitate, etichete de preferințe, etichetare a problemelor |
| Lungimea logodnei | 12 săptămâni |
Rezultate: Îmbunătățiri măsurabile în clonarea vocii
- Îmbunătățire evidentă a calității vocii: Scorul general de calitate al modelului s-a îmbunătățit de la 3.41 la 4.12, ceea ce arată că vorbirea a devenit mai naturală și mai pregătită pentru producție.
- O mai bună potrivire a difuzoarelor: Sistemul a devenit mult mai eficient în păstrarea vocii vorbitorului original, îmbunătățind similaritatea de la 0.71 la 0.87.
- Mai puține erori vizibile: Problemele de vorbire au scăzut de la 31% din eșantioane la momentul inițial la 11% până la sprintul final.
- Inteligibilitate puternică: Rata de eroare finală pentru engleza indiană a atins 4.8%, depășind pragul țintă.
- Pregătire pentru o implementare mai sigură: Evaluarea a confirmat, de asemenea, performanțe solide în ceea ce privește verificările cheie de siguranță, inclusiv verificarea riscului de uzurpare a identității și verificarea filigranului.
Shaip ne-a ajutat să transformăm calitatea audio subiectivă într-un program de îmbunătățire măsurabil. Cadrul lor de evaluare ne-a oferit semnale clare despre ce trebuie să remediem, unde să îmbunătățim și cum să ne apropiem de producție cu încredere.
— Lider de produse de vorbire cu inteligență artificială