Cum a livrat Shaip un program scalabil de evaluare a calității clonării vocale pentru un client de vorbire bazat pe inteligență artificială

De la calitatea demonstrativă la cea pregătită pentru implementare — cum a ajutat evaluarea umană structurată un client de vorbire bazat pe inteligență artificială să reducă decalajul dintre indicatorii de laborator și performanța din lumea reală.

Clonarea vocii

rezumatul proiectului

Modelele de clonare vocală pot suna impresionant în demonstrații, dar totuși se confruntă cu dificultăți în utilizarea în lumea reală. Clientul avea nevoie de o modalitate fiabilă de a măsura dacă modelul său se îmbunătățește cu adevărat - în special pentru engleza indiană, care era o piață prioritară de implementare.

Shaip a fost angajat pentru a proiecta și gestiona un program de evaluare umană care să poată răspunde la trei întrebări cheie de afaceri:

  • Sună vorbirea natural?
  • Se aude în continuare ca difuzorul original?
  • Este suficient de sigur și fiabil pentru utilizare în producție?

În loc să se bazeze doar pe metrici automatizate, proiectul a folosit evaluatori umani instruiți pentru a evalua ieșirile audio reale și a identifica unde modelul încă nu funcționa.

Calitatea clonării vocale

Metrici cheie ale setului de date

Utilizare caz

Evaluarea calității clonării vocale

Durata proiectului

12 săptămâni

Mostre revizuite

12,400 de clipuri audio sintetizate

Adnotatori implementați

48 de evaluatori de limba engleză instruiți

Provocări în evaluarea calității TTS și clonării vocale

  • Modelul trebuia să funcționeze bine în toate multiple accente englezești, în special engleza indiană.
  • Calitatea audio trebuia îmbunătățită în moduri importante pentru utilizatorii finali, nu doar în ceea ce privește parametrii de laborator.
  • Echipa avea nevoie de o modalitate clară de a identifica ce nu mergea bine în ieșirea vocală.
  • Clipurile audio lungi pierdeau uneori identitatea vorbitorului original în timp.
  • Clientul avea nevoie și de cecuri pentru siguranță, risc de uzurpare a identității și prezența filigranului.

Soluție: Cadru de evaluare umană pentru calitatea vocii prin inteligență artificială

Strategia de evaluare

Shaip a construit un cadru structurat de evaluare pentru a evalua naturalețea, claritatea, similaritatea vocii, consecvența și siguranța.

Recenzie umană la scară largă

48 de evaluatori instruiți au analizat 12,400 de mostre audio din engleză indiană, engleză americană neutră și o subtracțiune în hinglish.

Evaluare în trei părți

  • Recenzorii au evaluat cât de natural și ușor de înțeles a sunat fiecare clip.
  • Au comparat perechi de clipuri pentru a identifica care versiune era mai bună.
  • Au etichetat probleme recurente de calitate, cum ar fi ritmul nenatural, problemele de înălțime și deviația difuzoarelor.

Controlul calității

Shaip a folosit sarcini de calibrare, verificări ale standardelor de aur, revizuiri repetate și monitorizare a asigurării calității pentru a menține scorurile consecvente și fiabile.

Bucla de feedback acționabilă

Constatările fiecărui sprint au fost integrate în procesul de optimizare al clientului, ajutând modelul să se îmbunătățească pe parcursul mai multor runde.

Domeniul de aplicare al proiectului: Limbi, accente și acoperire a recenziilor

Zonă domeniu
Limbă Engleză
Accente prioritare Engleză indiană, engleză americană neutră
Acoperire secundară Engleză britanică, subtrack Hinglish
Tipuri de mostre Clipuri scurte de referință, mostre cu câteva cadre, discurs lung
Ieșire de revizuire Evaluări de calitate, etichete de preferințe, etichetare a problemelor
Lungimea logodnei 12 săptămâni

Rezultate: Îmbunătățiri măsurabile în clonarea vocii

  • Îmbunătățire evidentă a calității vocii: Scorul general de calitate al modelului s-a îmbunătățit de la 3.41 la 4.12, ceea ce arată că vorbirea a devenit mai naturală și mai pregătită pentru producție.
  • O mai bună potrivire a difuzoarelor: Sistemul a devenit mult mai eficient în păstrarea vocii vorbitorului original, îmbunătățind similaritatea de la 0.71 la 0.87.
  • Mai puține erori vizibile: Problemele de vorbire au scăzut de la 31% din eșantioane la momentul inițial la 11% până la sprintul final.
  • Inteligibilitate puternică: Rata de eroare finală pentru engleza indiană a atins 4.8%, depășind pragul țintă.
  • Pregătire pentru o implementare mai sigură: Evaluarea a confirmat, de asemenea, performanțe solide în ceea ce privește verificările cheie de siguranță, inclusiv verificarea riscului de uzurpare a identității și verificarea filigranului.
Cel mai important, clientul a obținut un sistem de evaluare repetabil pe care îl putea folosi nu doar pentru a evalua calitatea modelului, ci și pentru a o îmbunătăți continuu. Ceea ce a început ca un program de revizuire tehnică a devenit un instrument practic de luare a deciziilor pentru echipele de produs, echipele de model și părțile interesate de implementare.
Pictogramă citat

Shaip ne-a ajutat să transformăm calitatea audio subiectivă într-un program de îmbunătățire măsurabil. Cadrul lor de evaluare ne-a oferit semnale clare despre ce trebuie să remediem, unde să îmbunătățim și cum să ne apropiem de producție cu încredere.

— Lider de produse de vorbire cu inteligență artificială

★ ★ ★ ★ ★
Pictogramă citat