Studiu de caz muzical AI
Colectare de date vocale cântând
Colecție audio pentru cântări bazate pe voce pentru antrenamentul EQ și algoritm de compresie: captarea diversității lingvistice și muzicale
rezumatul proiectului
Shaip a colaborat cu o companie de tehnologie lider pentru a colecta diverse înregistrări audio cântând în patru limbi prioritare: chineză, arabă, spaniolă și rusă. Proiectul și-a propus să ofere date de înaltă calitate pentru antrenarea EQ și algoritmi de compresie bazați pe inteligență artificială, care sunt esențiale pentru îmbunătățirea procesării audio automate.
Colecția a inclus 40 de participanți (10 pe limbă) din diverse genuri, cu accent pe înregistrări de calitate de studio, folosind diverse microfoane și medii.
Statistici cheie
Limbi 4: Chineză, arabă, spaniolă, rusă
10 cântăreți pentru
limba (40 in total)
20 ore of
cântând audio
Formatul audio: 48 kHz PCM, mono, WAV
Transcriere audio în limbile materne
Durata proiectului:
18 săptămâni
Domeniul de aplicare al proiectului
Colectarea datelor
Domeniul de aplicare a cuprins colecția de sunet cântând în patru limbi vizate, înregistrate de artiști reali din mai multe genuri muzicale. A fost folosit un mediu de studio pentru a asigura înregistrări de înaltă calitate, potrivite pentru antrenarea modelelor AI.
Cerințe cheie
- Participanții: 10 cântăreți pe limbă, cu o distribuție echilibrată pe sexe (50% bărbați, 50% femei).
- Genuri: O varietate de genuri, autoidentificate de artist, validate pentru consecvență.
- Mediu de înregistrare: Calitate studio, cu mai multe setări de microfon (dinamic, condensator).
- Format audio: Fișiere PCM, mono, WAV de 48 kHz, fără procesare (de exemplu, fără compresie, EQ, reverb).
- transcrierea: Cântece care trebuie transcrise în limba în care sunt cântate, cu reguli speciale pentru cântecele bilingve.
- limbi: Chineză, arabă, spaniolă, rusă
- Transcriere
- Transcrierile ar trebui să fie furnizate în limba înregistrării (de exemplu, linii hindi în Devanagari, urmate de engleză).
- Asigurați-vă că fiecare segment nu durează mai mult de 15 secunde pentru claritate și acuratețe.
- Cerințe de înregistrare audio
- Minim 3 setări de microfon per sesiune de înregistrare.
- 3 minute per melodie, cu 3 preluări per melodie, asigurând înregistrări diverse la microfon pentru fiecare participant.
- Mediu acustic de calitate studio, fără zgomot de fundal.
Activități
Diversitatea participanților
Asigurarea unei distribuții echilibrate a cântăreților în funcție de gen, ton/ton al vocii și gen muzical a fost o provocare complexă.
Consistența datelor
Menținerea setărilor și a mediului consecvent al microfonului în timp ce surprindeți diverse performanțe vocale în mai multe limbi.
Controlul calității audio
Asigurarea audio de calitate de studio, fără zgomot extern și transcriere precisă în mai multe limbi.
Soluţie
Shaip a livrat o soluție cuprinzătoare pentru a satisface cerințele proiectului prin:
- Recrutarea a 40 de cântăreți în patru limbi și asigurarea unei reprezentări diverse în ceea ce privește genul, tonul și stilul muzical.
- Realizarea de înregistrări de calitate studio cu tipuri variate de microfon (dinamic, condensator) pentru a capta o gamă largă de date audio.
- Transcrierea corectă a înregistrărilor în limbile folosite, respectând reguli specifice pentru cântecele bilingve.
- Consimțământ: formularele de consimțământ vor fi colectate de la toți participanții înainte de înregistrare.
Rezultat
Diversele date audio colectate au permis clientului să dezvolte un set robust de antrenament pentru EQ automatizat și algoritmi de compresie, îmbunătățind calitatea procesării audio. Înregistrările de înaltă calitate și metadatele detaliate au asigurat că modelele AI ar putea gestiona diferite genuri muzicale și complexități lingvistice. Rezultate cheie:
- Date audio de înaltă calitate, diverse pentru antrenarea sistemelor AI.
- Transcriere și metadate precise pentru analiză.
- O bază mai solidă pentru instrumentele de procesare audio bazate pe AI.
livrabile
- 20 de ore de înregistrări audio de calitate studio (48 kHz PCM, fișiere WAV mono).
- Trancrieri în limba înregistrării.
- Metadate: marca/modelul microfonului, interfața DAC/audio, profilul cântărețului, informații despre gen.
- Format JSON pentru transcriere cu metadate.
Capacitatea lui Shaip de a surprinde diversitatea talentelor muzicale și bogăția lingvistică a fost neprețuită pentru dezvoltarea algoritmilor noștri de egalizare și compresie. Echipa lor s-a asigurat că fiecare aspect, de la recrutarea artiștilor până la calitatea înregistrărilor, a fost gestionat cu precizie, ceea ce face ca acesta să fie un pas esențial în rafinarea sistemelor noastre automate de procesare audio. Suntem cu adevărat recunoscători pentru încrederea și colaborarea de care Shaip a dat dovadă pe tot parcursul procesului. În ciuda cerințelor noastre tehnice stricte și provocatoare, dedicarea, munca asiduă și atenția lor la detalii au fost remarcabile. A fost o plăcere să lucrez cu o echipă atât de dedicată livrării excelenței.