Studiu de caz muzical AI
Colectare de date vocale cântând
Colecție audio pentru cântări bazate pe voce pentru antrenamentul EQ și algoritm de compresie: captarea diversității lingvistice și muzicale
rezumatul proiectului
Shaip a colaborat cu o companie de tehnologie lider pentru a colecta diverse înregistrări audio cântând în patru limbi prioritare: chineză, arabă, spaniolă și rusă. Proiectul și-a propus să ofere date de înaltă calitate pentru antrenarea EQ și algoritmi de compresie bazați pe inteligență artificială, care sunt esențiale pentru îmbunătățirea procesării audio automate.
Colecția a inclus 40 de participanți (10 pe limbă) din diverse genuri, cu accent pe înregistrări de calitate de studio, folosind diverse microfoane și medii.

Statistici cheie
Limbi 4: Chineză, arabă, spaniolă, rusă
10 cântăreți pentru
limba (40 in total)
20 ore of
cântând audio
Formatul audio: 48 kHz PCM, mono, WAV
Transcriere audio în limbile materne
Durata proiectului:
18 săptămâni
Domeniul de aplicare al proiectului
Colectarea datelor
Domeniul de aplicare a cuprins colecția de sunet cântând în patru limbi vizate, înregistrate de artiști reali din mai multe genuri muzicale. A fost folosit un mediu de studio pentru a asigura înregistrări de înaltă calitate, potrivite pentru antrenarea modelelor AI.
Cerințe cheie
- Participanții: 10 cântăreți pe limbă, cu o distribuție echilibrată pe sexe (50% bărbați, 50% femei).
- Genuri: O varietate de genuri, autoidentificate de artist, validate pentru consecvență.
- Mediu de înregistrare: Calitate studio, cu mai multe setări de microfon (dinamic, condensator).
- Format audio: Fișiere PCM, mono, WAV de 48 kHz, fără procesare (de exemplu, fără compresie, EQ, reverb).
- transcrierea: Cântece care trebuie transcrise în limba în care sunt cântate, cu reguli speciale pentru cântecele bilingve.
- limbi: Chineză, arabă, spaniolă, rusă
- Transcriere
- Transcrierile ar trebui să fie furnizate în limba înregistrării (de exemplu, linii hindi în Devanagari, urmate de engleză).
- Asigurați-vă că fiecare segment nu durează mai mult de 15 secunde pentru claritate și acuratețe.
- Cerințe de înregistrare audio
- Minim 3 setări de microfon per sesiune de înregistrare.
- 3 minute per melodie, cu 3 preluări per melodie, asigurând înregistrări diverse la microfon pentru fiecare participant.
- Mediu acustic de calitate studio, fără zgomot de fundal.
Provocări
Asigurarea unei distribuții echilibrate a cântăreților în funcție de gen, ton/ton al vocii și gen muzical a fost o provocare complexă.
Menținerea setărilor și a mediului consecvent al microfonului în timp ce surprindeți diverse performanțe vocale în mai multe limbi.
Asigurarea audio de calitate de studio, fără zgomot extern și transcriere precisă în mai multe limbi.
Soluţie
Shaip a livrat o soluție cuprinzătoare pentru a satisface cerințele proiectului prin:
- Recrutarea a 40 de cântăreți în patru limbi și asigurarea unei reprezentări diverse în ceea ce privește genul, tonul și stilul muzical.
- Realizarea de înregistrări de calitate studio cu tipuri variate de microfon (dinamic, condensator) pentru a capta o gamă largă de date audio.
- Transcrierea corectă a înregistrărilor în limbile folosite, respectând reguli specifice pentru cântecele bilingve.
- Consimțământ: formularele de consimțământ vor fi colectate de la toți participanții înainte de înregistrare.
Rezultat
Diversele date audio colectate au permis clientului să dezvolte un set robust de antrenament pentru EQ automatizat și algoritmi de compresie, îmbunătățind calitatea procesării audio. Înregistrările de înaltă calitate și metadatele detaliate au asigurat că modelele AI ar putea gestiona diferite genuri muzicale și complexități lingvistice. Rezultate cheie:
- Date audio de înaltă calitate, diverse pentru antrenarea sistemelor AI.
- Transcriere și metadate precise pentru analiză.
- O bază mai solidă pentru instrumentele de procesare audio bazate pe AI.
livrabile
- 20 de ore de înregistrări audio de calitate studio (48 kHz PCM, fișiere WAV mono).
- Trancrieri în limba înregistrării.
- Metadate: marca/modelul microfonului, interfața DAC/audio, profilul cântărețului, informații despre gen.
- Format JSON pentru transcriere cu metadate.
Capacitatea lui Shaip de a surprinde diversitatea talentului muzical și bogăția lingvistică a fost de neprețuit pentru dezvoltarea algoritmilor noștri EQ și compresie. Echipa lor s-a asigurat că fiecare aspect, de la recrutarea artiștilor până la calitatea înregistrării, a fost tratat cu precizie, făcând acest lucru un pas esențial în perfecționarea sistemelor noastre automate de procesare audio.
Suntem cu adevărat recunoscători pentru încrederea și colaborarea pe care Shaip le-a arătat pe parcursul procesului. În ciuda cerințelor noastre tehnice stricte și provocatoare, dăruirea, munca grea și atenția la detalii au fost remarcabile. A fost o plăcere să lucrez cu o echipă atât de angajată să ofere excelență