Studiu de caz muzical AI

Colectare de date vocale cântând

Colecție audio pentru cântări bazate pe voce pentru antrenamentul EQ și algoritm de compresie: captarea diversității lingvistice și muzicale

Colecție audio pentru cântări bazate pe voce

rezumatul proiectului

Shaip a colaborat cu o companie de tehnologie lider pentru a colecta diverse înregistrări audio cântând în patru limbi prioritare: chineză, arabă, spaniolă și rusă. Proiectul și-a propus să ofere date de înaltă calitate pentru antrenarea EQ și algoritmi de compresie bazați pe inteligență artificială, care sunt esențiale pentru îmbunătățirea procesării audio automate.

Colecția a inclus 40 de participanți (10 pe limbă) din diverse genuri, cu accent pe înregistrări de calitate de studio, folosind diverse microfoane și medii.

Colecție audio cântând

Statistici cheie

Limbi 4: Chineză, arabă, spaniolă, rusă

10 cântăreți pentru
limba (40 in total)

20 ore of
cântând audio

Formatul audio: 48 kHz PCM, mono, WAV

Transcriere audio în limbile materne

Durata proiectului:
18 săptămâni

Domeniul de aplicare al proiectului

Colectarea datelor

Domeniul de aplicare a cuprins colecția de sunet cântând în patru limbi vizate, înregistrate de artiști reali din mai multe genuri muzicale. A fost folosit un mediu de studio pentru a asigura înregistrări de înaltă calitate, potrivite pentru antrenarea modelelor AI.

Cerințe cheie

  • Participanții: 10 cântăreți pe limbă, cu o distribuție echilibrată pe sexe (50% bărbați, 50% femei).
  • Genuri: O varietate de genuri, autoidentificate de artist, validate pentru consecvență.
  • Mediu de înregistrare: Calitate studio, cu mai multe setări de microfon (dinamic, condensator).
  • Format audio: Fișiere PCM, mono, WAV de 48 kHz, fără procesare (de exemplu, fără compresie, EQ, reverb).
  • transcrierea: Cântece care trebuie transcrise în limba în care sunt cântate, cu reguli speciale pentru cântecele bilingve.
  • limbi: Chineză, arabă, spaniolă, rusă
  • Transcriere
    • Transcrierile ar trebui să fie furnizate în limba înregistrării (de exemplu, linii hindi în Devanagari, urmate de engleză).
    • Asigurați-vă că fiecare segment nu durează mai mult de 15 secunde pentru claritate și acuratețe.
  • Cerințe de înregistrare audio
    • Minim 3 setări de microfon per sesiune de înregistrare.
    • 3 minute per melodie, cu 3 preluări per melodie, asigurând înregistrări diverse la microfon pentru fiecare participant.
    • Mediu acustic de calitate studio, fără zgomot de fundal.

Provocări

Diversitatea participanților

Asigurarea unei distribuții echilibrate a cântăreților în funcție de gen, ton/ton al vocii și gen muzical a fost o provocare complexă.

Consistența datelor

Menținerea setărilor și a mediului consecvent al microfonului în timp ce surprindeți diverse performanțe vocale în mai multe limbi.

Controlul calității audio

Asigurarea audio de calitate de studio, fără zgomot extern și transcriere precisă în mai multe limbi.

Soluţie

Shaip a livrat o soluție cuprinzătoare pentru a satisface cerințele proiectului prin:

  • Recrutarea a 40 de cântăreți în patru limbi și asigurarea unei reprezentări diverse în ceea ce privește genul, tonul și stilul muzical.
  • Realizarea de înregistrări de calitate studio cu tipuri variate de microfon (dinamic, condensator) pentru a capta o gamă largă de date audio.
  • Transcrierea corectă a înregistrărilor în limbile folosite, respectând reguli specifice pentru cântecele bilingve.
  • Consimțământ: formularele de consimțământ vor fi colectate de la toți participanții înainte de înregistrare.

Rezultat

Diversele date audio colectate au permis clientului să dezvolte un set robust de antrenament pentru EQ automatizat și algoritmi de compresie, îmbunătățind calitatea procesării audio. Înregistrările de înaltă calitate și metadatele detaliate au asigurat că modelele AI ar putea gestiona diferite genuri muzicale și complexități lingvistice. Rezultate cheie:

  • Date audio de înaltă calitate, diverse pentru antrenarea sistemelor AI.
  • Transcriere și metadate precise pentru analiză.
  • O bază mai solidă pentru instrumentele de procesare audio bazate pe AI.

livrabile

  • 20 de ore de înregistrări audio de calitate studio (48 kHz PCM, fișiere WAV mono).
  • Trancrieri în limba înregistrării.
  • Metadate: marca/modelul microfonului, interfața DAC/audio, profilul cântărețului, informații despre gen.
  • Format JSON pentru transcriere cu metadate.

Capacitatea lui Shaip de a surprinde diversitatea talentului muzical și bogăția lingvistică a fost de neprețuit pentru dezvoltarea algoritmilor noștri EQ și compresie. Echipa lor s-a asigurat că fiecare aspect, de la recrutarea artiștilor până la calitatea înregistrării, a fost tratat cu precizie, făcând acest lucru un pas esențial în perfecționarea sistemelor noastre automate de procesare audio.

Suntem cu adevărat recunoscători pentru încrederea și colaborarea pe care Shaip le-a arătat pe parcursul procesului. În ciuda cerințelor noastre tehnice stricte și provocatoare, dăruirea, munca grea și atenția la detalii au fost remarcabile. A fost o plăcere să lucrez cu o echipă atât de angajată să ofere excelență

Golden-5-stele