Cele mai de încredere servicii de colectare a datelor despre vorbire pentru IA dvs
Antrenați-vă modelele NLP, VA, prototipurile TTS și multe altele cu date conversaționale de calitate, cu serviciile noastre de colectare a datelor audio și de vorbire
Descoperiți conducte de date audio fără blocaje.
Clienți prezentați
De ce este necesar un set de date pentru formarea vorbirii pentru procesarea limbajului natural?
Ați observat vreodată VA din smartphone-ul dvs., adică Siri, Bixby sau orice altceva, interacționând? Modul în care răspund la fiecare întrebare și analizează și prezintă rezultatele conform cerințelor dvs.!
Ei bine, oricât de mult ne intrigă aceste VA, aceste resurse și programe inteligente trebuie să fie antrenate progresiv pentru a putea răspunde, la fel de precis. Acesta este motivul pentru care ar trebui să luați în considerare externalizarea colectării datelor de vorbire/audio și voce către companii specializate în colectarea datelor, cu expertiză profesională validată.
Investiția în colectarea de date audio vă pregătește pretinsul NLP pentru a răspunde unui public multilingv. Nu doar atât, colectarea datelor de vorbire pentru NLP, pe măsură ce și atunci când este gestionată de un expert, ia în considerare chiar și colectarea pe teren, analiza semantică și transcrierea audio. Cu soluții profesionale de colectare a datelor despre vorbire, puteți:
- Achiziționați seturi de date audio de înaltă calitate pentru a îmbunătăți acuratețea
- Țintește configurarea diverselor scenarii
- Colectați date de antrenament AI multilingve
- Scalați-vă modelul ML pentru a se potrivi cu diverse categorii demografice și verticale
Servicii profesionale de colectare a datelor audio/voce pentru NLP
Orice subiect. Orice scenariu.
Sistemele inteligente NLP sunt orice altceva decât generice. În funcție de funcționalitatea programului, este posibil să trebuiască să vă concentrați pe servicii de date audio spațiale și multilingve, care pot fi oferite numai de companii reputate de colectare a datelor voce/audio. Aici Shaip intră în schema lucrurilor ca furnizor de servicii de conexiune de date extrem de fiabil, care se mândrește cu munca grea pentru AI-urile dvs. presupuse inteligente.
La Shaip, accentul nostru principal este pe modelele de alimentare cu cel mai mare volum posibil de mostre de vorbire personalizate, în cel mai mic timp posibil. Cu noi la bord, vă puteți aștepta la:
- Colectare de date audio/voce organizată pentru NLP
- Programe personalizate care răspund conform cazurilor de utilizare specifice
- Pregătește extragerea setului de date audio
- Prelucrare automată a datelor specifică modelului
- Cel mai înalt nivel posibil de specificitate a domeniului
- Timp mai rapid de lansare pe piață cu modele accelerate AI
Expertiza noastră
Aliniați datele audio pentru a pregăti modele inteligente NLP
Shaip oferă servicii de colectare de date de vorbire/audio de la capăt la capăt în peste 100 de limbi pentru a permite tehnologiilor activate de voce să răspundă unui set divers de public de pe tot globul. Putem lucra la proiecte de orice anvergură și dimensiune; de la acordarea de licențe a seturilor de date audio existente, până la gestionarea colecției de date audio personalizate, la transcrierea și adnotarea audio. Indiferent cât de mare este proiectul dvs. de colectare a datelor despre vorbire, putem personaliza serviciile de colectare audio pentru a se potrivi nevoilor dvs. pentru a construi seturi de date NLP de înaltă calitate care vizează dialectele, tonurile și limbile. Alegeți din gama noastră largă de seturi de date despre vorbire și resurse de colectare a datelor audio, pentru setări inteligente care permit vocea.
Colecția de discursuri monolog
Gestionați cerințele bazate pe vorbire referitoare la un difuzor de sine stătător pentru prototipurile dvs. Text-to-Speed și cerințele specifice transcripțiilor cu alimentare promptă scriptată, prin fișiere cu un singur canal.
Discurs de dialog
Colectie
Configurați asistenți virtuali inteligenți, chatbot-uri specifice vitezei și modele de recunoaștere automată a vorbirii cu expunere multilingvă prin fișiere cu două canale și resurse transcrise.
Date acustice
Colectie
Putem înregistra profesional date audio la calitate de studio, fie că este vorba de restaurante, birouri sau case sau din diverse medii și limbi, prin intermediul rețelei noastre globale de colaboratori, acoperind în același timp o gamă acustică mai largă.
Colecția de expresii în limbaj natural
Antrenați configurații comerciale inteligente pentru a identifica fraze de client rostite diferit, cu semnificație similară, pentru a face AI-urile mai autonome în timp
Digital / Virtual
Asistenți
Concentrați-vă pe construirea viitorului Asistent virtual prin antrenarea modelelor cu avertismente privind vorbirea umană, expunere multilingvă, analiză contextuală și NLU.
Recunoaștere automată a vorbirii (ASR)
Îmbunătățiți acuratețea sistemelor dvs. de recunoaștere automată a vorbirii (ASR) având acces la seturi de date audio/vorbire diversificate de ultimă generație, dintr-o gamă largă de date demografice.
Date de antrenament audio/vorbire multilingve
Profesioniștii noștri lingvistici cu înaltă calificare de pe tot globul oferă date de instruire audio/vorbire multilingve în mai multe limbi și dialecte, inclusiv arabă, daneză, chineză, afrikaans, Singapore, Noua Zeelandă, ebraică, indoneziană, irlandeză, coreeană, malay, poloneză, scoțiană, suedeză , franceză, germană, vietnameză, thailandeză, italiană, spaniolă și altele.
Text-to-Speech
(TTS)
Pentru a oferi o experiență mai bună pentru utilizator cu TTS, dezvoltarea unui sistem care să sune natural este esențială. Construiți un model multilingv de text-to-speech (TTS) cu ajutorul forței noastre de muncă globale, care vă ajută să colectați date despre vorbire în peste 150 de limbi și dialecte pentru a vă îmbunătăți modelele AI, de la comenzile din mașină la chatbot și soluții de învățare cu date audio de calitate.
Motive pentru a alege Shaip ca partener de încredere pentru colectarea datelor despre vorbire
oameni
Echipe dedicate și pregătite:
- Peste 30,000 de colaboratori pentru crearea datelor, etichetare și asigurare a calității
- Echipa de management de proiect acreditată
- Echipa de dezvoltare a produselor cu experiență
- Echipa Talent Pool Sourcing & Onboarding
Proces
Cea mai mare eficiență a procesului este asigurată cu:
- Proces robust 6 Sigma Stage-Gate
- O echipă dedicată de centuri negre 6 Sigma – proprietari cheie de proces și conformitate cu calitatea
- Îmbunătățire continuă și buclă de feedback
Platformă
Platforma patentata ofera beneficii:
- Platformă end-to-end bazată pe web
- Calitate impecabilă
- TAT mai rapid
- Livrare fără întreruperi
oameni
Echipe dedicate și pregătite:
- Peste 30,000 de colaboratori pentru crearea datelor, etichetare și asigurare a calității
- Echipa de management de proiect acreditată
- Echipa de dezvoltare a produselor cu experiență
- Echipa Talent Pool Sourcing & Onboarding
Proces
Cea mai mare eficiență a procesului este asigurată cu:
- Proces robust 6 Sigma Stage-Gate
- O echipă dedicată de centuri negre 6 Sigma – proprietari cheie de proces și conformitate cu calitatea
- Îmbunătățire continuă și buclă de feedback
Platformă
Platforma patentata ofera beneficii:
- Platformă end-to-end bazată pe web
- Calitate impecabilă
- TAT mai rapid
- Livrare fără întreruperi
Limbă: Seturi de date audio colectate
Seturi de date pentru vorbire/audio disponibile
Detalii | ID corpus (unic) | Cuvânt cheie | Set de date de limbă | Cod de limbă | Rata simpla | Tipul setului de date | Numărul total de ore audio | Descriere pe scurt | Descrierea setului de date | Canal audio | Platformă de înregistrare | NOI SUNTEM (%) | Format audio | Format de transcriere | Utilizare caz | Număr de vorbitori | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ro_US_CC_8 | Vernacular afro-american | Vernacular afro-american | ro_ | 8 kHz | Call-center | 211 | Datele centrului de apeluri vernaculare afro-americane | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie: 612, Bărbat: 1242 și Necunoscut: 12 | Contact | |
ro_US_MA_16 | Vernacular afro-american | Vernacular afro-american | ro_ | 16 kHz | Media Audio | 154 | Date despre mediile vernaculare afro-americane | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie: 151, Bărbat: 150 și Necunoscut: 10 | Contact | |
Afrikaans_GC_8 | afrikaans | afrikaans | af_ZA | 8 kHz | Conversație generală | 368 | Date despre conversația generală africană | Conversație telefonică fără scenariu între două persoane. Aproximativ. Durata audio (interval) - 15-60 de minute, limba afrikaans vorbită în Africa | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie: 502, Bărbat: 390 și Necunoscut: 2 | Contact | |
Afrikaans_MA_16 | afrikaans | afrikaans | af_ZA | 16 kHz | Media Audio | 658 | Fișiere media africane | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie: 750, Bărbat: 1278 și Necunoscut: 52 | Contact | |
arabă_GC_8 | Arabă | Arabă | ar_AE | 8 kHz | Conversație generală | 292 | Date despre conversația generală arabă | Conversație telefonică fără scenariu între două persoane. Aproximativ. Durata audio (interval) - 15-60 de minute, arabă din țările din Golf | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie: 171, Bărbat: 534 și Necunoscut: 1 | Contact | |
Arabic_SM_48 | Arabă | Arabă | ar-SA | 48 kHz | Monolog scenariu | 1,947 | Monolog cu scenarii arabe | Înregistrări cu un singur rostire, care tind să se încadreze în intervalul de la 5 la 30 de secunde | Mono | Mobile App | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 838 Bărbat 1209 Necunoscut 78 | Contact | |
Assamese_CC_8 | Assameză | Asamez (În conductă) | ca în | Call center | 60 | Date din Assamese (In Pipeline) Call Center | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Assamese_GC | Assameză | Asamez (În conductă) | ca în | Conversație generală | 100 | Assamese (In Pipeline) Date generale de conversație | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Assamese_MA | Assameză | Asamez (În conductă) | ca în | Media Audio | 40 | Assamese (In Pipeline) Date audio media | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Bengali_CC_8 | bengaleză | bengaleză (în conductă) | bn_IN | Call center | 60 | Datele call-centerului în bengaleză (în conductă). | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Bengali_GC | bengaleză | bengaleză (în conductă) | bn_IN | Conversație generală | 100 | Bengali (In Pipeline) Date generale de conversație | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Bengali_MA | bengaleză | bengaleză (în conductă) | bn_IN | Media Audio | 40 | Bengali (In Pipeline) Date audio media | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Boston_CC_8 | Boston engleză | Boston engleză | ro_ | 8 kHz | Call center | 177 | Datele din centrul de apeluri din Boston | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie: 605, Bărbat: 711 și Necunoscut: 0 | Contact | |
Boston_GC_8 | Boston engleză | Boston engleză | ro_ | 8 kHz | Conversație generală | 32 | Date despre conversația generală din Boston | Conversație telefonică fără scenariu între două persoane. Aproximativ. Durata audio (interval) - 15-60 de minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie: 53, Bărbat: 83 și Necunoscut: 0 | Contact | |
Boston_MA_16 | Boston engleză | Boston engleză | ro_ | 16 kHz | Media Audio | 93 | Date audio Boston Media | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie: 43, Bărbat: 181 și Necunoscut: 2 | Contact | |
Canadian_SM_48 | Franceză canadiană | Franceză canadiană | fr-CA | 48 kHz | Monolog scenariu | 1,222 | Franceză canadiană | Înregistrări cu un singur rostire, care tind să se încadreze în intervalul de la 5 la 30 de secunde | Mono | Mobile App | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 974 Bărbat 631 Necunoscut 1 | Contact | |
Chinese_CC_8 | Engleză chineză | Engleză chineză | ro_ | 8 kHz | Call center | 169 | Datele call-centerului chinezesc | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie: 1790, Bărbat: 523 și Necunoscut: 13 | Contact | |
Chinese_MA_16 | Engleză chineză | Engleză chineză | ro_ | 16 kHz | Media Audio | 249 | Date audio media chinezești | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie: 126, Bărbat: 346 și Necunoscut: 6 | Contact | |
Chineză simplificată_SM_48 | Chineza simplificată | Chineza simplificată | zh-CN | 48 kHz | Monolog scenariu | 2,762 | Chineza simplificată | Înregistrări cu un singur rostire, care tind să se încadreze în intervalul de la 5 la 30 de secunde | Mono | Mobile App | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 1920 Bărbat 1535 Necunoscut 270 | Contact | |
Chineză tradițională_SM_48 | Chineză Tradițională | Chineză Tradițională | zh-TW | 48 kHz | Monolog scenariu | 1,028 | Chineză Tradițională | Înregistrări cu un singur rostire, care tind să se încadreze în intervalul de la 5 la 30 de secunde | Mono | Mobile App | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 1069 Bărbat 262 Necunoscut 3 | Contact | |
Danish_GC_8 | daneză | daneză | da_DK | 8 kHz | Conversație generală | 372 | Date de conversație generală daneză | Conversație telefonică fără scenariu între două persoane. Aproximativ. Durata audio (interval) - 15-60 de minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie: 311, Bărbat: 417, Necunoscut: 0 | Contact | |
danez_MA_16 | daneză | daneză | da_DK | 16 kHz | Media Audio | 664 | Date audio Danish Media | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie: 369, Bărbat: 864, Necunoscut: 27 | Contact | |
Danish_SM_48 | daneză | daneză | da-DK | 48 kHz | Monolog scenariu | 2,579 | Monolog cu scenariu danez | Înregistrări cu un singur rostire, care tind să se încadreze în intervalul de la 5 la 30 de secunde, daneză din Danemarca | Mono | Mobile App | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 1551 Bărbat 1233 Necunoscut 42 | Contact | |
Engleză Deep South_CC_8 | Sudul Adanc englezesc | Sudul Adanc englezesc | ro_ | 8 kHz | Call center | 151 | Engleză Deep South Call-center de date | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 221 , Bărbat 1004 , Necunoscut 7 | Contact | |
Engleză Deep South_GC_8 | Sudul Adanc englezesc | Sudul Adanc englezesc | ro_ | 8 kHz | Conversație generală | 56 | Engleză Deep South General Conversation date | Conversație telefonică fără scenariu între două persoane. Aproximativ. Durata audio (interval) - 15-60 de minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 99, Bărbat 31, Necunoscut 0 | Contact | |
Engleză Deep South_MA_16 | Sudul Adanc englezesc | Sudul Adanc englezesc | ro_ | 16 kHz | Media Audio | 266 | Engleză Deep South Media date audio | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 204, Bărbat 356, Necunoscut 21 | Contact | |
German_CC_8 | Germană | Germană | de-De | 8 kHz | Call center | 64 | Date germane ale centrului de apeluri | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Mono | Desktop | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 478 Barbat 1440 Necunoscut 0 | Contact | ||
German_IVR_8 | Germană | Germană | de-De | 8 kHz | IVR | 200 | Date IVR germane | De la om la mașină. Un tip de flux IVR în care există un prompt TTS (de exemplu „Cum vă pot ajuta”) urmat de un răspuns uman spontan | Mono | Desktop | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 10115 Barbat 8750 Necunoscut 0 | Contact | ||
Gujarati_CC_8 | Gujarati | Gujarati (În conductă) | gu_IN | Call center | 60 | Datele call-centerului din Gujarati (în conductă). | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Gujarati_GC | Gujarati | Gujarati (În conductă) | gu_IN | Conversație generală | 100 | Gujarati (In Pipeline) Date generale de conversație | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Gujarati_MA | Gujarati | Gujarati (În conductă) | gu_IN | Media Audio | 40 | Gujarati (In Pipeline) Date audio media | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Ebraică_Conversație generală_8 | ebraică | ebraică | el_IL | 8 kHz | Conversație generală | 399 | Date despre conversația generală ebraică | Conversație telefonică fără scenariu între două persoane. Aproximativ. Durata audio (interval) - 15-60 de minute, ebraică în Israel | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 414 , Bărbat 399 , Necunoscut 1 | Contact | |
ebraică_MA_16 | ebraică | ebraică | el_IL | 16 kHz | Media Audio | 427 | Date audio media ebraică | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 361, Bărbat 513, Necunoscut 13 | Contact | |
Hindi_MA_16 | hindi | hindi | salut_IN | 16 kHz | Media Audio | 219 | Date audio Hindi Media | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 83, Bărbat 309, Necunoscut 0 | Contact | |
Hindi_SM_48 | hindi | hindi | salut | 48 kHz | Monolog scenariu | 2,867 | Monolog cu scenariu hindi | Înregistrări cu un singur rostire, care tind să se încadreze în intervalul de la 5 la 30 de secunde | Mono | Mobile App | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 1977 Bărbat 1864 Necunoscut 147 | Contact | |
HINGLISH_CC_8 | hinglish | hinglish | hg_IN | 8 kHz | Call center | 208 | HINGLISH Datele centrului de apeluri | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 822, Bărbat 1262, Necunoscut 0 | Contact | |
HINGLISH_MA_16 | hinglish | hinglish | hg_IN | 16 kHz | Media Audio | 216 | HINGLISH Date audio media | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 75, Bărbat 380, Necunoscut 0 | Contact | |
Hispanic_CC_8 | engleza hispanica | engleza hispanica | ro_ | 8 kHz | Call center | 212 | Date de la call-center hispanic | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 822, Bărbat 1262, Necunoscut 0 | Contact | |
Hispanic_MA_16 | engleza hispanica | engleza hispanica | ro_ | 16 kHz | Media Audio | 155 | Audio media hispanic Call Media | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 140, Bărbat 219, Necunoscut 5 | Contact | |
Indonesian_GC_8 | Indoneziană | Indoneziană | am facut | 8 kHz | Conversație generală | 496 | Date despre conversația generală indoneziană | Conversație telefonică fără scenariu între două persoane. Aproximativ. Durata audio (interval) - 15-60 de minute, indoneziană Bahasa | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 524, Bărbat 454, Necunoscut 2 | Contact | |
Indonesian_MA_16 | Indoneziană | Indoneziană | am facut | 16 kHz | Media Audio | 643 | Date audio media indoneziene | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 746, Bărbat 1507, Necunoscut 129 | Contact | |
Irish_GC_8 | irlandez | irlandez | ro_IE | 8 kHz | Conversație generală | 192 | Date despre conversația generală irlandeză | Conversație telefonică fără scenariu între două persoane. Aproximativ. Durata audio (interval) - 15-60 de minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 213 , Bărbat 153 , Necunoscut 0 | Contact | |
Japanese_SM_48 | Japonez | Japonez | ja-JP | 48 kHz | Monolog scenariu | 2,335 | Monolog cu scenariu japonez | Înregistrări cu un singur rostire, care tind să se încadreze în intervalul de la 5 la 30 de secunde | Mono | Mobile App | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 1460 Bărbat 1221 Necunoscut 194 | Contact | |
Kannada_CC_8 | kannada | Kannada (În conductă) | kn_IN | Call center | 60 | Datele din centrul de apeluri Kannada (In Pipeline). | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Kannada_GC | kannada | Kannada (În conductă) | kn_IN | Conversație generală | 100 | Kannada (In Pipeline) Date generale de conversație | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Kannada_MA | kannada | Kannada (În conductă) | kn_IN | Media Audio | 40 | Kannada (In Pipeline) Date audio media | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
coreeană_CC_8 | Coreeană | Coreeană | ko_KR | 8 kHz | Call center | 107 | Datele centrului de apeluri coreeane | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 1086, Bărbat 210, Necunoscut 4 | Contact | |
coreeană_MA_16 | Coreeană | Coreeană | ko_KR | 16 kHz | Media Audio | 204 | Date audio media coreene | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 70 Bărbat 303, Necunoscut 25 | Contact | |
Korean_SM_48 | Coreeană | Coreeană | ko-KR | 48 kHz | Monolog scenariu | 1,955 | Monolog cu scenariu coreean | Înregistrări cu un singur rostire, care tind să se încadreze în intervalul de la 5 la 30 de secunde | Mono | Mobile App | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 1195 Bărbat 1134 Necunoscut 122 | Contact | |
Malay_GC_8 | malaezian | malaezian | ms_MY | 8 kHz | Conversație generală | 266 | Date despre conversația generală malaeză | Conversație telefonică fără scenariu între două persoane. Aproximativ. Durata audio (interval) - 15-60 de minute, malay în Malaezia | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 316, Bărbat 176, Necunoscut 0 | Contact | |
Malay_MA_16 | malaezian | malaezian | ms_MY | 16 kHz | Media Audio | 344 | Date audio Malay Media | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 236, Bărbat 626, Necunoscut 47 | Contact | |
Malayalam_CC_8 | malayalam | Malayalam (În conductă) | ml_IN | Call center | 60 | Malayalam (In Pipeline) Date call-center | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Malayalam_GC | malayalam | Malayalam (În conductă) | ml_IN | Conversație generală | 100 | Malayalam (In Pipeline) Date generale de conversație | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Malayalam_MA | malayalam | Malayalam (În conductă) | ml_IN | Media Audio | 40 | Malayalam (In Pipeline) Date audio media | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Marathi_CC_8 | marathi | Marathi (În conductă) | mr_IN | Call center | 60 | Date de la Call-Center Marathi (In Pipeline). | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Marathi_GC | marathi | Marathi (În conductă) | mr_IN | Conversație generală | 100 | Marathi (In Pipeline) Date generale de conversație | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Marathi_MA | marathi | Marathi (În conductă) | mr_IN | Media Audio | 40 | Marathi (In Pipeline) Date audio media | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Mexican_SM_48 | Spaniolă (Mexic) | Spaniolă (Mexic) | ro-MX | 48 kHz | Monolog scenariu | 1,492 | Monolog cu scenariu mexican spaniol | Înregistrări cu un singur rostire, care tind să se încadreze în intervalul de la 5 la 30 de secunde | Mono | Mobile App | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 1016 Bărbat 1069 Necunoscut 95 | Contact | |
Olanda_SM_48 | Olandeză | Olandeză | nl-NL | 48 kHz | Monolog scenariu | 1,205 | Monolog cu scenariu olandez | Înregistrări cu un singur rostire, care tind să se încadreze în intervalul de la 5 la 30 de secunde | Mono | Mobile App | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 1285 Bărbat 531 Necunoscut 3 | Contact | |
New York English_CC_8 | New York engleză | New York engleză | ro_ | 8 kHz | Call center | 103 | New York English Date call-center | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 610, Bărbat 532, Necunoscut 0 | Contact | |
New York English_GC_8 | New York engleză | New York engleză | ro_ | 8 kHz | Conversație generală | 107 | Date despre conversația generală în limba engleză din New York | Conversație telefonică fără scenariu între două persoane. Aproximativ. Durata audio (interval) - 15-60 de minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 118, Bărbat 114, Necunoscut 0 | Contact | |
New York English_MA_16 | New York engleză | New York engleză | ro_ | 16 kHz | Media Audio | 140 | Date audio New York English Media | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 66, Bărbat 230, Necunoscut 11 | Contact | |
Noua Zeelandă_GC_8 | engleză din Noua Zeelandă | engleză din Noua Zeelandă | ro_NZ | 8 kHz | Conversație generală | 148 | Date de conversație generală în limba engleză din Noua Zeelandă | Conversație telefonică fără scenariu între două persoane. Aproximativ. Durata audio (interval) - 15-60 de minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 167, bărbat 121, Necunoscut 4 | Contact | |
Noua Zeelandă_MA_16 | engleză din Noua Zeelandă | engleză din Noua Zeelandă | ro_NZ | 16 kHz | Media Audio | 400 | Audio media engleză din Noua Zeelandă | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 367, bărbat 678, Necunoscut 26 | Contact | |
Oriya_CC_8 | oriya | Oriya (În conductă) | sau_IN | Call center | 60 | Oriya (In Pipeline) Datele Call Center | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Oriya_GC | oriya | Oriya (În conductă) | sau_IN | Conversație generală | 100 | Oriya (In Pipeline) Date generale de conversație | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Oriya_MA | oriya | Oriya (În conductă) | sau_IN | Media Audio | 40 | Oriya (In Pipeline) Date audio media | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
poloneză_MA_16 | Poloneză | Poloneză | pl_PL | 16 kHz | Media Audio | 269 | Audio media poloneză | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 173 Bărbat 354 Necunoscut 6 | Contact | |
poloneză Polonia_SM_48 | Poloneză (Polonia) | Poloneză (Polonia) | pl-PL | 48 kHz | Monolog scenariu | 1,482 | Polonia poloneză - Monolog scenariu | Înregistrări cu un singur rostire, care tind să se încadreze în intervalul de la 5 la 30 de secunde | Mono | Mobile App | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 1324 Bărbat 701 Necunoscut 24 | Contact | |
Punjabi_CC_8 | Punjabi | Punjabi (În conductă) | Punjabi | Call center | 60 | Punjabi (In Pipeline) Date call-center | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Punjabi_GC | Punjabi | Punjabi (În conductă) | Punjabi | Conversație generală | 100 | Punjabi (In Pipeline) Date generale de conversație | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Punjabi_MA | Punjabi | Punjabi (În conductă) | Punjabi | Media Audio | 40 | Punjabi (In Pipeline) Date audio media | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Russian_SM_48 | Rusă | Rusă | ru-ru | 48 kHz | Monolog scenariu | 2,398 | Monolog cu scenariu rusesc | Înregistrări cu un singur rostire, care tind să se încadreze în intervalul de la 5 la 30 de secunde | Mono | Mobile App | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 1689 Bărbat 1937 Necunoscut 214 | Contact | |
Scottish_GC_8 | scoțian (accent englezesc) | scoțian (accent englezesc) | ro_AB | 8 kHz | Conversație generală | 292 | Date despre conversația generală din Scoția | Conversație telefonică fără scenariu între două persoane. Aproximativ. Durata audio (interval) - 15-60 de minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 285, Bărbat 260, Necunoscut 3 | Contact | |
Singapore_CC_8 | Singapore engleză | Singapore engleză | ro_SG | 8 kHz | Call center | 218 | Date din centrul de apeluri din Singapore | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 2139, Bărbat 884, Necunoscut 21 | Contact | |
Singapore_MA_16 | Singapore engleză | Singapore engleză | ro_SG | 16 kHz | Media Audio | 247 | Date audio Singapore Media | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 160, Bărbat 455, Necunoscut 37 | Contact | |
engleză sud-africană_CC_8 | engleză sud-africană | engleză sud-africană | ro_ZA | 8 kHz | Call center | 261 | Datele centrului de apel în engleză din Africa de Sud | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 1274 , Bărbat 935 , Necunoscut 1 | Contact | |
engleză sud-africană_MA_16 | engleză sud-africană | engleză sud-africană | ro_ZA | 16 kHz | Media Audio | 251 | Date audio media engleză din Africa de Sud | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 235, Bărbat 432, Necunoscut 36 | Contact | |
Swahili_CC_8 | Swahili | Swahili | sw_KE | 8 kHz | Call center | 230 | Datele call-centerului swahili | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 611, Bărbat 833, Necunoscut 0 | Contact | |
Swahili_MA_16 | Swahili | Swahili | sw_KE | 16 kHz | Media Audio | 265 | Date audio Swahili Media | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 118, Bărbat 493, Necunoscut 25 | Contact | |
suedeză_CC_8 | Suedeză | Suedeză | sv_SE | 8 kHz | Call center | 250 | Datele call-centerului suedez | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 1581, bărbat 727, Necunoscut 2 | Contact | |
suedeză_MA_16 | Suedeză | Suedeză | sv_SE | 16 kHz | Media Audio | 278 | Date audio media suedeză | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 195, bărbat 500, Necunoscut 21 | Contact | |
Tamil_CC_8 | tamil | Tamil (În conductă) | ta_IN | Call center | 60 | Date din call-center tamil (în conductă). | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Tamil_GC | tamil | Tamil (În conductă) | ta_IN | Conversație generală | 100 | Tamil (In Pipeline) Date generale de conversație | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Tamil_MA | tamil | Tamil (În conductă) | ta_IN | Media Audio | 40 | Tamil (In Pipeline) Date audio media | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Telugu_GC_8 | telugu | telugu | te_IN | 8 kHz | Conversație generală | 553 | Telugu General Conversation date | Conversație telefonică fără scenariu între două persoane. Aproximativ. Durata audio (interval) - 15-60 de minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 574, Bărbat 564, Necunoscut 0 | Contact | |
Telugu_MA_16 | telugu | telugu | te_IN | 16 kHz | Media Audio | 648 | Date audio Telugu Media | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 207, Bărbat 963, Necunoscut 2 | Contact | |
Telugu_CC_8 | telugu | Telugu (În conductă) | te_IN | Call center | 30 | Telugu (In Pipeline) Date call-center | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Telugu_GC | telugu | Telugu (În conductă) | te_IN | Conversație generală | 50 | Telugu (In Pipeline) Date generale de conversație | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Telugu_MA | telugu | Telugu (În conductă) | te_IN | Media Audio | 20 | Telugu (In Pipeline) Date audio media | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Contact | ||||
Thai_GC_8 | Thailandeză | Thailandeză | th_TH | 8 kHz | Conversație generală | 183 | Conversație generală thailandeză | Conversație telefonică fără scenariu între două persoane. Aproximativ. Durata audio (interval) - 15-60 de minute, un registru informal folosit între prieteni | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 338, Bărbat 96, Necunoscut 8 | Contact | |
Thai_MA_8 | Thailandeză | Thailandeză | th_TH | 16 kHz | Media Audio | 173 | Audio media thailandez | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 143, Bărbat 502, Necunoscut 26 | Contact | |
Turcia Turcia_SM_48 | Turcia turcească | Turcia turcească | tr-TR | 48 kHz | Monolog scenariu | 2,027 | Turcia turcească | Înregistrări cu un singur rostire, care tind să se încadreze în intervalul de la 5 la 30 de secunde | Mono | Mobile App | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 1561 Bărbat 1241 Necunoscut 31 | Contact | |
vietnameză_GC_8 | Vietnameză | Vietnameză | vi_VN | 8 kHz | Conversație generală | 295 | Date de conversație generală vietnameză | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, nord (de exemplu, Hanoi), centru și sud (de exemplu, orașul Ho Chi Minh). | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 400, bărbat 380, Necunoscute 2 | Contact | |
vietnameză_MA_16 | Vietnameză | Vietnameză | vi_VN | 16 kHz | Media Audio | 257 | Date audio media vietnameze | Fișiere audio/video din domeniul public cu licență, cum ar fi interviuri, podcasturi etc. - 1 până la 5 persoane. Aproximativ. Durata audio (interval) 15-60 minute | Mono | Web Sourcing | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 249, bărbat 200, Necunoscute 45 | Contact | |
Welsh_GC_8 | Welsh (accent englezesc) | Welsh (accent englezesc) | ro_WL | 8 kHz | Conversație generală | 278 | Date despre conversația generală galeză | Conversație telefonică sintetică, fără scenariu, între „agent” și „client”, aprox. Durata audio (interval) 5-15 minute, | Dual | Desktop | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Femeie 270, Bărbat 324, Necunoscut 0 | Contact | |
UK English_WW_16 | Marea Britanie | Marea Britanie | ro_uk | 16 kHz | Wake Word | Difuzoarele 200 | Wake Word engleză britanică | fraze cheie colectare de date
| canal 1 | Mobile App | 5.0 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Sex: 50% bărbați, 50% femei, +/- 10%. | Contact |
Servicii oferite
Colectarea expertă a datelor audio nu este completă pentru setări AI complete. La Shaip, puteți chiar să luați în considerare următoarele servicii pentru a face modelele mult mai răspândite decât de obicei:
Colectarea datelor text
Servicii
Adevărata valoare a serviciilor de colectare a datelor cognitive Shaip este că oferă organizațiilor cheia pentru a debloca informațiile critice găsite în datele nestructurate.
Servicii de colectare a datelor de imagine
Asigurați-vă că modelul dvs. de viziune computerizată identifică fiecare imagine cu acuratețe, pentru a antrena fără probleme modelele AI de nouă generație ale viitorului
Servicii de colectare a datelor video
Acum concentrați-vă pe viziunea computerizată împreună cu NLP pentru a vă antrena modelele pentru a identifica obiectele, indivizii, elementele de descurajare și alte elemente vizuale la perfecțiune
Resurse recomandate
Oferind
Adnotare audio pentru AI inteligente
Serviciile de adnotare audio au fost un punct forte al Shaip încă de la început. Dezvoltați, antrenați și îmbunătățiți IA conversațională, chatbot și motoare de recunoaștere a vorbirii cu serviciile noastre de ultimă generație de adnotare audio.
Ghidul cumpărătorului
Ghidul cumpărătorului: Ghid complet pentru IA conversațională
Chatbot-ul cu care ați conversat rulează pe un sistem AI conversațional avansat, care este antrenat, testat și construit folosind tone de seturi de date de recunoaștere a vorbirii.
Catalog de date
Catalog de date despre vorbire de la raft și licențiere
Există o mare varietate de aplicații comune pentru datele de vorbire în proiectele AI. Vă oferim cantități mari de date de înaltă calitate pregătite pentru recunoașterea vocii.
Doriți să vă construiți propriul set de date audio?
Conectați-vă cu expertul nostru intern în colectarea datelor despre vorbire pentru a configura un depozit audio care se potrivește cel mai bine cerințelor dvs
Întrebări frecvente (FAQ)
Colectarea datelor de vorbire pentru un model ML se referă la procesul de colectare a înregistrărilor audio ale limbajului vorbit. Această colecție ajută la formarea și perfecționarea algoritmilor de învățare automată, în special a celor centrați pe înțelegerea și procesarea vocilor umane.
Când doriți să colectați date audio pentru recunoașterea automată a vorbirii (ASR), ar trebui să începeți prin a defini nevoile specifice ale proiectului, inclusiv limba dorită, accentul și tipul de vorbire. După setarea acestor parametri, asigurați-vă că obțineți toate permisiunile necesare pentru a respecta confidențialitatea utilizatorului. Apoi, utilizați dispozitive de înregistrare sau software adecvate pentru a captura mostre audio clare. Fiecare înregistrare ar trebui să fie adnotată meticulos cu transcrierea sau alte metadate pertinente și stocată sistematic pentru acces fără efort.
Un set de date de vorbire în învățarea automată este esențial pentru formarea, testarea și validarea modelelor adaptate pentru a recunoaște, transcrie sau interpreta limbajul vorbit. Astfel de seturi de date deschid calea pentru o multitudine de aplicații, de la asistenți vocali și servicii de transcriere până la biometrie vocală.
Pentru a colecta date precise din diverse limbi și accente, este vitală colaborarea cu vorbitori nativi din mediul lingvistic dorit. Urmăriți un eșantion variat și reprezentativ pentru a acoperi un spectru larg de nuanțe demografice. Folosiți echipamente de înregistrare standardizate în medii uniforme pentru a asigura consistența audio. Și, important, adnotă fiecare bucată de date cu transcripții și metadate detaliate, indicând limba și accentul specific.