Acum Ia 50% REDUCERE* pe seturi de date AI conversaționale disponibile
Set de date vocale și audio pentru chatboți, asistenți vocali, dispozitive activate pentru vorbire.
*Ofertă pe perioadă limitată
Liderii din industrie au încredere
Detalii | Cuvânt cheie | Set de date de limbă disponibil la raft | Conversații din call center 8khz* | Conversații generice 8khz* | Media și podcasturi 16 kHz* | Enunț/Monolog scenariu 16 kHz* | Volumul total în ore | Dialecte acoperite | Format audio | Format de transcriere text | Utilizare caz | Sursă | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
afrikaans | Setul de date audio africană | 600 | 900 | 1500 | Afrikaans vorbit în Africa | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | |||
Arabă | Setul de date audio arabe | 800 | 1500 | 2300 | arabă din țările din Golf | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | |||
Chineză | Setul de date audio chinezesc | 2000 | 2000 | Chineză din China | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||||
daneză | Setul de date audio danez | 400 | 600 | 2000 | 3000 | danez din Danemarca | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||
Olandeză | Set de date audio olandez | 2000 | 2000 | olandeză din Olanda | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||||
engleză - AAVE Accent | Engleză - Set de date audio AAVE (engleză vernaculară afro-americană). | 500 | 500 | 1000 | Varietatea vernaculară (uneori cunoscută sub numele de AAVE, vorbită în mod obișnuit de marea majoritate a afro-americanilor din clasa muncitoare și de mijloc) și varietatea mai standard (vorbită de obicei de afro-americani din clasa de mijloc în situații formale și publice), dar cu un accent mai puternic pe limba populară. | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | |||
Engleză - Boston/New York Accent | Engleză - Set de date audio Boston/New York | 225 | 225 | 350 | 800 | Aceasta este o colecție de mai multe accente regionale vorbite în și în jurul orașelor Boston, New York și Philadelphia. Aceste accente ar putea suna similar cu non-localnici, dar distincte de alte accente americane. În ciuda unui vocabular local care este diferit de alte părți ale lumii vorbitoare de engleză, aceste accente sunt reciproc inteligibile cu engleza vorbită în altă parte. | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||
engleză - accent chinezesc | Engleză - set de date audio cu accent chinezesc | 150 | 300 | 450 | Vorbitori care vorbesc limba chineză ca primă limbă și care s-au mutat/au imigrat în Statele Unite ca adolescenți/adulti și au învățat engleza ca a doua limbă. | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | |||
Engleză - Accent de sud adânc | Engleză - Deep South Audio Dataset | 275 | 275 | 450 | 1000 | Vorbitori din (i) Texas; (ii) Carolina de Nord, Carolina de Sud, Georgia; (iii) New Orleans; (iv) Florida Panhandle; (v) Tennessee, Arkansas, Michigan. | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||
engleză - accent hispanic | Engleză - set de date audio cu accent hispanic | 400 | 400 | 800 | Engleza hispanică se referă la varietățile de engleză americană vorbite de americanii hispanici de moștenire națională diversă. Accentul principal a fost pus pe mexicano-americani, vorbitori de diferite origini naționale (de exemplu, Mexic, Puerto Rico, Republica Dominicană, Ecuador, Cuba etc.) și din diferite regiuni (de exemplu, California, New York, Florida). Au fost incluși vorbitori care vorbesc spaniola ca primă limbă, precum și vorbitorii de origine hispanica care vorbesc spaniola are o limbă de moștenire. | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | |||
Engleză - Accent Noua Zeelandă | Engleză - Setul de date audio din Noua Zeelandă | 250 | 750 | 1000 | Difuzoare pe ambele insule, inclusiv un amestec de vorbitori mai tineri (<40 de ani) și vorbitori mai în vârstă (>40 de ani) în proporții egale. | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | |||
engleză - Singapore Accent | Engleză - Singapore Audio Dataset | 400 | 600 | 1000 | Atât engleza standard Singapore, cât și engleza colocvială Singapore. Singaporeeni de diferite origini etnice (de exemplu, chinezi, malay, indieni etc.) și de diferite niveluri educaționale. | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | |||
Engleză - Africa de Sud Accent | Engleză - Africa de Sud Audio Dataset | 400 | 600 | 1000 | Reprezentanți din diferite clase socioeconomice și medii etnologice (de exemplu, sud-africani de origine europeană, africană, indiană sau mixtă). | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | |||
engleză - accent irlandez | Engleză - Setul de date audio irlandez | 500 | 500 | Engleza vorbita in Irlanda | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||||
engleză - accent scoțian | Engleză - Scottish Audio Dataset | 800 | 800 | Engleza vorbită de scoțian | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||||
engleză - accent galez | Engleză - Welsh Audio Dataset | 800 | 800 | engleza galeza | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||||
canadian francez | Set de date audio canadian francez | 1000 | 1000 | Franceză canadiană | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||||
ebraică | Set de date audio ebraică | 750 | 750 | 1500 | ebraică în Israel | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | |||
Indoneziană | Setul de date audio indonezian | 1000 | 1000 | 2000 | Bahasa indoneziană | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | |||
Japonez | Set de date audio japoneză | 2000 | 2000 | Japonez din Japonia | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||||
Coreeană | Setul de date audio coreeană | 100 | 200 | 1500 | 1800 | Vorbitorii s-au răspândit în toată Coreea de Sud. | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||
malaezian | Setul de date audio malaeză | 500 | 500 | 1000 | Malay în Malaezia | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | |||
Spaniolă mexicană | Set de date audio mexican spaniol | 1250 | 1250 | Mexican din Mexic | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||||
Poloneză | Setul de date audio polonez | 250 | 2000 | 2250 | polonez din Polonia | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | |||
Rusă | Setul de date audio rusesc | 2000 | 2000 | rusă din Rusia | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||||
Swahili | Set de date audio swahili | 350 | 650 | 1000 | Swahili din Africa de Sud și Kenya | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | |||
Suedeză | Setul de date audio suedez | 350 | 650 | 1000 | suedeză în Suedia | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | |||
Chineză din Taiwan | Setul de date audio chinezesc din Taiwan | 1000 | 1000 | Chineză din Taiwan | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||||
Thailandeză | Set de date audio thailandez | 350 | 450 | 800 | Un registru informal folosit între prieteni, | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | |||
Turcă | Set de date audio turc | 2000 | 2000 | turcesc din Turcia | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||||
Vietnameză | Set de date audio vietnamez | 600 | 400 | 1000 | Nord (de exemplu, Hanoi), Centru și Sud (de exemplu, Ho Chi Minh City). | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | |||
hindi | Setul de date audio hindi | 800 | 2000 | 2800 | Hindi în India, în special în regiunile de nord, est și vest | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | |||
hinglish | Setul de date audio din engleză indiană | 300 | 500 | 800 | Colectat din orașele indiene urbane care sunt centre financiare ale țării datorită oportunităților economice în creștere. Astfel de locuri pot fi Noida, Delhi, Dehradun, Chandigarh, Mumbai, Kolkata, Bangalore, Pune, Chennai, Hyderabad etc. | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | |||
Engleză | Setul de date audio în engleză | 700 | 700 | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | |||||
kannada | Setul de date audio Kannada | 60 | 100 | 40 | 200 | Kannada din Karnataka, India | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||
malayalam | Setul de date audio malayalam | 60 | 100 | 40 | 200 | Malayalam din Kerala, Lakshadweep și Puducherry | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||
oriya | Setul de date audio Oriya | 60 | 100 | 40 | 200 | Oriya din părți din Odisha, Bengalul de Vest, Jharkhand și Chhattisgarh | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||
Punjabi | Set de date audio punjabi | 60 | 100 | 40 | 200 | Punjabi din Punjab, India | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||
tamil | Set de date audio tamil | 60 | 100 | 240 | 400 | Tamil din Tamil Nadu, India | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||
telugu | Set de date audio telugu | 100 | 950 | 950 | 2000 | Telugu din Andhra Pradesh, India | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||
bengaleză | Setul de date audio bengalezi | 60 | 100 | 40 | 200 | Bengali din Bengalul de Vest, India | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||
Gujarati | Set de date audio gujarati | 60 | 100 | 40 | 200 | Gujarati din Gujarat, India | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||
marathi | Setul de date audio marathi | 60 | 100 | 40 | 200 | Marathi din Maharashtra, India | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact | ||
Assameză | Set de date audio assameză | 60 | 100 | 40 | 200 | Assameze din Assam, India | .wav | .json | ASR, Asistent virtual, Chatbot, IA conversațională, Analiza vorbirii, TTS, Modelare lingvistică | Shaip | Contact Contact |
Expertiză profundă în IA conversațională
AI conversațional sau chatbot-urile sau asistenții virtuali/digitali sunt la fel de inteligenți ca tehnologia și datele din spatele lor. La Shaip, vă oferim un set larg de date audio diversificate pentru procesarea limbajului natural (NLP) care imită conversațiile cu oameni reali, ceea ce vă permite să vă aduceți AI la viață. Cu înțelegerea noastră profundă, vă ajutăm să construiți și să localizați modele de vorbire activate AI, cu cea mai mare precizie, cu seturi de date bogate și structurate în mai multe limbi de pe tot globul. Oferim servicii de colectare audio, transcriere audio și adnotare audio în mai multe limbi în funcție de cerințele dvs., personalizând în același timp intenția, enunțurile și distribuția demografică dorite.
Colecție de discursuri scriptate
Culegere Spontaneous Speech
Transcrierea datelor audio
Etichetarea și adnotarea datelor
Shaip vă permite să vă antrenați cu precizie Platforma AI conversațională, astfel încât să poată:
- Vorbește, trimite mesaje și chat fără probleme pe mai multe canale.
- Învață din interacțiunile existente sub formă de chat, transcrieri vocale, tranzacții etc. și sugerează și conversa, pe baza acestor învățături.
- Înțelegeți intenția din spatele vorbirii umane și eliminați ambiguitatea în înțelegerea limbajului uman.
- Interacționează cu tine în mod individual și poți fi instruit pentru a identifica utilizatorii și a-ți aminti conversațiile anterioare.
Un lider mondial în datele de instruire conversaționale AI
Ore de date audio în peste 100 de limbi – cu sursă, transcrise și adnotate
Licențierea datelor de vorbire
Peste 20 de ore de date despre vorbire în peste 40 de limbi și dialecte care acoperă o gamă de peste 55 de subiecte din diferite domenii, de exemplu, call-center, dezbateri, conversații generale, discursuri, podcasturi etc.
Colectarea datelor de vorbire
Colectați date audio și de vorbire (monolog, conversație cu 2 persoane, chat uman-bot) în peste 100 de limbi din întreaga lume, personalizate conform cerințelor dvs. de AI.
Transcrierea datelor vorbirii
Transcriere audio sau adnotare audio rentabilă printr-o forță de muncă puternică de 30,000 de colaboratori cu TAT, acuratețe și economii garantate
Accelerează-ți dezvoltarea aplicației conversaționale AI cu Audio Collection & Audio Adnotation Services
Avantajul Shaip
Scara
Putem sursa, scala și livra date audio din întreaga lume în mai multe limbi și dialecte, în funcție de cerințele dvs.
Expertiza
Avem expertiza potrivită în ceea ce privește colectarea, transcrierea și adnotarea standard de aur a datelor precise și impartiale.
Reţea
O rețea de peste 30,000 de colaboratori calificați, cărora li se pot atribui rapid sarcini de colectare a datelor pentru a construi modele de instruire AI și servicii de extindere.
Tehnologia
Avem o platformă complet bazată pe inteligență artificială, cu instrumente și procese proprietare, pentru a profita de gestionarea fluxului de lucru 24/7 non-stop.
Agilitate
Ne adaptăm la schimbările cerințelor clienților foarte rapid și ajutăm la accelerarea dezvoltării AI cu date de vorbire de calitate de 5-10 ori mai rapid decât concurența.
Securitate
Acordăm cea mai mare importanță securității și confidențialității datelor și suntem, de asemenea, certificati pentru a gestiona date sensibile foarte reglementate.
Ce facem cel mai bine
Date de instruire
Obțineți date etichetate de cea mai înaltă calitate într-o fracțiune de timp. Este standardul de aur, fiabil și pregătit pentru a vă antrena modelele AI și ML pentru a atinge cele mai înalte niveluri de performanță.
Colectarea datelor, etichetarea și adnotarea
Cu Shaip obțineți peste 15 ani de experiență dovedită în colectarea, transcrierea și adnotarea datelor de calitate. Cu forța noastră de muncă globală, putem colecta date de pe tot globul, apoi oferim servicii de etichetare și adnotare cu nivelul perfect de calificare și expertiză necesare pentru datele dvs.
Cataloage de date și licențiere
Cu inventarul nostru vast de milioane de seturi de date, puteți colecta și organiza după cum este necesar. Putem apoi licenția acele date de calitate pentru cerințele dvs. specifice de utilizare a AI și ML. În plus, aceste date sunt disponibile la o fracțiune din costul dacă ar fi să le creați singur.
Doriți să vă construiți propriul set de date?
Contactați-ne acum pentru a afla cum putem colecta un set de date personalizat pentru soluția dvs. unică de IA.