Deschideți seturi de date
Descoperiți seturi de date open source care vă fac să pregătiți modele ML
Seturi de date open source pentru a începe cu modelele AI/ML
Rezultatele modelelor dvs. AI și ML sunt la fel de bune ca și datele pe care le utilizați pentru a le antrena – așa că precizia pe care o aplicați agregarii datelor și etichetarea și identificarea acestor date este importantă!
Deci, dacă doriți să începeți o nouă inițiativă AI/ML și acum vă dați seama rapid că găsirea de date de instruire de înaltă calitate va fi unul dintre cele mai provocatoare aspecte ale proiectului dvs., deoarece seturile de date de înaltă calitate sunt combustibilul care menține AI/ML. Motorul ML pornește. Am acumulat o listă de seturi de date deschise care pot fi utilizate și antrenate gratuit pentru modelele tale AI/ML ale viitorului.
| Specializare | Tipul de date | Numele setului de date | Industrie / Dept. | Adnotare/caz de utilizare | Link |
|---|---|---|---|---|---|
| +PNL | Text | Recenzii Amazon | E-commerce | Analiza sentimentelor | Link |
| Descriere | Un set de 35 de milioane de recenzii și evaluări din ultimii 18 ani în text simplu, cu detalii despre utilizator și despre produs. | ||||
| +PNL | Text | Wikipedia leagă date | General | Link | |
| Descriere | Peste 4 milioane de articole care conțin 1.9 miliarde de cuvinte de pe Wikipedia. Fiecare articol conține hyperlinkuri către entitatea asociată. | ||||
| +PNL | Text | Standford Sentiment Treebank | Divertisment | Analiza sentimentelor | Link |
| Descriere | Set de date cu adnotări de sentimente pentru peste 10,000 de propoziții din recenziile de filme Rotten Tomatoes. Disponibil la nivel de frază - fiecare propoziție este analizată în subfraze prin binarizarea arborilor de analiză în formatul Penn Treebank. | ||||
| +PNL | Text | Twitter US Airline Sentiment | linie aeriană | Analiza sentimentelor | Link |
| Descriere | Tweet-urile din 2015 despre US Airlines s-au bifurcat în sentimente pozitive, neutre și negative. | ||||
| +CV | Imagine | Imagenet | General | Link | |
| Descriere | Set de date cu peste 14 milioane de imagini în diverse formate de fișiere, mapate la aproximativ 21,000 de synseturi. Synseturile sunt sinonime cu entități asociate prezente ca o imagine. 1 milion de imagini au casete de încadrare, iar peste 1 milion de imagini au caracteristici SIFT. | ||||
| +CV | Imagine | Imagini deschise de la Google | General | Link | |
| Descriere | Un set de date similar cu ImageNet cu 600 de categorii. Disponibil în diviziuni de dezvoltare, validare și antrenament. Unele imagini includ și casete de încadrare și relații vizuale. | ||||
| +PNL | Text | Dialoguri de film Cornell | Divertisment | Dialoguri | Link |
| Descriere | O colecție de conversații fictive, cu metadate ale personajelor și filmelor. Fiecare rând este un dialog între două persoane, într-un format de întrebare-răspuns. | ||||
| Descriere | Un set de date cu întrebări și răspunsuri de pe portalul Yahoo Answers între aprilie 2007 și octombrie 2007. | ||||
| +PNL | Text | Dna MARCO | General | Răspuns la întrebare | Link |
| Descriere | Un set de date întrebări-răspunsuri cu adnotări din jurnalele de căutare web ale Bing. Fiecare întrebare conține un răspuns furnizat de un utilizator, precum și pasaje web care conțin răspunsul. | ||||
| +PNL | Text | Set de date cu întrebări naturale | General | Răspuns la întrebare | Link |
| Descriere | Lansat de Google, acest set de date conține interogări și răspunsuri reale ale utilizatorilor din articole Wikipedia. | ||||
| +PNL | Text | DBPedia | General | Graficul de cunoștințe | Link |
| Descriere | O redare structurată a Wikipedia, cu entități și relații extrase ca un grafic de cunoștințe. | ||||
| +PNL | Text | YAGO | General | Graficul de cunoștințe | Link |
| Descriere | Un graf de cunoștințe care conține entități și relații de pe Wikipedia, WordNet și GeoNames. | ||||
| +PNL | Text | FreeBase | General | Graficul de cunoștințe | Link |
| Descriere | O bază de cunoștințe generată prin crowdsourcing, formată din entități și relații, acum încorporată în graficul de cunoștințe Google. | ||||
| +PNL | Text | Ontonotes | General | Etichetarea semantică a rolurilor | Link |
| Descriere | Un corpus cu adnotări sintactice, semantice și la nivel de discurs utilizate în sarcinile partajate CoNLL. | ||||
| +PNL | Text | CoNLL 2003 | General | Recunoașterea entității denumită | Link |
| Descriere | Un set de date în limba engleză adnotat pentru entități denumite, cum ar fi persoană, organizație și locație. | ||||
| +CV | Imagine | NUCĂ DE COCOS | General | Detectarea obiectelor | Link |
| Descriere | Obiecte comune în context: un set de date bogat adnotat pentru detectarea, segmentarea și subtitrarea obiectelor. | ||||
| +CV | Imagine | PASCAL VOC | General | Detectarea obiectelor | Link |
| Descriere | Un set de date de referință pentru provocările legate de detectarea și segmentarea obiectelor. | ||||
| +CV | Imagine | Peisaje urbane | Conducere autonomă | Segmentarea semantică | Link |
| Descriere | Set de date pentru înțelegerea scenei urbane cu adnotări la nivel de pixel pentru 30 de clase. | ||||
| +CV | Imagine | MNIST | General | Clasificarea cifrelor | Link |
| Descriere | Set de date cu cifre scrise de mână, cu 60,000 de imagini de antrenament și 10,000 de imagini de test de 28x28 pixeli. | ||||
| +CV | Imagine | Moda-MNIST | Retail | Clasificarea imaginilor | Link |
| Descriere | Set de date cu imagini din articolele Zalando în același format ca MNIST, folosit ca înlocuitor drop-in pentru benchmarking. | ||||
| +PNL | Audio | LibriSpeech | General | ASR | Link |
| Descriere | Un corpus de vorbire citită în limba engleză, derivat din cărți audio, cu 1000 de ore de vorbire și texte asociate. | ||||
| +PNL | Audio | TED-LIUM | General | ASR | Link |
| Descriere | Transcrieri TED cu audio și transcrieri aliniate pentru cercetarea recunoașterii vorbirii. | ||||
| +PNL | Audio | TIMIT | General | Recunoașterea fonemelor | Link |
| Descriere | Vorbire transcrisă fonetic a vorbitorilor de engleză americană, utilizată pe scară largă pentru sarcini de recunoaștere a fonemelor. | ||||
| +PNL | Audio | Vocea obișnuită | General | ASR | Link |
| Descriere | Un corpus multilingv de vorbire citită, contribuit de voluntari din întreaga lume. | ||||
| +PNL | Audio | VoxCeleb | General | Recunoașterea vorbitorilor | Link |
| Descriere | Un set de date de identificare a vorbitorilor la scară largă, colectat din videoclipuri YouTube. | ||||
| +PNL | Text | Dump-ul Wikipedia | General | Modelarea limbajului | Link |
| Descriere | Dump-uri integrale ale articolelor Wikipedia, actualizate periodic, utilizate pentru pre-antrenarea modelelor lingvistice. | ||||
| +PNL | Text | Gigaword | Ştiri | Modelarea limbajului | Link |
| Descriere | O arhivă cuprinzătoare de date text de la mai multe agenții de știri. | ||||
| +PNL | Text | Recenzii IMDB | Divertisment | Analiza sentimentelor | Link |
| Descriere | Set mare de date cu recenzii de filme pentru clasificarea binară a sentimentelor. | ||||
| +CV | Video | Cinetica-700 | General | Recunoașterea acțiunii | Link |
| Descriere | Un set de date de înaltă calitate și la scară largă, cu videoclipuri YouTube care acoperă 700 de clase de acțiuni umane. | ||||
| +CV | Video | UCF101 | General | Recunoașterea acțiunii | Link |
| Descriere | Un set de date cu videoclipuri de acțiune realiste, cu 101 categorii de acțiune. | ||||
| +CV | Video | HMDB51 | General | Recunoașterea acțiunii | Link |
| Descriere | O bază de date extinsă de videoclipuri cu mișcare umană, cu 51 de categorii de acțiune. | ||||
| Descriere | O bază de date cu fotografii faciale concepută pentru studierea recunoașterii faciale fără restricții. | ||||
| +CV | Imagine | CASIA-WebFace | General | Face Recognition | Link |
| Descriere | Un set de date cu milioane de imagini faciale pentru antrenarea modelelor de recunoaștere facială profundă. | ||||
| +PNL | Text | Echipă | General | Citirea înțelegerii | Link |
| Descriere | Set de date Stanford Question Answering: întrebări puse de crowdworkeri pe un set de articole Wikipedia. | ||||
| Descriere | Un set de date de înțelegere automată cu întrebări și răspunsuri bazate pe articole de știri CNN. | ||||
| +PNL | Text | MultiNLI | General | Inferența limbajului natural | Link |
| Descriere | Un set de date pentru inferența limbajului natural bazată pe perechi de propoziții în mai multe genuri. | ||||
| +PNL | Text | SNLI | General | Inferența limbajului natural | Link |
| Descriere | Corpus de inferență a limbajului natural Stanford cu perechi de propoziții etichetate ca implicări, contradicții sau neutre. | ||||
| Descriere | O colecție de peste 100 de milioane de token-uri extrase din setul de articole verificate, de categoria Bună și Recomandate, de pe Wikipedia. | ||||
| Descriere | Un set de date cu 16,185 de imagini a 196 de clase de mașini. | ||||
| +CV | Imagine | Flori Oxford 102 | botanică | Clasificare fină | Link |
| Descriere | 102 categorii de flori întâlnite frecvent în Regatul Unit. | ||||
| +CV | Imagine | CIFAR-10 | General | Clasificarea imaginilor | Link |
| Descriere | Imagini a 10 clase: avion, automobil, pasăre, pisică, cerb, câine, broască, cal, navă și camion. | ||||
| +CV | Imagine | CIFAR-100 | General | Clasificarea imaginilor | Link |
| Descriere | Un set de date similar cu CIFAR-10, dar cu 100 de clase cu granulație fină. | ||||
| +CV | Imagine | Aspectul persoanei VOC | General | Estimarea pozitiei | Link |
| Descriere | Parte a PASCAL VOC axată pe adnotările de aspect ale persoanelor, cum ar fi capul, mâinile și picioarele. | ||||
| +CV | Imagine | Poziția umană MPII | General | Estimarea pozitiei | Link |
| Descriere | Aproximativ 25,000 de imagini care conțin peste 40,000 de persoane cu articulații corporale adnotate. | ||||
| Descriere | Colecție de articole de știri Reuters pentru cercetarea clasificării textului. | ||||
| +PNL | Text | 20 de grupuri de știri | General | Clasificarea textului | Link |
| Descriere | O colecție de 20,000 de documente de grupuri de știri, împărțite în 20 de grupuri de știri diferite. | ||||