Deschideți seturi de date

Descoperiți seturi de date open source care vă fac să pregătiți modele ML

Deschideți seturi de date

Seturi de date open source pentru a începe cu modelele AI/ML

Rezultatele modelelor dvs. AI și ML sunt la fel de bune ca și datele pe care le utilizați pentru a le antrena – așa că precizia pe care o aplicați agregarii datelor și etichetarea și identificarea acestor date este importantă!

Deci, dacă doriți să începeți o nouă inițiativă AI/ML și acum vă dați seama rapid că găsirea de date de instruire de înaltă calitate va fi unul dintre cele mai provocatoare aspecte ale proiectului dvs., deoarece seturile de date de înaltă calitate sunt combustibilul care menține AI/ML. Motorul ML pornește. Am acumulat o listă de seturi de date deschise care pot fi utilizate și antrenate gratuit pentru modelele tale AI/ML ale viitorului.

SpecializareTipul de dateNumele setului de dateIndustrie / Dept.Adnotare/caz de utilizareDescriereLink
PNLTextRecenzii AmazonE-commerceAnaliza sentimentelorUn set de 35 de milioane de recenzii și evaluări din ultimii 18 ani în text simplu, cu detalii despre utilizator și despre produs.Link
PNLTextWikipedia leagă dateGeneralMai mult de 4 Mn. articole care conțin 1.9 miliarde. cuvânt care cuprinde cuvinte și expresii, precum și paragrafe.Link
PNLTextStandford Sentiment TreebankDivertismentAnaliza sentimentelorSet de date cu adnotări de sentimente pentru peste 10,000 de recenzii de la Rotten Tomatoes în format de fișier HTMLLink
PNLTextTwitter US Airline Sentimentlinie aerianăAnaliza sentimentelorTweeturile din 2015 de la US Airlines s-au împărțit în tonuri pozitive, negative și neutreLink
CVImagine Fețe etichetate în sălbăticieGeneralRecunoastere facialaSet de date care conține peste 13,000 de fețe decupate cu două imagini diferite pentru antrenamentul de recunoaștere facială.Link
CVVideo, ImagineSet de date UDMFacesGeneralRecunoastere facialaSet de date adnotat care conține peste 367,000 de chipuri de la peste 8,000 de subiecți, care include imagini statice și video.Link
CVImagine ImagenetGeneralSet de date cu peste 14 Mn. imagini în diverse formate de fișiere, organizate conform ierarhiei WordNet.Link
CVImagine Imagini deschise de la GoogleGeneral9 Mn. URL-uri pentru a clasifica imaginile publice din peste 6,000 de categorii.Link
PNLTextBaza de date MIMIC Critical CareFarmaceuticeSeturi de date de fiziologie computațională cu date de-identificate de la 40,000 de pacienți de îngrijire critică. Setul de date conține informații precum date demografice, semne vitale, medicamente etc.Link
CVImagineBiroul Național de Turism și Turism al SUATurismOferă fotografii ample din industria turismului cu baze de date de încredere, care acoperă subiecte precum călătoriile de intrare și ieșire și informații turistice internaționale.Link
PNLTextDepartamentul TransporturilorTurismSeturi de date turistice care includ parcuri naționale, registre ale șoferilor, informații despre poduri și căi ferate etc.Link
PNLAudioCorpus subtitrări audio FlickrGeneralPeste 40 de subtitrări din 8,000 de fotografii concepute pentru modele de vorbire nesupravegheateLink
PNLAudioSet de date comenzi vocaleGeneralRecunoaștere vocală, adnotare audioEnunțuri de 1 secundă de la mii de indivizi, pentru a construi interfața vocală de bază.Link
PNLAudioSeturi de date audio de mediuGeneralSeturi de date audio de mediu care conțin tabele de sunet al evenimentelor și tabele de scene acustice.Link
PNLTextSet de date deschise de cercetare COVID-19 FarmaceuticeAI medicalUn set de date de cercetare constând din 45,000 de articole academice despre COVID-19 și familia de viruși coronavirus.Link
CVImagineSet de date Waymo Open AutomotiveCele mai diverse seturi de date de conducere autonomă lansate de WaymoLink
CVImagineGenomul vizual GeneralSubtitrărea imaginiiO bază de cunoștințe vizuale cu subtitrări detaliate a peste 100 de imaginiLink
CVImagineLabelme Guvernul Public.Set mare de imagini adnotate accesibile prin Labelme MatlabLink
CVImagineBOBINA 100GeneralPeste 100 de obiecte variate fotografiate din mai multe unghiuri (adică 360 de grade)Link
CVImagineSetul de date Stanford DogsGeneralPeste 20,500 de imagini clasificate într-un set de imagini de 120 de rase diferite de câiniLink
CVImagineRecunoașterea scenei de interiorGeneralRecunoașterea sceneiUn set de date specific format din 15620 de imagini din 67 de categorii de interior pentru a construi modele de recunoaștere a sceneiLink
CVImagineVisualQAGeneralUn set de date care include întrebări deschise referitoare la 265,016 fotografii care necesită înțelegerea viziunii și înțelegerea limbajului pentru a răspunde.Link
PNLTextSet de date de analiză a sentimentelor multidomeniuE-commerceAnaliza sentimentelorSet de date care conține recenzii despre produse de la AmazonLink
PNLTextRecenzii IMDBDivertismentAnaliza sentimentelorSet de date care conține 25000 de recenzii de filme pentru analiza sentimentelorLink
PNLTextSentiment140GeneralAnaliza sentimentelorSet de date care conține 160,000 de tweet-uri cu emoticoane pre-eliminate pentru o precizie mai mareLink
PNLTextBlogger CorpusGeneralAnaliza KeypraseSet de date care conține 681,288 de postări pe blog de pe blogger.com, constând din minim 200 de apariții de cuvinte în limba engleză utilizate pe scară largă.Link
PNLTextPrimejdieGeneralInstruire ChatbotSet de date cu peste 200,000 de întrebări care pot fi folosite pentru a antrena modele de învățare automată pentru a răspunde automat inteligentLink
PNLTextColectare SMS-uri spam în englezăTelecomRecunoaștere spamUn set de date de mesaje spam format din 5,574 de SMS-uri în limba englezăLink
PNLTextRecenzii YelpGeneralAnaliza sentimentelorUn set de date cu peste 5 minute de revizuire publicat de YelpLink
PNLTextSpambaza UCIAfacereRecunoaștere spamUn set mare de date de e-mailuri spam, utile pentru filtrarea spamului.Link
CVVideo, ImagineBerkeley DeepDrive BDD100kAutomotiveVehicule autonomeUnul dintre cele mai mari seturi de date pentru IA pentru conducerea autonomă, care conține 1,100 de ore de experiență de conducere în peste 100,000 de videoclipuri din diferite momente ale zilei din zona New York și San Francisco.Link
CVVideovirgulă.aiAutomotiveVehicule autonome Un set de date de conducere pe autostradă de 7 ore constând în informații despre viteza mașinii, accelerația, unghiul de virare și coordonatele GPSLink
CVVideo, ImagineSet de date peisaj urbanAutomotiveEtichetă semantică pentru vehicul autonomUn set de date de 5,000 de adnotări la nivel de pixeli plus un set mai mare de 20,000 de cadre slab adnotate în secvențe video stereo, înregistrate din 50 de orașe diferiteLink
CVImagineKUL Belgium Semn de date de traficAutomotiveVehicule autonomePeste 10000 de adnotări de semne de circulație din regiunea Flandra bazate pe semne de circulație distincte fizic din toată Belgia.Link
CVImagineLISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego DatasetsAutomotiveVehicule autonomeUn set bogat de date care conține semne de circulație, detectarea vehiculelor, semafoare și modele de traiectorie.Link
CVImagineCIFAR-10GeneralRecunoașterea obiectelorUn set de date format din 50,000 de imagini și 10,000 de imagini de testare (adică 60,000 de imagini color 32×32 în 10 clase) pentru recunoașterea obiectelor.Link
CVImagineModa MNISTModăUn set de date de imagine care constă din 60,000 de exemple și un set de testare de 10,000 de exemple în imagini 28×28 în tonuri de gri, asociat cu o etichetă din 10 clase.Link
CVImagineSetul de date IMDB-WikiDivertismentRecunoastere facialaUn set mare de date de imagini faciale cu etichete precum sexul și vârsta. Din totalul de 523,051 de imagini ale feței, 460,723 de imagini sunt obținute de la 20,284 de celebrități de la IMDB și 62,328 de la Wikipedia.Link
CVVideoCinetica-700GeneralPentru fiecare clasă de acțiune, setul de date de înaltă calitate constă din 650,000 de clipuri video și cuprinde 700 de clase de acțiune umană cu cel puțin 600 de clipuri video. Aici, fiecare clip durează aproximativ 10 secunde.Link
CVImagineMS CocoGeneralDetectarea obiectelor, SegmentareaSetul de date conține 328 de imagini și are un total de 2.5 milioane de instanțe și 91 de imagini obiect pentru a antrena modele de ML legate de detectarea, segmentarea și subtitrarea datelor la scară largă a obiectelor.Link
CVImagineSetul de date MPII Human PoseGeneralÎn setul de date sunt incluse aproximativ 25 de fotografii care conțin peste 40 de indivizi cu articulații corporale adnotate, care este utilizat pentru articularea estimării poziției umane. În general, setul de date acoperă 410 activități umane și fiecare imagine este prevăzută cu o etichetă de activitate.Link
CVImagineDeschideți imaginiGeneralAdnotări privind locația obiectuluiSet de date imagine cu aproximativ 9 milioane de imagini adnotate cu etichete la nivel de imagine, casete de delimitare a obiectelor, segmentare a obiectelor etc. Setul de date constă, de asemenea, din 16 milioane. casete de delimitare pentru 600 de clase de obiecte pe imagini de 1.9 milioane.Link
CVVideoApollo Open Platform, de Baidu Inc, ChinaAutomotiveCutie de delimitare, LiDARUn set bogat de date de conducere autonomă, care oferă dezvoltatorilor datele necesare în conducerea autonomă pentru a accelera eficiența iterației inovatoare.Link
CVVideo, ImagineArgo, de la Argo, SUAAutomotiveCutie de delimitare, flux optic, etichetă comportamentală, etichetă semantică, marcare a benziiUn set de date autonom care constă din hărți HD cu metadate geometrice și semantice, adică liniile centrale ale benzii, direcția benzii și zona de rulare. Setul de date este folosit pentru a antrena modele ML, pentru a realiza algoritmi de percepție mai precisi, care vor ajuta vehiculele cu conducere autonomă să navigheze în siguranță.Link
CVVideoSemafoare mici Bosch, de Bosch North America ResearchAutomotiveCasetă de încadrareUn set de date constând din 13427 de imagini ale camerei cu rezoluție 1280*720 pentru a construi un sistem de detectare a semaforului bazat pe viziune. Setul de date are peste 24000 de semafoare adnotate.Link
CVVideoBrain4Cars, de la Cornell University, Statele Unite ale AmericiiAutomotiveEtichetă comportamentalăUn set de date care cuprinde o serie de senzori de cabină (camere, senzori tactili, dispozitive inteligente etc.) pentru a extrage statistici utile despre vigilența șoferului. Algoritmii noștri pot detecta șoferii care sunt somnolenți sau distrași și pot stimula alarmele necesare pentru a îmbunătăți protecția.Link
CVImagineCULane, de către Univ. din Hong Kong, Beijing, ChinaAutomotiveMarcajul benziiUn set de date Computer Vision privind detectarea benzilor de circulație, constând din 55 de ore de videoclipuri din care au fost extrase 133,235 (88880 set de antrenament, 9675 set de validare și 34680 set de testare). Este colectat de camere montate pe șase vehicule diferite conduse de diferiți șoferi în Beijing.Link
CVVideoDAVIS, de Univ. din Zurich, ETH ¨ Zurich, Germania, ElvețiaAutomotiveUn set de date de antrenament pentru conducerea vehiculelor de la capăt la capăt care utilizează un eveniment DAVIS + cameră cadru. Datele auto, cum ar fi direcția, accelerația, GPS-ul etc. sunt folosite pentru a evalua fuziunea datelor cadru și evenimente pentru aplicațiile auto.Link
CVVideoDBNet, de la Shanghai Jiao Tong Univ.,Xiamen Univ., ChinaAutomotiveNor de puncte, LiDARDate reale de condus de 1000 km, care includ video aliniat, nor de puncte, GPS și comportamentul șoferului pentru cercetări aprofundate asupra comportamentului de conducere.Link
CVVideoDr(ochi)ve, de Univ. din Modena și Reggio Emilia, Modena, ItaliaAutomotiveEtichetă comportamentalăSet de date care conține 74 de secvențe video a câte 5 minute fiecare, care au fost adnotate în peste 500,000 de cadre. Setul de date constă din locații geo-referențiate, viteză de conducere, curs și, de asemenea, etichete fixările privirii șoferilor și integrarea lor temporală, oferind hărți specifice sarcinilor.Link
CVVideoETH Pedestrian (2009), de ETH Zurich, Zurich, ElvețiaGeneralCasetă de încadrareUn set de date de 74 de secvențe video a câte 5 minute fiecare, adnotate în peste 500,000 de cadre. Setul de date oferă poziții georeferențiate, viteza de conducere, direcția și, de asemenea, etichetează fixarea privirii pentru șoferi și integrarea lor temporală, inclusiv hărți specifice sarcinilor.Link
CVVideoFord (2009), de Univ. din Michigan, Michigan, SUAAutomotiveCutie de delimitare, , LiDARUn set de date compilat de un vehicul terestru automat înarmat cu un scaner lidar 3D Velodyne, două lidare Rieg cu mătură de împingere, o unitate de măsurare inerțială (IMU) tehnică și de consum și un sistem de cameră omnidirecțională Point Grey Ladybug3.Link
CVVideoHCI Challenging Stereo, Bosch Corporation Research, Hildesheim, GermaniaGeneralUn set de date de câteva milioane de cadre din scene video capturate care includ o gamă largă de condiții meteorologice diferite, mai multe straturi de mișcare și adâncime; situații din oraș și de la țară etc.Link
CVVideoJAAD, de către Universitatea York, Ucraina, CanadaAutomotiveCutie de delimitare, Etichetă comportamentală„JAAD este un set de date pentru studierea atenției comune în contextul conducerii autonome. Accentul este pus pe comportamentul pietonilor și al șoferului în punctul de trecere și pe factorii care îi influențează. În acest scop, setul de date JAAD oferă o colecție bogat adnotat de 346 de videoclipuri scurte. clipuri (5-10 secunde lungime) extrase din peste 240 de ore de filmări de conducere din mai multe locații din America de Nord și Europa de Est. Cutiile de delimitare cu etichete de ocluzie sunt folosite pentru toți pietonii, ceea ce face acest set de date potrivit pentru detectarea pietonilor. Adnotările de comportament specifică comportamentele pietonilor care interacționează cu șoferul sau necesită atenția acestuia. Pentru fiecare videoclip există mai multe etichete (vreme, locații etc.) și etichete de comportament marcate cu ora (de ex. oprit, mers pe jos, căutare etc.). În plus, o listă de atribute demografice este furnizate pentru fiecare pieton (de exemplu, vârsta, sexul, direcția de mișcare etc.), precum și o listă a elementelor vizibile ale scenei de trafic (de exemplu, semn de oprire, semnal de circulație etc.) în fiecare cadru."Link
CVVideoKAIST Urban, de KAIST, Coreea de SudGeneralLIDARColectarea de date include numeroși senzori de locație pentru date LiDAR și imagini stereo care vizează o zonă urbană foarte complexă (de exemplu, zone metropolitane, clădiri complexe și zone rezidențiale).Link
CVImagineSemn de circulație LISA, de Univ. din California, San Diego, Statele UniteAutomotiveCasetă de încadrareSetul de date care conține videoclipuri și cadre adnotate care conțin semne de circulație din SUA. Este lansat în două etape, una cu doar poze și una cu atât imagini, cât și videoclipuri.Link
CVImagineMapillary Vistas, de Mapillary AB, GlobalAutomotiveEtichetă semanticăUn set de date de fotografie la nivel de stradă pentru interpretarea scenelor de stradă din întreaga lume cu adnotări umane precise la nivel de pixeli și specifice unei instanțe.Link
CVVideo, ImagineSemantic KITTI, de Universitatea din Bonn, Karlsruhe, GermaniaAutomotiveCaseta de delimitare, etichetă semantică, marcare a benziiUn set de date care include o adnotare semantică pentru toate secvențele Odometry Benchmark. Setul de date adnotă diferite tipuri de trafic în mișcare și nemișcare: inclusiv mașini, biciclete, biciclete, pietoni și bicicliști, permițând studierea obiectelor din scenă.Link
CVVideoStanford Track, de la Universitatea Stanford, Statele UniteAutomotiveDetectarea/Clasificarea obiectelor LiDAR, GPS, CoduriUn set de date care include 14,000 de urme de obiecte etichetate observate de un LIDAR Velodyne HDL-64E S2 în scene naturale de stradă, care poate fi folosit pentru a antrena modele de învățare automată pentru recunoașterea obiectelor 3D.Link
CVVideo, ImagineThe Boxy Dataset, de Bosch, Statele UniteAutomotiveCutie delimitare/Detecție vehiculUn set de date de detectare a vehiculelor care conține 2 milioane de vehicule adnotate pentru antrenament și analiza strategiilor de recunoaștere a obiectelor pentru mașinile cu conducere autonomă pe autostrăzi.Link
CVVideoAutostrada TME, de Universitatea Tehnică Cehă, Italia de NordAutomotiveCasetă de încadrareUn set de date de 28 de clipuri pentru un total de 27 de minute bifurcat în peste 30,000 de cadre de adnotare pentru vehicule. Adnotarea a fost produsă semi-automat folosind datele de la scanerul laser. Această colectare de date implică scenarii variabile de trafic, număr de benzi, curbură și iluminare a drumului, acoperind o mare parte din condițiile achiziției complete.Link
CVVideoLlamas nesupravegheate, de Bosch, Statele UniteAutomotiveMarcarea benzii, LiDARSetul de date Llamas nesupravegheat a fost adnotat prin generarea de hărți de conducere automată de înaltă definiție, inclusiv marcatoare de benzi bazate pe Lidar. Vehiculul autonom poate fi aliniat pe aceste hărți, iar marcajele benzii sunt proiectate în cadrul camerei. Proiecția 3D este optimizată prin minimizarea discrepanței dintre markerii de imagine deja observați și preziși.Link
PNLAudioFacebook AI Multilingv LibriSpeech (MLS)GeneralAdnotare audio / Recunoaștere a vorbiriiFacebook AI Multilingual LibriSpeech (MLS) este un set de date open source, la scară largă, conceput pentru a ajuta la avansarea cercetării în domeniul recunoașterii automate a vorbirii (ASR). MLS oferă peste 50,000 de ore de sunet în 8 limbi: engleză, germană, olandeză, franceză, spaniolă, italiană, portugheză și poloneză. Link