Deschideți seturi de date
Descoperiți seturi de date open source care vă fac să pregătiți modele ML
Seturi de date open source pentru a începe cu modelele AI/ML
Rezultatele modelelor dvs. AI și ML sunt la fel de bune ca și datele pe care le utilizați pentru a le antrena – așa că precizia pe care o aplicați agregarii datelor și etichetarea și identificarea acestor date este importantă!
Deci, dacă doriți să începeți o nouă inițiativă AI/ML și acum vă dați seama rapid că găsirea de date de instruire de înaltă calitate va fi unul dintre cele mai provocatoare aspecte ale proiectului dvs., deoarece seturile de date de înaltă calitate sunt combustibilul care menține AI/ML. Motorul ML pornește. Am acumulat o listă de seturi de date deschise care pot fi utilizate și antrenate gratuit pentru modelele tale AI/ML ale viitorului.
Specializare | Tipul de date | Numele setului de date | Industrie / Dept. | Adnotare/caz de utilizare | Descriere | Link |
---|---|---|---|---|---|---|
PNL | Text | Recenzii Amazon | E-commerce | Analiza sentimentelor | Un set de 35 de milioane de recenzii și evaluări din ultimii 18 ani în text simplu, cu detalii despre utilizator și despre produs. | Link |
PNL | Text | Wikipedia leagă date | General | Mai mult de 4 Mn. articole care conțin 1.9 miliarde. cuvânt care cuprinde cuvinte și expresii, precum și paragrafe. | Link | |
PNL | Text | Standford Sentiment Treebank | Divertisment | Analiza sentimentelor | Set de date cu adnotări de sentimente pentru peste 10,000 de recenzii de la Rotten Tomatoes în format de fișier HTML | Link |
PNL | Text | Twitter US Airline Sentiment | linie aeriană | Analiza sentimentelor | Tweeturile din 2015 de la US Airlines s-au împărțit în tonuri pozitive, negative și neutre | Link |
CV | Imagine | Imagenet | General | Set de date cu peste 14 Mn. imagini în diverse formate de fișiere, organizate conform ierarhiei WordNet. | Link | |
CV | Imagine | Imagini deschise de la Google | General | 9 Mn. URL-uri pentru a clasifica imaginile publice din peste 6,000 de categorii. | Link | |
PNL | Text | Baza de date MIMIC Critical Care | Farmaceutice | Seturi de date de fiziologie computațională cu date de-identificate de la 40,000 de pacienți de îngrijire critică. Setul de date conține informații precum date demografice, semne vitale, medicamente etc. | Link | |
CV | Imagine | Biroul Național de Turism și Turism al SUA | Turism | Oferă fotografii ample din industria turismului cu baze de date de încredere, care acoperă subiecte precum călătoriile de intrare și ieșire și informații turistice internaționale. | Link | |
PNL | Text | Departamentul Transporturilor | Turism | Seturi de date turistice care includ parcuri naționale, registre ale șoferilor, informații despre poduri și căi ferate etc. | Link | |
PNL | Audio | Corpus subtitrări audio Flickr | General | Peste 40 de subtitrări din 8,000 de fotografii concepute pentru modele de vorbire nesupravegheate | Link | |
PNL | Audio | Set de date comenzi vocale | General | Recunoaștere vocală, adnotare audio | Enunțuri de 1 secundă de la mii de indivizi, pentru a construi interfața vocală de bază. | Link |
PNL | Audio | Seturi de date audio de mediu | General | Seturi de date audio de mediu care conțin tabele de sunet al evenimentelor și tabele de scene acustice. | Link | |
PNL | Text | Set de date deschise de cercetare COVID-19 | Farmaceutice | AI medical | Un set de date de cercetare constând din 45,000 de articole academice despre COVID-19 și familia de viruși coronavirus. | Link |
CV | Imagine | Set de date Waymo Open | Automotive | Cele mai diverse seturi de date de conducere autonomă lansate de Waymo | Link | |
CV | Imagine | Labelme | Guvernul Public. | Set mare de imagini adnotate accesibile prin Labelme Matlab | Link | |
CV | Imagine | Setul de date Stanford Dogs | General | Peste 20,500 de imagini clasificate într-un set de imagini de 120 de rase diferite de câini | Link | |
CV | Imagine | Recunoașterea scenei de interior | General | Recunoașterea scenei | Un set de date specific format din 15620 de imagini din 67 de categorii de interior pentru a construi modele de recunoaștere a scenei | Link |
CV | Imagine | VisualQA | General | Un set de date care include întrebări deschise referitoare la 265,016 fotografii care necesită înțelegerea viziunii și înțelegerea limbajului pentru a răspunde. | Link | |
PNL | Text | Set de date de analiză a sentimentelor multidomeniu | E-commerce | Analiza sentimentelor | Set de date care conține recenzii despre produse de la Amazon | Link |
PNL | Text | Recenzii IMDB | Divertisment | Analiza sentimentelor | Set de date care conține 25000 de recenzii de filme pentru analiza sentimentelor | Link |
PNL | Text | Blogger Corpus | General | Analiza Keyprase | Set de date care conține 681,288 de postări pe blog de pe blogger.com, constând din minim 200 de apariții de cuvinte în limba engleză utilizate pe scară largă. | Link |
PNL | Text | Primejdie | General | Instruire Chatbot | Set de date cu peste 200,000 de întrebări care pot fi folosite pentru a antrena modele de învățare automată pentru a răspunde automat inteligent | Link |
PNL | Text | Colectare SMS-uri spam în engleză | Telecom | Recunoaștere spam | Un set de date de mesaje spam format din 5,574 de SMS-uri în limba engleză | Link |
PNL | Text | Recenzii Yelp | General | Analiza sentimentelor | Un set de date cu peste 5 minute de revizuire publicat de Yelp | Link |
PNL | Text | Spambaza UCI | Afacere | Recunoaștere spam | Un set mare de date de e-mailuri spam, utile pentru filtrarea spamului. | Link |
CV | Video, Imagine | Berkeley DeepDrive BDD100k | Automotive | Vehicule autonome | Unul dintre cele mai mari seturi de date pentru IA pentru conducerea autonomă, care conține 1,100 de ore de experiență de conducere în peste 100,000 de videoclipuri din diferite momente ale zilei din zona New York și San Francisco. | Link |
CV | Video | virgulă.ai | Automotive | Vehicule autonome | Un set de date de conducere pe autostradă de 7 ore constând în informații despre viteza mașinii, accelerația, unghiul de virare și coordonatele GPS | Link |
CV | Video, Imagine | Set de date peisaj urban | Automotive | Etichetă semantică pentru vehicul autonom | Un set de date de 5,000 de adnotări la nivel de pixeli plus un set mai mare de 20,000 de cadre slab adnotate în secvențe video stereo, înregistrate din 50 de orașe diferite | Link |
CV | Imagine | KUL Belgium Semn de date de trafic | Automotive | Vehicule autonome | Peste 10000 de adnotări de semne de circulație din regiunea Flandra bazate pe semne de circulație distincte fizic din toată Belgia. | Link |
CV | Imagine | LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets | Automotive | Vehicule autonome | Un set bogat de date care conține semne de circulație, detectarea vehiculelor, semafoare și modele de traiectorie. | Link |
CV | Imagine | CIFAR-10 | General | Recunoașterea obiectelor | Un set de date format din 50,000 de imagini și 10,000 de imagini de testare (adică 60,000 de imagini color 32×32 în 10 clase) pentru recunoașterea obiectelor. | Link |
CV | Imagine | Moda MNIST | Modă | Un set de date de imagine care constă din 60,000 de exemple și un set de testare de 10,000 de exemple în imagini 28×28 în tonuri de gri, asociat cu o etichetă din 10 clase. | Link | |
CV | Imagine | Setul de date IMDB-Wiki | Divertisment | Recunoastere faciala | Un set mare de date de imagini faciale cu etichete precum sexul și vârsta. Din totalul de 523,051 de imagini ale feței, 460,723 de imagini sunt obținute de la 20,284 de celebrități de la IMDB și 62,328 de la Wikipedia. | Link |
CV | Video | Cinetica-700 | General | Pentru fiecare clasă de acțiune, setul de date de înaltă calitate constă din 650,000 de clipuri video și cuprinde 700 de clase de acțiune umană cu cel puțin 600 de clipuri video. Aici, fiecare clip durează aproximativ 10 secunde. | Link | |
CV | Imagine | MS Coco | General | Detectarea obiectelor, Segmentarea | Setul de date conține 328 de imagini și are un total de 2.5 milioane de instanțe și 91 de imagini obiect pentru a antrena modele de ML legate de detectarea, segmentarea și subtitrarea datelor la scară largă a obiectelor. | Link |
CV | Imagine | Setul de date MPII Human Pose | General | În setul de date sunt incluse aproximativ 25 de fotografii care conțin peste 40 de indivizi cu articulații corporale adnotate, care este utilizat pentru articularea estimării poziției umane. În general, setul de date acoperă 410 activități umane și fiecare imagine este prevăzută cu o etichetă de activitate. | Link | |
CV | Imagine | Deschideți imagini | General | Adnotări privind locația obiectului | Set de date imagine cu aproximativ 9 milioane de imagini adnotate cu etichete la nivel de imagine, casete de delimitare a obiectelor, segmentare a obiectelor etc. Setul de date constă, de asemenea, din 16 milioane. casete de delimitare pentru 600 de clase de obiecte pe imagini de 1.9 milioane. | Link |
CV | Video, Imagine | Argo, de la Argo, SUA | Automotive | Cutie de delimitare, flux optic, etichetă comportamentală, etichetă semantică, marcare a benzii | Un set de date autonom care constă din hărți HD cu metadate geometrice și semantice, adică liniile centrale ale benzii, direcția benzii și zona de rulare. Setul de date este folosit pentru a antrena modele ML, pentru a realiza algoritmi de percepție mai precisi, care vor ajuta vehiculele cu conducere autonomă să navigheze în siguranță. | Link |
CV | Video | Semafoare mici Bosch, de Bosch North America Research | Automotive | Casetă de încadrare | Un set de date constând din 13427 de imagini ale camerei cu rezoluție 1280*720 pentru a construi un sistem de detectare a semaforului bazat pe viziune. Setul de date are peste 24000 de semafoare adnotate. | Link |
CV | Video | Brain4Cars, de la Cornell University, Statele Unite ale Americii | Automotive | Etichetă comportamentală | Un set de date care cuprinde o serie de senzori de cabină (camere, senzori tactili, dispozitive inteligente etc.) pentru a extrage statistici utile despre vigilența șoferului. Algoritmii noștri pot detecta șoferii care sunt somnolenți sau distrași și pot stimula alarmele necesare pentru a îmbunătăți protecția. | Link |
CV | Imagine | CULane, de către Univ. din Hong Kong, Beijing, China | Automotive | Marcajul benzii | Un set de date Computer Vision privind detectarea benzilor de circulație, constând din 55 de ore de videoclipuri din care au fost extrase 133,235 (88880 set de antrenament, 9675 set de validare și 34680 set de testare). Este colectat de camere montate pe șase vehicule diferite conduse de diferiți șoferi în Beijing. | Link |
CV | Video | DAVIS, de Univ. din Zurich, ETH ¨ Zurich, Germania, Elveția | Automotive | Un set de date de antrenament pentru conducerea vehiculelor de la capăt la capăt care utilizează un eveniment DAVIS + cameră cadru. Datele auto, cum ar fi direcția, accelerația, GPS-ul etc. sunt folosite pentru a evalua fuziunea datelor cadru și evenimente pentru aplicațiile auto. | Link | |
CV | Video | DBNet, de la Shanghai Jiao Tong Univ.,Xiamen Univ., China | Automotive | Nor de puncte, LiDAR | Date reale de condus de 1000 km, care includ video aliniat, nor de puncte, GPS și comportamentul șoferului pentru cercetări aprofundate asupra comportamentului de conducere. | Link |
CV | Video | Dr(ochi)ve, de Univ. din Modena și Reggio Emilia, Modena, Italia | Automotive | Etichetă comportamentală | Set de date care conține 74 de secvențe video a câte 5 minute fiecare, care au fost adnotate în peste 500,000 de cadre. Setul de date constă din locații geo-referențiate, viteză de conducere, curs și, de asemenea, etichete fixările privirii șoferilor și integrarea lor temporală, oferind hărți specifice sarcinilor. | Link |
CV | Video | ETH Pedestrian (2009), de ETH Zurich, Zurich, Elveția | General | Casetă de încadrare | Un set de date de 74 de secvențe video a câte 5 minute fiecare, adnotate în peste 500,000 de cadre. Setul de date oferă poziții georeferențiate, viteza de conducere, direcția și, de asemenea, etichetează fixarea privirii pentru șoferi și integrarea lor temporală, inclusiv hărți specifice sarcinilor. | Link |
CV | Video | Ford (2009), de Univ. din Michigan, Michigan, SUA | Automotive | Cutie de delimitare, , LiDAR | Un set de date compilat de un vehicul terestru automat înarmat cu un scaner lidar 3D Velodyne, două lidare Rieg cu mătură de împingere, o unitate de măsurare inerțială (IMU) tehnică și de consum și un sistem de cameră omnidirecțională Point Grey Ladybug3. | Link |
CV | Video | HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Germania | General | Un set de date de câteva milioane de cadre din scene video capturate care includ o gamă largă de condiții meteorologice diferite, mai multe straturi de mișcare și adâncime; situații din oraș și de la țară etc. | Link | |
CV | Video | JAAD, de către Universitatea York, Ucraina, Canada | Automotive | Cutie de delimitare, Etichetă comportamentală | „JAAD este un set de date pentru studierea atenției comune în contextul conducerii autonome. Accentul este pus pe comportamentul pietonilor și al șoferului în punctul de trecere și pe factorii care îi influențează. În acest scop, setul de date JAAD oferă o colecție bogat adnotat de 346 de videoclipuri scurte. clipuri (5-10 secunde lungime) extrase din peste 240 de ore de filmări de conducere din mai multe locații din America de Nord și Europa de Est. Cutiile de delimitare cu etichete de ocluzie sunt folosite pentru toți pietonii, ceea ce face acest set de date potrivit pentru detectarea pietonilor. Adnotările de comportament specifică comportamentele pietonilor care interacționează cu șoferul sau necesită atenția acestuia. Pentru fiecare videoclip există mai multe etichete (vreme, locații etc.) și etichete de comportament marcate cu ora (de ex. oprit, mers pe jos, căutare etc.). În plus, o listă de atribute demografice este furnizate pentru fiecare pieton (de exemplu, vârsta, sexul, direcția de mișcare etc.), precum și o listă a elementelor vizibile ale scenei de trafic (de exemplu, semn de oprire, semnal de circulație etc.) în fiecare cadru." | Link |
CV | Imagine | Semn de circulație LISA, de Univ. din California, San Diego, Statele Unite | Automotive | Casetă de încadrare | Setul de date care conține videoclipuri și cadre adnotate care conțin semne de circulație din SUA. Este lansat în două etape, una cu doar poze și una cu atât imagini, cât și videoclipuri. | Link |
CV | Imagine | Mapillary Vistas, de Mapillary AB, Global | Automotive | Etichetă semantică | Un set de date de fotografie la nivel de stradă pentru interpretarea scenelor de stradă din întreaga lume cu adnotări umane precise la nivel de pixeli și specifice unei instanțe. | Link |
CV | Video, Imagine | Semantic KITTI, de Universitatea din Bonn, Karlsruhe, Germania | Automotive | Caseta de delimitare, etichetă semantică, marcare a benzii | Un set de date care include o adnotare semantică pentru toate secvențele Odometry Benchmark. Setul de date adnotă diferite tipuri de trafic în mișcare și nemișcare: inclusiv mașini, biciclete, biciclete, pietoni și bicicliști, permițând studierea obiectelor din scenă. | Link |
CV | Video | Stanford Track, de la Universitatea Stanford, Statele Unite | Automotive | Detectarea/Clasificarea obiectelor LiDAR, GPS, Coduri | Un set de date care include 14,000 de urme de obiecte etichetate observate de un LIDAR Velodyne HDL-64E S2 în scene naturale de stradă, care poate fi folosit pentru a antrena modele de învățare automată pentru recunoașterea obiectelor 3D. | Link |
CV | Video, Imagine | The Boxy Dataset, de Bosch, Statele Unite | Automotive | Cutie delimitare/Detecție vehicul | Un set de date de detectare a vehiculelor care conține 2 milioane de vehicule adnotate pentru antrenament și analiza strategiilor de recunoaștere a obiectelor pentru mașinile cu conducere autonomă pe autostrăzi. | Link |
CV | Video | Autostrada TME, de Universitatea Tehnică Cehă, Italia de Nord | Automotive | Casetă de încadrare | Un set de date de 28 de clipuri pentru un total de 27 de minute bifurcat în peste 30,000 de cadre de adnotare pentru vehicule. Adnotarea a fost produsă semi-automat folosind datele de la scanerul laser. Această colectare de date implică scenarii variabile de trafic, număr de benzi, curbură și iluminare a drumului, acoperind o mare parte din condițiile achiziției complete. | Link |
CV | Video | Llamas nesupravegheate, de Bosch, Statele Unite | Automotive | Marcarea benzii, LiDAR | Setul de date Llamas nesupravegheat a fost adnotat prin generarea de hărți de conducere automată de înaltă definiție, inclusiv marcatoare de benzi bazate pe Lidar. Vehiculul autonom poate fi aliniat pe aceste hărți, iar marcajele benzii sunt proiectate în cadrul camerei. Proiecția 3D este optimizată prin minimizarea discrepanței dintre markerii de imagine deja observați și preziși. | Link |
PNL | Audio | Facebook AI Multilingv LibriSpeech (MLS) | General | Adnotare audio / Recunoaștere a vorbirii | Facebook AI Multilingual LibriSpeech (MLS) este un set de date open source, la scară largă, conceput pentru a ajuta la avansarea cercetării în domeniul recunoașterii automate a vorbirii (ASR). MLS oferă peste 50,000 de ore de sunet în 8 limbi: engleză, germană, olandeză, franceză, spaniolă, italiană, portugheză și poloneză. | Link |