Deschideți seturi de date

Descoperiți seturi de date open source care vă fac să pregătiți modele ML

Seturi de date open source pentru a începe cu modelele AI/ML

Rezultatele modelelor dvs. AI și ML sunt la fel de bune ca și datele pe care le utilizați pentru a le antrena – așa că precizia pe care o aplicați agregarii datelor și etichetarea și identificarea acestor date este importantă!

Deci, dacă doriți să începeți o nouă inițiativă AI/ML și acum vă dați seama rapid că găsirea de date de instruire de înaltă calitate va fi unul dintre cele mai provocatoare aspecte ale proiectului dvs., deoarece seturile de date de înaltă calitate sunt combustibilul care menține AI/ML. Motorul ML pornește. Am acumulat o listă de seturi de date deschise care pot fi utilizate și antrenate gratuit pentru modelele tale AI/ML ale viitorului.

Specializare	Tipul de date	Numele setului de date	Industrie / Dept.	Adnotare/caz de utilizare	Descriere	Link
PNL	Text	Recenzii Amazon	E-commerce	Analiza sentimentelor	Un set de 35 de milioane de recenzii și evaluări din ultimii 18 ani în text simplu, cu detalii despre utilizator și despre produs.	Link
PNL	Text	Wikipedia leagă date	General		Mai mult de 4 Mn. articole care conțin 1.9 miliarde. cuvânt care cuprinde cuvinte și expresii, precum și paragrafe.	Link
PNL	Text	Standford Sentiment Treebank	Divertisment	Analiza sentimentelor	Set de date cu adnotări de sentimente pentru peste 10,000 de recenzii de la Rotten Tomatoes în format de fișier HTML	Link
PNL	Text	Twitter US Airline Sentiment	linie aeriană	Analiza sentimentelor	Tweeturile din 2015 de la US Airlines s-au împărțit în tonuri pozitive, negative și neutre	Link
CV	Imagine	Fețe etichetate în sălbăticie	General	Recunoastere faciala	Set de date care conține peste 13,000 de fețe decupate cu două imagini diferite pentru antrenamentul de recunoaștere facială.	Link
CV	Video, Imagine	Set de date UDMFaces	General	Recunoastere faciala	Set de date adnotat care conține peste 367,000 de chipuri de la peste 8,000 de subiecți, care include imagini statice și video.	Link
CV	Imagine	Imagenet	General		Set de date cu peste 14 Mn. imagini în diverse formate de fișiere, organizate conform ierarhiei WordNet.	Link
CV	Imagine	Imagini deschise de la Google	General		9 Mn. URL-uri pentru a clasifica imaginile publice din peste 6,000 de categorii.	Link
PNL	Text	Baza de date MIMIC Critical Care	Farmaceutice		Seturi de date de fiziologie computațională cu date de-identificate de la 40,000 de pacienți de îngrijire critică. Setul de date conține informații precum date demografice, semne vitale, medicamente etc.	Link
CV	Imagine	Biroul Național de Turism și Turism al SUA	Turism		Oferă fotografii ample din industria turismului cu baze de date de încredere, care acoperă subiecte precum călătoriile de intrare și ieșire și informații turistice internaționale.	Link
PNL	Text	Departamentul Transporturilor	Turism		Seturi de date turistice care includ parcuri naționale, registre ale șoferilor, informații despre poduri și căi ferate etc.	Link
PNL	Audio	Corpus subtitrări audio Flickr	General		Peste 40 de subtitrări din 8,000 de fotografii concepute pentru modele de vorbire nesupravegheate	Link
PNL	Audio	Set de date comenzi vocale	General	Recunoaștere vocală, adnotare audio	Enunțuri de 1 secundă de la mii de indivizi, pentru a construi interfața vocală de bază.	Link
PNL	Audio	Seturi de date audio de mediu	General		Seturi de date audio de mediu care conțin tabele de sunet al evenimentelor și tabele de scene acustice.	Link
PNL	Text	Set de date deschise de cercetare COVID-19	Farmaceutice	AI medical	Un set de date de cercetare constând din 45,000 de articole academice despre COVID-19 și familia de viruși coronavirus.	Link
CV	Imagine	Set de date Waymo Open	Automotive		Cele mai diverse seturi de date de conducere autonomă lansate de Waymo	Link
CV	Imagine	Genomul vizual	General	Subtitrărea imaginii	O bază de cunoștințe vizuale cu subtitrări detaliate a peste 100 de imagini	Link
CV	Imagine	Labelme	Guvernul Public.		Set mare de imagini adnotate accesibile prin Labelme Matlab	Link
CV	Imagine	BOBINA 100	General		Peste 100 de obiecte variate fotografiate din mai multe unghiuri (adică 360 de grade)	Link
CV	Imagine	Setul de date Stanford Dogs	General		Peste 20,500 de imagini clasificate într-un set de imagini de 120 de rase diferite de câini	Link
CV	Imagine	Recunoașterea scenei de interior	General	Recunoașterea scenei	Un set de date specific format din 15620 de imagini din 67 de categorii de interior pentru a construi modele de recunoaștere a scenei	Link
CV	Imagine	VisualQA	General		Un set de date care include întrebări deschise referitoare la 265,016 fotografii care necesită înțelegerea viziunii și înțelegerea limbajului pentru a răspunde.	Link
PNL	Text	Set de date de analiză a sentimentelor multidomeniu	E-commerce	Analiza sentimentelor	Set de date care conține recenzii despre produse de la Amazon	Link
PNL	Text	Recenzii IMDB	Divertisment	Analiza sentimentelor	Set de date care conține 25000 de recenzii de filme pentru analiza sentimentelor	Link
PNL	Text	Sentiment140	General	Analiza sentimentelor	Set de date care conține 160,000 de tweet-uri cu emoticoane pre-eliminate pentru o precizie mai mare	Link
PNL	Text	Blogger Corpus	General	Analiza Keyprase	Set de date care conține 681,288 de postări pe blog de pe blogger.com, constând din minim 200 de apariții de cuvinte în limba engleză utilizate pe scară largă.	Link
PNL	Text	Primejdie	General	Instruire Chatbot	Set de date cu peste 200,000 de întrebări care pot fi folosite pentru a antrena modele de învățare automată pentru a răspunde automat inteligent	Link
PNL	Text	Colectare SMS-uri spam în engleză	Telecom	Recunoaștere spam	Un set de date de mesaje spam format din 5,574 de SMS-uri în limba engleză	Link
PNL	Text	Recenzii Yelp	General	Analiza sentimentelor	Un set de date cu peste 5 minute de revizuire publicat de Yelp	Link
PNL	Text	Spambaza UCI	Afacere	Recunoaștere spam	Un set mare de date de e-mailuri spam, utile pentru filtrarea spamului.	Link
CV	Video, Imagine	Berkeley DeepDrive BDD100k	Automotive	Vehicule autonome	Unul dintre cele mai mari seturi de date pentru IA pentru conducerea autonomă, care conține 1,100 de ore de experiență de conducere în peste 100,000 de videoclipuri din diferite momente ale zilei din zona New York și San Francisco.	Link
CV	Video	virgulă.ai	Automotive	Vehicule autonome	Un set de date de conducere pe autostradă de 7 ore constând în informații despre viteza mașinii, accelerația, unghiul de virare și coordonatele GPS	Link
CV	Video, Imagine	Set de date peisaj urban	Automotive	Etichetă semantică pentru vehicul autonom	Un set de date de 5,000 de adnotări la nivel de pixeli plus un set mai mare de 20,000 de cadre slab adnotate în secvențe video stereo, înregistrate din 50 de orașe diferite	Link
CV	Imagine	KUL Belgium Semn de date de trafic	Automotive	Vehicule autonome	Peste 10000 de adnotări de semne de circulație din regiunea Flandra bazate pe semne de circulație distincte fizic din toată Belgia.	Link
CV	Imagine	LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets	Automotive	Vehicule autonome	Un set bogat de date care conține semne de circulație, detectarea vehiculelor, semafoare și modele de traiectorie.	Link
CV	Imagine	CIFAR-10	General	Recunoașterea obiectelor	Un set de date format din 50,000 de imagini și 10,000 de imagini de testare (adică 60,000 de imagini color 32×32 în 10 clase) pentru recunoașterea obiectelor.	Link
CV	Imagine	Moda MNIST	Modă		Un set de date de imagine care constă din 60,000 de exemple și un set de testare de 10,000 de exemple în imagini 28×28 în tonuri de gri, asociat cu o etichetă din 10 clase.	Link
CV	Imagine	Setul de date IMDB-Wiki	Divertisment	Recunoastere faciala	Un set mare de date de imagini faciale cu etichete precum sexul și vârsta. Din totalul de 523,051 de imagini ale feței, 460,723 de imagini sunt obținute de la 20,284 de celebrități de la IMDB și 62,328 de la Wikipedia.	Link
CV	Video	Cinetica-700	General		Pentru fiecare clasă de acțiune, setul de date de înaltă calitate constă din 650,000 de clipuri video și cuprinde 700 de clase de acțiune umană cu cel puțin 600 de clipuri video. Aici, fiecare clip durează aproximativ 10 secunde.	Link
CV	Imagine	MS Coco	General	Detectarea obiectelor, Segmentarea	Setul de date conține 328 de imagini și are un total de 2.5 milioane de instanțe și 91 de imagini obiect pentru a antrena modele de ML legate de detectarea, segmentarea și subtitrarea datelor la scară largă a obiectelor.	Link
CV	Imagine	Setul de date MPII Human Pose	General		În setul de date sunt incluse aproximativ 25 de fotografii care conțin peste 40 de indivizi cu articulații corporale adnotate, care este utilizat pentru articularea estimării poziției umane. În general, setul de date acoperă 410 activități umane și fiecare imagine este prevăzută cu o etichetă de activitate.	Link
CV	Imagine	Deschideți imagini	General	Adnotări privind locația obiectului	Set de date imagine cu aproximativ 9 milioane de imagini adnotate cu etichete la nivel de imagine, casete de delimitare a obiectelor, segmentare a obiectelor etc. Setul de date constă, de asemenea, din 16 milioane. casete de delimitare pentru 600 de clase de obiecte pe imagini de 1.9 milioane.	Link
CV	Video	Apollo Open Platform, de Baidu Inc, China	Automotive	Cutie de delimitare, LiDAR	Un set bogat de date de conducere autonomă, care oferă dezvoltatorilor datele necesare în conducerea autonomă pentru a accelera eficiența iterației inovatoare.	Link
CV	Video, Imagine	Argo, de la Argo, SUA	Automotive	Cutie de delimitare, flux optic, etichetă comportamentală, etichetă semantică, marcare a benzii	Un set de date autonom care constă din hărți HD cu metadate geometrice și semantice, adică liniile centrale ale benzii, direcția benzii și zona de rulare. Setul de date este folosit pentru a antrena modele ML, pentru a realiza algoritmi de percepție mai precisi, care vor ajuta vehiculele cu conducere autonomă să navigheze în siguranță.	Link
CV	Video	Semafoare mici Bosch, de Bosch North America Research	Automotive	Casetă de încadrare	Un set de date constând din 13427 de imagini ale camerei cu rezoluție 1280*720 pentru a construi un sistem de detectare a semaforului bazat pe viziune. Setul de date are peste 24000 de semafoare adnotate.	Link
CV	Video	Brain4Cars, de la Cornell University, Statele Unite ale Americii	Automotive	Etichetă comportamentală	Un set de date care cuprinde o serie de senzori de cabină (camere, senzori tactili, dispozitive inteligente etc.) pentru a extrage statistici utile despre vigilența șoferului. Algoritmii noștri pot detecta șoferii care sunt somnolenți sau distrași și pot stimula alarmele necesare pentru a îmbunătăți protecția.	Link
CV	Imagine	CULane, de către Univ. din Hong Kong, Beijing, China	Automotive	Marcajul benzii	Un set de date Computer Vision privind detectarea benzilor de circulație, constând din 55 de ore de videoclipuri din care au fost extrase 133,235 (88880 set de antrenament, 9675 set de validare și 34680 set de testare). Este colectat de camere montate pe șase vehicule diferite conduse de diferiți șoferi în Beijing.	Link
CV	Video	DAVIS, de Univ. din Zurich, ETH ¨ Zurich, Germania, Elveția	Automotive		Un set de date de antrenament pentru conducerea vehiculelor de la capăt la capăt care utilizează un eveniment DAVIS + cameră cadru. Datele auto, cum ar fi direcția, accelerația, GPS-ul etc. sunt folosite pentru a evalua fuziunea datelor cadru și evenimente pentru aplicațiile auto.	Link
CV	Video	DBNet, de la Shanghai Jiao Tong Univ.,Xiamen Univ., China	Automotive	Nor de puncte, LiDAR	Date reale de condus de 1000 km, care includ video aliniat, nor de puncte, GPS și comportamentul șoferului pentru cercetări aprofundate asupra comportamentului de conducere.	Link
CV	Video	Dr(ochi)ve, de Univ. din Modena și Reggio Emilia, Modena, Italia	Automotive	Etichetă comportamentală	Set de date care conține 74 de secvențe video a câte 5 minute fiecare, care au fost adnotate în peste 500,000 de cadre. Setul de date constă din locații geo-referențiate, viteză de conducere, curs și, de asemenea, etichete fixările privirii șoferilor și integrarea lor temporală, oferind hărți specifice sarcinilor.	Link
CV	Video	ETH Pedestrian (2009), de ETH Zurich, Zurich, Elveția	General	Casetă de încadrare	Un set de date de 74 de secvențe video a câte 5 minute fiecare, adnotate în peste 500,000 de cadre. Setul de date oferă poziții georeferențiate, viteza de conducere, direcția și, de asemenea, etichetează fixarea privirii pentru șoferi și integrarea lor temporală, inclusiv hărți specifice sarcinilor.	Link
CV	Video	Ford (2009), de Univ. din Michigan, Michigan, SUA	Automotive	Cutie de delimitare, , LiDAR	Un set de date compilat de un vehicul terestru automat înarmat cu un scaner lidar 3D Velodyne, două lidare Rieg cu mătură de împingere, o unitate de măsurare inerțială (IMU) tehnică și de consum și un sistem de cameră omnidirecțională Point Grey Ladybug3.	Link
CV	Video	HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Germania	General		Un set de date de câteva milioane de cadre din scene video capturate care includ o gamă largă de condiții meteorologice diferite, mai multe straturi de mișcare și adâncime; situații din oraș și de la țară etc.	Link
CV	Video	JAAD, de către Universitatea York, Ucraina, Canada	Automotive	Cutie de delimitare, Etichetă comportamentală	„JAAD este un set de date pentru studierea atenției comune în contextul conducerii autonome. Accentul este pus pe comportamentul pietonilor și al șoferului în punctul de trecere și pe factorii care îi influențează. În acest scop, setul de date JAAD oferă o colecție bogat adnotat de 346 de videoclipuri scurte. clipuri (5-10 secunde lungime) extrase din peste 240 de ore de filmări de conducere din mai multe locații din America de Nord și Europa de Est. Cutiile de delimitare cu etichete de ocluzie sunt folosite pentru toți pietonii, ceea ce face acest set de date potrivit pentru detectarea pietonilor. Adnotările de comportament specifică comportamentele pietonilor care interacționează cu șoferul sau necesită atenția acestuia. Pentru fiecare videoclip există mai multe etichete (vreme, locații etc.) și etichete de comportament marcate cu ora (de ex. oprit, mers pe jos, căutare etc.). În plus, o listă de atribute demografice este furnizate pentru fiecare pieton (de exemplu, vârsta, sexul, direcția de mișcare etc.), precum și o listă a elementelor vizibile ale scenei de trafic (de exemplu, semn de oprire, semnal de circulație etc.) în fiecare cadru."	Link
CV	Video	KAIST Urban, de KAIST, Coreea de Sud	General	LIDAR	Colectarea de date include numeroși senzori de locație pentru date LiDAR și imagini stereo care vizează o zonă urbană foarte complexă (de exemplu, zone metropolitane, clădiri complexe și zone rezidențiale).	Link
CV	Imagine	Semn de circulație LISA, de Univ. din California, San Diego, Statele Unite	Automotive	Casetă de încadrare	Setul de date care conține videoclipuri și cadre adnotate care conțin semne de circulație din SUA. Este lansat în două etape, una cu doar poze și una cu atât imagini, cât și videoclipuri.	Link
CV	Imagine	Mapillary Vistas, de Mapillary AB, Global	Automotive	Etichetă semantică	Un set de date de fotografie la nivel de stradă pentru interpretarea scenelor de stradă din întreaga lume cu adnotări umane precise la nivel de pixeli și specifice unei instanțe.	Link
CV	Video, Imagine	Semantic KITTI, de Universitatea din Bonn, Karlsruhe, Germania	Automotive	Caseta de delimitare, etichetă semantică, marcare a benzii	Un set de date care include o adnotare semantică pentru toate secvențele Odometry Benchmark. Setul de date adnotă diferite tipuri de trafic în mișcare și nemișcare: inclusiv mașini, biciclete, biciclete, pietoni și bicicliști, permițând studierea obiectelor din scenă.	Link
CV	Video	Stanford Track, de la Universitatea Stanford, Statele Unite	Automotive	Detectarea/Clasificarea obiectelor LiDAR, GPS, Coduri	Un set de date care include 14,000 de urme de obiecte etichetate observate de un LIDAR Velodyne HDL-64E S2 în scene naturale de stradă, care poate fi folosit pentru a antrena modele de învățare automată pentru recunoașterea obiectelor 3D.	Link
CV	Video, Imagine	The Boxy Dataset, de Bosch, Statele Unite	Automotive	Cutie delimitare/Detecție vehicul	Un set de date de detectare a vehiculelor care conține 2 milioane de vehicule adnotate pentru antrenament și analiza strategiilor de recunoaștere a obiectelor pentru mașinile cu conducere autonomă pe autostrăzi.	Link
CV	Video	Autostrada TME, de Universitatea Tehnică Cehă, Italia de Nord	Automotive	Casetă de încadrare	Un set de date de 28 de clipuri pentru un total de 27 de minute bifurcat în peste 30,000 de cadre de adnotare pentru vehicule. Adnotarea a fost produsă semi-automat folosind datele de la scanerul laser. Această colectare de date implică scenarii variabile de trafic, număr de benzi, curbură și iluminare a drumului, acoperind o mare parte din condițiile achiziției complete.	Link
CV	Video	Llamas nesupravegheate, de Bosch, Statele Unite	Automotive	Marcarea benzii, LiDAR	Setul de date Llamas nesupravegheat a fost adnotat prin generarea de hărți de conducere automată de înaltă definiție, inclusiv marcatoare de benzi bazate pe Lidar. Vehiculul autonom poate fi aliniat pe aceste hărți, iar marcajele benzii sunt proiectate în cadrul camerei. Proiecția 3D este optimizată prin minimizarea discrepanței dintre markerii de imagine deja observați și preziși.	Link
PNL	Audio	Facebook AI Multilingv LibriSpeech (MLS)	General	Adnotare audio / Recunoaștere a vorbirii	Facebook AI Multilingual LibriSpeech (MLS) este un set de date open source, la scară largă, conceput pentru a ajuta la avansarea cercetării în domeniul recunoașterii automate a vorbirii (ASR). MLS oferă peste 50,000 de ore de sunet în 8 limbi: engleză, germană, olandeză, franceză, spaniolă, italiană, portugheză și poloneză.	Link

Deschideți seturi de date

Seturi de date open source pentru a începe cu modelele AI/ML

Servicii de date AI

Specialitatea

Industrie

Produse

Despre

Resurse

Contactați-ne