Seturi de date medicale

Cele mai bune seturi de date de asistență medicală open source pentru proiecte de învățare automată

  • Sistemul global de asistență medicală produce zilnic cantități mari de date medicale, care au potențialul de a fi utilizate pentru aplicații de învățare automată. În toate industriile, datele sunt privite ca un bun prețios care permite companiilor să obțină un avantaj competitiv, iar sectorul sănătății nu este diferit.

Acest articol va aborda în mod concis obstacolele întâmpinate atunci când se ocupă de date medicale și va oferi un rezumat al seturilor de date de asistență medicală accesibile publicului.

Importanța seturilor de date de asistență medicală

Importanța seturilor de date de asistență medicală

Seturile de date de asistență medicală sunt colecții de informații despre pacient, cum ar fi fișe medicale, diagnostice, tratamente, date genetice și detalii despre stilul de viață. Ele sunt foarte importante în lumea de astăzi, unde AI este folosită din ce în ce mai mult. Iata de ce:

Înțelegerea sănătății pacientului:

Seturile de date de asistență medicală oferă medicilor o imagine completă a stării de sănătate a pacientului. De exemplu, datele despre istoricul medical al unui pacient, medicamentele și stilul de viață pot ajuta la prezicerea dacă ar putea avea o boală cronică. Acest lucru le permite medicilor să intervină devreme și să facă un plan de tratament doar pentru acel pacient.

Sprijinirea cercetării medicale:

Studiind seturile de date de asistență medicală, cercetătorii medicali pot analiza modul în care sunt tratați pacienții cu cancer și cum se recuperează. Ei pot găsi tratamentele care funcționează cel mai bine în lumea reală. De exemplu, analizând mostrele de tumori din biobancile și istoricele de tratament ale pacienților, cercetătorii pot afla cum reacționează mutațiile specifice și proteinele canceroase la diferite tratamente. Această abordare bazată pe date ajută la găsirea tendințelor care conduc la rezultate mai bune pentru pacient.

Diagnostic și tratament mai bun:

Medicii folosesc instrumente AI pentru a analiza seturile de date din domeniul sănătății și pentru a găsi modele importante. Acest lucru îi ajută să diagnosticheze și să trateze mai bine bolile. În radiologie, AI poate găsi probleme în scanări mai rapid și mai precis decât oamenii. Aceasta înseamnă că medicii pot găsi boli mai devreme și pot începe tratamentul potrivit mai devreme. Adnotarea imaginilor medicale poate duce la un diagnostic mai rapid și mai bun, ceea ce îmbunătățește sănătatea pacientului.

Sprijinirea inițiativelor de sănătate publică:

Imaginați-vă un oraș mic în care experții în domeniul sănătății au folosit seturi de date pentru a urmări un focar de gripă. S-au uitat la modele și au găsit zonele care au fost afectate. Cu aceste date, au început campanii de vaccinare și campanii de educație pentru sănătate. Această abordare bazată pe date a ajutat la combaterea gripei. Acesta arată modul în care seturile de date de asistență medicală pot ghida și îmbunătăți în mod activ inițiativele de sănătate publică.

Seturi de date medicale cu sursă deschisă pentru învățarea automată

Seturile de date deschise sunt esențiale pentru ca orice model de învățare automată să funcționeze bine. Învățarea automată este deja utilizată în știința vieții, asistența medicală și medicină și dă rezultate excelente. Ajută la prezicerea bolilor și la înțelegerea modului în care acestea se răspândesc. Învățarea automată oferă, de asemenea, idei despre cum putem avea grijă corect de persoanele bolnave, în vârstă și bolnave dintr-o comunitate. Fără seturi de date bune, aceste modele de învățare automată nu ar fi posibile.

Sănătate generală și publică:

  • data.gov: Se concentrează pe date de asistență medicală orientate spre SUA, care pot fi căutate cu ușurință folosind mai mulți parametri. Seturile de date sunt concepute pentru a spori bunăstarea persoanelor care locuiesc în SUA; cu toate acestea, informațiile s-ar putea dovedi benefice și pentru alte seturi de formare în cercetare sau domenii suplimentare de sănătate publică.
  • OMS: Oferă seturi de date centrate pe prioritățile globale de sănătate. Platforma încorporează o funcție de căutare ușor de utilizat și oferă informații valoroase alături de seturile de date pentru o înțelegere cuprinzătoare a subiectelor la îndemână.
  • Re3Data: Oferă date care acoperă mai mult de 2,000 de subiecte de cercetare clasificate în mai multe arii largi. Deși nu toate seturile de date sunt libere accesibile, platforma indică în mod clar structura și permite o căutare ușoară pe baza unor factori precum taxele, cerințele de membru și restricțiile privind drepturile de autor.
  • Baza de date a mortalității umane oferă acces la date despre ratele mortalității, cifrele populației și diverse statistici demografice și de sănătate pentru 35 de țări.
  • CHDS: Seturile de date ale Studiilor privind sănătatea și dezvoltarea copilului au scopul de a investiga transmiterea intergenerațională a bolilor și a sănătății. Acesta cuprinde seturi de date pentru cercetarea nu numai a expresiei genomice, ci și a influenței factorilor sociali, de mediu și culturali asupra bolii și sănătății.
  • Provocarea activității moleculare Merck: Prezintă seturi de date concepute pentru a promova aplicarea învățării automate în descoperirea medicamentelor prin simularea potențialelor interacțiuni între diferite combinații de molecule.
  • 1000 genomilor proiect: Conține date de secvențiere de la 2,500 de indivizi din 26 de populații diferite, ceea ce îl face unul dintre cele mai mari depozite de genom accesibile. Această colaborare internațională poate fi accesată prin AWS. (Rețineți că granturile sunt disponibile pentru proiectele genomului.)

Seturi de date de imagini pentru științe vieții, sănătate și medicină:

  • Deschide Neuro: Ca platformă gratuită și deschisă, OpenNeuro partajează o gamă largă de imagini medicale, inclusiv date RMN, MEG, EEG, iEEG, ECoG, ASL și PET. Cu 563 de seturi de date medicale care acoperă 19,187 de participanți, acesta servește ca o resursă de neprețuit pentru cercetători și profesioniștii din domeniul sănătății.
  • Oază: Originar din seria de studii de imagistică cu acces deschis (OASIS), acest set de date se străduiește să ofere publicului date de neuroimagistă gratuit în beneficiul comunității științifice. Acesta cuprinde 1,098 de subiecți în 2,168 de sesiuni de MR și 1,608 de sesiuni PET, oferind o mulțime de informații pentru cercetători.
  • Inițiativa de neuroimagini pentru boala Alzheimer: Inițiativa de neuroimagini pentru boala Alzheimer (ADNI) prezintă date culese de cercetători din întreaga lume care sunt dedicați definirii progresiei bolii Alzheimer. Setul de date include o colecție cuprinzătoare de imagini RMN și PET, informații genetice, teste cognitive și LCR și biomarkeri de sânge, facilitând o abordare cu mai multe fațete pentru înțelegerea acestei afecțiuni complexe.

Seturi de date spital:

  • Catalog de date furnizor: accesați și descărcați seturi de date complete ale furnizorilor în domenii, inclusiv facilități de dializă, cabinete medicale, servicii de sănătate la domiciliu, îngrijire în hospice, spitale, reabilitare pentru pacienți internați, spitale de îngrijire pe termen lung, case de bătrâni cu servicii de reabilitare, costuri pentru vizitele la cabinetul medicului și directoarele furnizorilor.
  • Proiectul privind costurile și utilizarea asistenței medicale (HCUP): Această bază de date cuprinzătoare, la nivel național, a fost creată pentru a identifica, urmări și analiza tendințele naționale în utilizarea, accesul, tarifele, calitatea și rezultatele asistenței medicale. Fiecare set de date medicale din cadrul HCUP conține informații la nivel de întâlnire cu privire la toate șederii pacienților, vizitele la departamentele de urgență și operațiile ambulatorie din spitalele din SUA, oferind o mulțime de date pentru cercetători și factorii de decizie.
  • Baza de date MIMIC Critical Care: Dezvoltat de MIT în scopul fiziologiei computaționale, acest set de date medicale disponibile în mod deschis cuprinde date de sănătate de-identificate de la peste 40,000 de pacienți de îngrijiri critice. Setul de date MIMIC servește ca o resursă valoroasă pentru cercetătorii care studiază îngrijirea critică și dezvoltă noi metode de calcul.

Seturi de date despre cancer:

  • Imagini medicale CT: Conceput pentru a facilita metode alternative de examinare a tendințelor în datele imaginilor CT, acest set de date prezintă scanări CT ale pacienților cu cancer, concentrându-se pe factori precum contrastul, modalitatea și vârsta pacientului. Cercetătorii pot folosi aceste date pentru a dezvolta noi tehnici de imagistică și pentru a analiza modele în diagnosticul și tratamentul cancerului.
  • Colaborarea internațională pentru raportarea cancerului (ICCR): Seturile de date medicale din cadrul ICCR au fost dezvoltate și furnizate pentru a promova o abordare bazată pe dovezi a raportării cancerului la nivel mondial. Prin standardizarea raportării cancerului, ICCR își propune să îmbunătățească calitatea și comparabilitatea datelor despre cancer între instituții și țări.
  • SEER Incidența cancerului: furnizate de guvernul SUA, aceste date despre cancer sunt segmentate folosind distincții demografice de bază, cum ar fi rasa, sexul și vârsta. Setul de date SEER permite cercetătorilor să investigheze incidența cancerului și ratele de supraviețuire în diferite subgrupuri de populație, informând inițiativele de sănătate publică și prioritățile de cercetare.
  • Set de date despre cancerul pulmonar: Acest set de date gratuit conține informații despre cazurile de cancer pulmonar care datează din 1995. Cercetătorii pot folosi aceste date pentru a studia tendințele pe termen lung în ceea ce privește incidența, tratamentul și rezultatele cancerului pulmonar, precum și pentru a dezvolta noi instrumente de diagnostic și prognostic.

Resurse suplimentare pentru datele de sănătate:

  • Kaggle: Un depozit versatil de seturi de date – Kaggle rămâne o platformă remarcabilă pentru o gamă largă de seturi de date, care nu se limitează la sectorul asistenței medicale. Ideal pentru cei care se ramifică în diverse subiecte sau au nevoie de seturi de date diverse pentru formarea modelelor, Kaggle este o resursă de preferat.
  • Subreddit: O comoară condusă de comunitate – Discuțiile subreddit potrivite pot fi o mină de aur pentru seturile de date deschise. Pentru interogări de nișă sau specifice care nu sunt abordate de seturile de date publice, comunitatea Reddit ar putea deține răspunsul.

Accelerează-ți proiectele de inteligență artificială în domeniul sănătății cu seturile de date medicale premium de la Shaip, gata de utilizare

Set de date privind conversațiile medicului și pacientului

Setul nostru de date conține fișiere audio ale conversațiilor dintre medici și pacienți cu privire la sănătatea și planurile lor de tratament. Dosarele acoperă 31 de specialități medicale diferite.

Ce este inclus?

  • 257,977 de ore de dictare audio a unui doctor real pentru a antrena modele de vorbire pentru asistență medicală
  • Audio de la diverse dispozitive, cum ar fi telefoane, recordere digitale, microfoane de vorbire și smartphone-uri
  • Audio și transcrieri cu informații personale eliminate pentru a respecta legile de confidențialitate

Set de date de imagine CT SCAN

Oferim seturi de imagini de scanare CT de top pentru cercetare și diagnosticare medicală. Avem mii de imagini de înaltă calitate de la pacienți reali, procesate folosind cele mai noi tehnici. Seturile noastre de date ajută medicii și cercetătorii să înțeleagă mai bine diverse probleme de sănătate, cum ar fi cancerul, tulburările cerebrale și bolile de inimă.

Datele indică faptul că cele mai frecvente scanări CT sunt ale toracelui (6000) și ale capului (4350), cu un număr semnificativ de scanări efectuate și pentru abdomen, pelvis și alte părți ale corpului. Tabelul arată, de asemenea, că anumite scanări specializate, cum ar fi CT Covid HRCT și angio pulmonare, sunt efectuate în principal în India, Asia, Europa și altele.

Setul de date înregistrări electronice de sănătate (EHR).

Evidențele electronice de sănătate (EHR) sunt versiuni digitale ale istoricului medical al unui pacient. Acestea includ informații precum diagnostice, medicamente, planuri de tratament, date de imunizare, alergii, imagini medicale (cum ar fi scanări CT, RMN și raze X), teste de laborator și multe altele.

Caracteristicile setului nostru de date EHR gata de utilizat:

  • Peste 5.1 milioane de înregistrări și fișiere audio ale medicului care acoperă 31 de specialități medicale
  • Fișe medicale autentice, ideale pentru antrenamentul Clinical NLP și alte modele Document AI
  • Metadate, inclusiv MRN anonimizat, datele de admitere și de externare, durata șederii, sexul, clasa pacientului, plătitorul, clasa financiară, starea, dispozițiile de externare, vârsta, DRG, descrierea DRG, rambursare, AMLOS, GMLOS, riscul de mortalitate, severitatea bolii, grupul și codul poștal al spitalului
  • Înregistrări care acoperă toate clasele de pacienți: pacienți internați, ambulatori (clinic, de dezintoxicare, recurent, de îngrijire chirurgicală de zi) și de urgență
  • Documente cu informații de identificare personală (PII) redactate, respectând regulile HIPAA Safe Harbor

Setul de date pentru imagini RMN

Oferim seturi de date de imagini RMN premium pentru a sprijini cercetarea și diagnosticul medical. Colecția noastră extinsă include mii de imagini de înaltă rezoluție de la pacienți reali, toate procesate folosind metode de ultimă oră. Utilizând seturile noastre de date, profesioniștii din domeniul sănătății și cercetătorii își pot aprofunda înțelegerea unei game largi de afecțiuni medicale, conducând în cele din urmă la rezultate îmbunătățite pentru pacient.

Setul de date de imagini RMN ale diferitelor părți ale corpului, coloana vertebrală și creierul având cele mai mari numărări, 5000 fiecare. Datele sunt distribuite în India, Asia Centrală și Europa și regiunile din Asia Centrală.

Set de date pentru imagini cu raze X

Seturi de date cu raze X de cea mai bună calitate pentru cercetare și diagnosticare medicală. Avem mii de imagini de înaltă rezoluție de la pacienți reali, procesate folosind cele mai noi tehnici. Cu Shaip, puteți accesa date medicale de încredere pentru a vă îmbunătăți cercetările și rezultatele pacienților.

Distribuția setului de date cu raze X în diferite părți ale corpului, pieptul având cel mai mare număr de 1000 în Asia Centrală. Extremitățile inferioare și superioare au un număr total de 850 fiecare, distribuite între regiunile Asia Centrală și Asia Centrală și Europa.

Partajare socială