Studiu de caz: Licențierea setului de date medicale

Transformarea îngrijirii pediatrice și ob-ginecologice prin instruirea de precizie a datelor și adnotări

Deblocarea puterii datelor medicale: conservarea cuprinzătoare a datelor, de identificare, ICD-10 CM și adnotare pentru formarea superioară a modelului AI.

Licențiere seturi de date medicale

rezumatul proiectului

Shaip a semnat un parteneriat cu o companie lider de IA din domeniul sănătății pentru a crea și adnota seturi de date medicale de înaltă calitate, de-identificate, pentru antrenarea modelelor avansate de NLP. Proiectul s-a concentrat pe specialități Pediatrie și OB-GYN, furnizând înregistrări ambulatoriu adnotate cu coduri ICD-10 CM printr-un cadru API robust.

Setul de date a fost structurat pentru a facilita instruirea AI cu privire la documentația medicală din lumea reală, îmbunătățind capacitatea modelului de înțelegere a narațiunilor clinice.

Licențiere seturi de date medicale

Statistici cheie

750 pagini / ~300 de dosare ambulatorii

375 de pagini Pediatrie

375 de pagini OB-GYN

Adnotări ale codului medical ICD-10 CM 2023

Domeniul de aplicare al proiectului

Tipul setului de date Specialitate Volum Metadate capturate notițe
Note medicale Pediatrie 375 de pagini (~150 de înregistrări) Nume fișier, specialitate,
Tip document, clasa de pacient (pacient ambulatoriu)
Include secțiuni de evaluare/plan
OB-GYN 375 de pagini (~150 de înregistrări)
Adnotări ICD-10 CM (2023) Set de date complet Maparea codului prin API Validarea codului de către programatori nu este în domeniul de aplicare

Activități

Proiectul a prezentat mai multe provocări critice care au necesitat o planificare și execuție meticuloasă:

1. Colectare de date specifice pentru specialitate

Aprovizionarea de înregistrări de înaltă calitate pentru pacienți ambulatoriu exclusiv din specialitățile de Pediatrie și OB-GYN a fost o provocare. Fiecare document trebuia să includă secțiuni clinice cheie, cum ar fi Evaluare și Plan, pentru a sprijini adnotări precise.

2. De-identificare cuprinzătoare a PHI

Asigurarea eliminării complete a tuturor informațiilor de identificare personală (PII), menținând în același timp contextul medical, a fost esențială pentru conformitatea cu HIPAA. Acest lucru a necesitat recenzii detaliate pentru a preveni orice încălcare a confidențialității.

3. Adnotare complexă ICD-10 CM

Aplicarea codurilor precise ICD-10 CM (2023) prin API a fost complexă datorită stilurilor narative variate și terminologiei medicale. Consecvența și acuratețea în codificare au fost esențiale pentru a asigura o pregătire fiabilă a modelului AI.

4. Acuratețea și consistența metadatelor

Capturarea și validarea metadatelor, cum ar fi specialitatea, tipul de document și clasa de pacienți, fără discrepanțe, a fost vitală. Orice nepotrivire ar putea afecta formarea modelului și utilizarea datelor.

5. Filtrare strictă în ambulatoriu

Asigurarea că toate înregistrările au fost strict ambulatoriu a adăugat complexitate, deoarece multe documente clinice pot conține clase de pacienți mixte sau secțiuni incomplete.

6. Standarde de asigurare a calității și acuratețe

Atingerea pragului de acuratețe de 90% a necesitat revizuiri pe mai multe niveluri pentru a elimina duplicatele, a valida alinierea specialității și a asigura deidentificarea - cu prevederi pentru reluare atunci când este necesar.

Soluţie

Licențiere și adnotare cuprinzătoare pentru date

  • Fișe autorizate pentru ambulatoriu pediatric și ob-ginecologic
  • Includerea asigurată a secțiunilor critice: plângere șef, istoric, ROS, evaluare, plan
  • Adnotare ICD-10 CM bazată pe API (versiunea 2023)

De-identificare și conformitate

  • PHI înlocuit cu substituenți (PERSON_NAME, DATE, LOCATION etc.)
  • Asigurarea conformității cu standardele de confidențialitate a datelor din domeniul sănătății

Etichetarea metadatelor

  • Metadate detaliate capturate per fișier:
    • Nume fișier
    • Specialitate (Pediatrie sau Ob-GYN)
    • Tip document (Urmărire, H&P, Consultare)
    • Clasa de pacienți (numai în ambulatoriu)

Controlul calității

  • Evaluări riguroase ale calității cu:
    • Fără înregistrări duplicat
    • Validarea meciului de specialitate
    • Verificare numai în ambulatoriu
    • Verificarea consistenței metadatelor
  • Înlocuirea sau corectarea înregistrărilor sub pragul de precizie de 90%.

Rezultat

Shaip a livrat un set de date structurat, adnotat pentru note medicale, care i-a permis clientului să:

  • Antrenați modele AI pentru predicție precisă a codului ICD-10 CM
  • Îmbunătățiți capabilitățile NLP în scenariile de asistență medicală din lumea reală
  • Menține conformitatea cu standardele de confidențialitate și de reglementare
  • Scalați modelele AI de asistență medicală în domeniile pediatrie și obstetricieni

Abordarea structurată a lui Shaip cu privire la curatarea și adnotarea setului de date a depășit așteptările noastre. Precizia, de-identificarea și precizia metadatelor au întărit semnificativ canalul nostru de formare a modelului AI.

Golden-5-Star