Studiu de caz: Licențierea setului de date medicale
Transformarea îngrijirii pediatrice și ob-ginecologice prin instruirea de precizie a datelor și adnotări
Deblocarea puterii datelor medicale: conservarea cuprinzătoare a datelor, de identificare, ICD-10 CM și adnotare pentru formarea superioară a modelului AI.
rezumatul proiectului
Shaip a semnat un parteneriat cu o companie lider de IA din domeniul sănătății pentru a crea și adnota seturi de date medicale de înaltă calitate, de-identificate, pentru antrenarea modelelor avansate de NLP. Proiectul s-a concentrat pe specialități Pediatrie și OB-GYN, furnizând înregistrări ambulatoriu adnotate cu coduri ICD-10 CM printr-un cadru API robust.
Setul de date a fost structurat pentru a facilita instruirea AI cu privire la documentația medicală din lumea reală, îmbunătățind capacitatea modelului de înțelegere a narațiunilor clinice.
Statistici cheie
750 pagini / ~300 de dosare ambulatorii
375 de pagini Pediatrie
375 de pagini OB-GYN
Adnotări ale codului medical ICD-10 CM 2023
Domeniul de aplicare al proiectului
| Tipul setului de date | Specialitate | Volum | Metadate capturate | notițe |
|---|---|---|---|---|
| Note medicale | Pediatrie | 375 de pagini (~150 de înregistrări) |
Nume fișier, specialitate, Tip document, clasa de pacient (pacient ambulatoriu) |
Include secțiuni de evaluare/plan |
| OB-GYN | 375 de pagini (~150 de înregistrări) | |||
| Adnotări | ICD-10 CM (2023) | Set de date complet | Maparea codului prin API | Validarea codului de către programatori nu este în domeniul de aplicare |
Activități
Proiectul a prezentat mai multe provocări critice care au necesitat o planificare și execuție meticuloasă:
1. Colectare de date specifice pentru specialitate
Aprovizionarea de înregistrări de înaltă calitate pentru pacienți ambulatoriu exclusiv din specialitățile de Pediatrie și OB-GYN a fost o provocare. Fiecare document trebuia să includă secțiuni clinice cheie, cum ar fi Evaluare și Plan, pentru a sprijini adnotări precise.
2. De-identificare cuprinzătoare a PHI
Asigurarea eliminării complete a tuturor informațiilor de identificare personală (PII), menținând în același timp contextul medical, a fost esențială pentru conformitatea cu HIPAA. Acest lucru a necesitat recenzii detaliate pentru a preveni orice încălcare a confidențialității.
3. Adnotare complexă ICD-10 CM
Aplicarea codurilor precise ICD-10 CM (2023) prin API a fost complexă datorită stilurilor narative variate și terminologiei medicale. Consecvența și acuratețea în codificare au fost esențiale pentru a asigura o pregătire fiabilă a modelului AI.
4. Acuratețea și consistența metadatelor
Capturarea și validarea metadatelor, cum ar fi specialitatea, tipul de document și clasa de pacienți, fără discrepanțe, a fost vitală. Orice nepotrivire ar putea afecta formarea modelului și utilizarea datelor.
5. Filtrare strictă în ambulatoriu
Asigurarea că toate înregistrările au fost strict ambulatoriu a adăugat complexitate, deoarece multe documente clinice pot conține clase de pacienți mixte sau secțiuni incomplete.
6. Standarde de asigurare a calității și acuratețe
Atingerea pragului de acuratețe de 90% a necesitat revizuiri pe mai multe niveluri pentru a elimina duplicatele, a valida alinierea specialității și a asigura deidentificarea - cu prevederi pentru reluare atunci când este necesar.
Soluţie
Licențiere și adnotare cuprinzătoare pentru date
- Fișe autorizate pentru ambulatoriu pediatric și ob-ginecologic
- Includerea asigurată a secțiunilor critice: plângere șef, istoric, ROS, evaluare, plan
- Adnotare ICD-10 CM bazată pe API (versiunea 2023)
De-identificare și conformitate
- PHI înlocuit cu substituenți (PERSON_NAME, DATE, LOCATION etc.)
- Asigurarea conformității cu standardele de confidențialitate a datelor din domeniul sănătății
Etichetarea metadatelor
- Metadate detaliate capturate per fișier:
-
- Nume fișier
- Specialitate (Pediatrie sau Ob-GYN)
- Tip document (Urmărire, H&P, Consultare)
- Clasa de pacienți (numai în ambulatoriu)
Controlul calității
- Evaluări riguroase ale calității cu:
- Fără înregistrări duplicat
- Validarea meciului de specialitate
- Verificare numai în ambulatoriu
- Verificarea consistenței metadatelor
- Înlocuirea sau corectarea înregistrărilor sub pragul de precizie de 90%.
Rezultat
Shaip a livrat un set de date structurat, adnotat pentru note medicale, care i-a permis clientului să:
- Antrenați modele AI pentru predicție precisă a codului ICD-10 CM
- Îmbunătățiți capabilitățile NLP în scenariile de asistență medicală din lumea reală
- Menține conformitatea cu standardele de confidențialitate și de reglementare
- Scalați modelele AI de asistență medicală în domeniile pediatrie și obstetricieni
Abordarea structurată a lui Shaip cu privire la curatarea și adnotarea setului de date a depășit așteptările noastre. Precizia, de-identificarea și precizia metadatelor au întărit semnificativ canalul nostru de formare a modelului AI.