Analiza datelor structurate poate ajuta la o mai bună diagnosticare și îngrijire a pacientului. Cu toate acestea, analiza datelor nestructurate poate alimenta descoperiri și descoperiri medicale revoluționare.
Acesta este esența subiectului pe care îl vom discuta astăzi. Este foarte interesant de observat că atât de multe progrese radicale în spațiul tehnologiei medicale s-au întâmplat cu doar 10-20% din datele de sănătate utilizabile.
Statisticile arată că peste 90% din datele din acest spectru sunt nestructurate, ceea ce se traduce în date care sunt mai puțin utilizabile și mai greu de înțeles, interpretat și aplicat. De la date analogice, cum ar fi rețeta unui medic, până la date digitale sub formă de imagini medicale și date audiovizuale, datele nestructurate sunt de diferite tipuri.
Astfel de bucăți masive de date nestructurate găzduiesc informații incredibile care pot avansa rapid progresele în domeniul sănătății cu decenii. Fie că ajută la descoperirea de medicamente pentru bolile autoimune critice care consumă viața la date care pot ajuta companiile de asigurări de sănătate în evaluarea riscurilor, datele nestructurate pot deschide calea pentru posibilități necunoscute.
Când astfel de ambiții sunt în vigoare, interpretabilitatea și interoperabilitatea datelor din domeniul sănătății devin cruciale. Cu orientări stricte și aplicarea respectarea reglementărilor cum ar fi GDPR și HIPAA în vigoare, ceea ce devine inevitabil este de-identificarea datelor de sănătate.
Am acoperit deja un articol amplu despre demistificare date structurate de sănătate și date de sănătate nestructurate. Există un articol dedicat (citiți pe larg) despre de-identificarea datelor de sănătate de asemenea. Vă îndemnăm să le citiți pentru informații holistice, deoarece vom avea acest articol pentru o piesă specială de-identificarea datelor nestructurate.
Provocări în de-identificarea datelor nestructurate
După cum sugerează și numele, datele nestructurate nu sunt organizate. Este împrăștiat în termeni de formate, tipuri de fișiere, dimensiuni, context și multe altele. Simplul fapt că datele nestructurate există sub forme audio, text, imagistică medicală, intrări analogice și altele face cu atât mai dificilă înțelegerea identificatorilor de informații personale (PII), care este esențial în de-identificarea datelor nestructurate.
Pentru a vă oferi o privire asupra provocărilor fundamentale, iată o listă rapidă:
- Înțelegerea contextuală – acolo unde este dificil pentru o parte interesată AI să înțeleagă contextul specific din spatele unei anumite porțiuni sau aspect al datelor nestructurate. De exemplu, înțelegerea dacă un nume este un nume de companie, numele unei persoane sau un nume de produs poate aduce o dilemă dacă ar trebui să fie de-identificat.
- Date non-textuale – unde identificarea indiciilor auditive sau vizuale pentru nume sau PII poate fi o sarcină descurajantă, deoarece o parte interesată poate fi nevoită să treacă ore și ore de filmare sau înregistrare încercând să deidentifice aspectele critice.
- Ambiguitate – acest lucru este valabil în mod specific în contextul datelor analogice, cum ar fi rețeta unui medic sau o înregistrare a unui spital într-un registru. De la scriere de mână până la limitările de exprimare în limbaj natural, ar putea face de-identificarea datelor o sarcină complexă.
Cele mai bune practici de deidentificare a datelor nestructurate
Procesul de eliminare a PII din datele nestructurate este destul de diferit de de-identificarea datelor structurate dar nu imposibil. Printr-o abordare sistematică și contextuală, potențialul datelor nestructurate poate fi exploatat fără probleme. Să ne uităm la diferitele moduri în care se poate realiza acest lucru.
Redactarea imaginii: Aceasta se referă la datele imagistice medicale și implică eliminarea identificatorilor pacienților și estomparea referințelor anatomice și a porțiunilor din imagini. Acestea sunt înlocuite cu caractere speciale pentru a păstra în continuare funcționalitatea de diagnosticare și utilitatea datelor imagistice.
Potrivire de model: Unele dintre cele mai comune PII, cum ar fi numele, detaliile de contact și adresele, pot fi detectate și eliminate folosind înțelepciunea studierii tiparelor predefinite.
Confidențialitate diferențială sau perturbare a datelor: Aceasta implică includerea zgomotului controlat pentru a ascunde datele sau atributele care pot fi urmărite până la o persoană. Această metodă ideală nu numai că asigură de-identificarea datelor, ci și păstrarea proprietăților statistice ale setului de date pentru analize.
De-identificarea datelor: Aceasta este una dintre cele mai fiabile și eficiente modalități de a elimina informațiile personale din datele nestructurate. Acest lucru poate fi implementat într-unul din două moduri:
- Învățare supravegheată – în cazul în care un model este antrenat pentru a clasifica textul sau datele ca PII sau non-PII
- Învățare nesupravegheată – în cazul în care un model este antrenat să învețe în mod autonom să detecteze modele în identificarea PII
Această metodă asigură protejarea intimitatea pacientului păstrând totodată intervenția umană pentru cele mai redundante aspecte ale sarcinii. Părțile interesate și furnizorii de date de asistență medicală care implementează tehnici ML pentru a de-identifica datele nestructurate pot avea pur și simplu un proces de asigurare a calității activat de om pentru a asigura corectitudinea, relevanța și acuratețea rezultatelor.
Mascarea datelor: Mascarea datelor este jocul de cuvinte digital pentru de-identificarea datelor de asistență medicală, în cazul în care identificatorii specifici devin generici sau vagi prin tehnici de nișă, cum ar fi:
- Tokenizare - implicând înlocuirea PII-urilor cu caractere sau jetoane
- generalizare - prin înlocuirea valorilor PII specifice cu cele generice/vagi
- amestecare – amestecând PII pentru a le face ambigue
Cu toate acestea, această metodă vine cu o limitare că, cu un model sau o abordare sofisticată, datele pot fi re-identificabile
Outsourcing către jucătorii de pe piață
Singura abordare corectă pentru asigurarea procesului de de-identificarea datelor nestructurate este etanș, fără greșeli și aderă la liniile directoare HIPAA este de a externaliza sarcinile către un furnizor de servicii de încredere, cum ar fi Shaip. Cu modele de ultimă generație și protocoale rigide de asigurare a calității, asigurăm supravegherea umană a confidențialității datelor este atenuată în orice moment.
Fiind o întreprindere dominantă pe piață de ani de zile, înțelegem criticitatea proiectelor dumneavoastră. Așadar, contactați-ne astăzi pentru a vă optimiza ambițiile în domeniul sănătății cu date de asistență medicală de-identificate de Shaip.


