Adnotare de date – NER

Adnotare de recunoaștere a entității denumite (NER) pentru NLP clinic

Adnotare Ner

Date clinice bine adnotate și standard de aur pentru a instrui/dezvolta NLP clinic pentru a construi următoarea versiune a API-ului pentru sănătate

Importanța procesării clinice a limbajului natural (NLP) a fost din ce în ce mai recunoscută în ultimii ani și a condus la progrese transformatoare. NLP clinică permite computerelor să înțeleagă semnificația bogată care se află în spatele analizei scrise de către un medic a unui pacient. NLP clinică poate avea mai multe cazuri de utilizare, de la analiza sănătății populației la îmbunătățirea documentației clinice la recunoașterea vorbirii la potrivirea studiilor clinice etc.

Pentru a dezvolta și antrena orice model clinic NLP, aveți nevoie de seturi de date precise, imparțiale și bine adnotate în volume enorme. Standardul de aur și datele diverse ajută la îmbunătățirea preciziei și a reamintirii motoarelor NLP.

Volum

Nr. de documente adnotate
10
Nr. pagini adnotate
10 +
Durata proiectului
< 1 luni

Provocări

Clientul aștepta cu nerăbdare să-și antreneze și să dezvolte Platforma de procesare a limbajului natural (NLP) cu noi tipuri de entități și, de asemenea, să identifice relația dintre diferitele tipuri. Mai mult, ei evaluau furnizori care ofereau o precizie ridicată, respectau legile locale și aveau cunoștințele medicale necesare pentru a adnota un set mare de date.

Sarcina a fost să eticheteze și să adnoteze până la 20,000 de înregistrări etichetate, inclusiv până la 15,000 de înregistrări etichetate din date din fișa medicală electronică (EHR) pentru pacienți internați și ambulatoriu și până la 5,000 de înregistrări etichetate din dictate medicale transcrise, distribuite în mod egal pe (1) proveniențe geografice și ( 2) specialități medicale disponibile.

Deci, pentru a rezuma provocările:

  • Organizați date clinice eterogene pentru a instrui Platforma NLP
  • Identificați relația dintre diferite entități pentru a obține informații critice
  • Capacitatea și expertiza de a eticheta/adnota un set larg de documente clinice complexe
  • Menținerea sub control a costurilor pentru a eticheta/adnota un volum mare de date pentru a instrui NLP clinic în intervalul de timp stipulat
  • Adnotați entitățile din setul de date clinice care constă din 75% EHR și 25% înregistrări dictare.
  • De-identificarea datelor la momentul livrării

Alte provocări în înțelegerea limbajului natural

Ambiguitate

Cuvintele sunt unice, dar pot avea semnificații diferite în funcție de context, rezultând ambiguitate la nivel lexical, sintactic și semantic.

Sinonimie

Putem exprima aceeași idee cu diferiți termeni care sunt și sinonimi: mare și mare înseamnă același lucru atunci când descriem un obiect.

Coreferinta

Procesul de găsire a tuturor expresiilor care se referă la aceeași entitate într-un text se numește rezoluție de coreferență.

Personalitate, intenție, emoții

În funcție de personalitatea vorbitorului, intenția și emoțiile acestuia pot fi exprimate diferit pentru aceeași idee.

Soluţie

Un volum mare de date și cunoștințe medicale este disponibil, sub formă de documente medicale, dar este în principal într-un format nestructurat. Cu Adnotarea entității medicale / Adnotarea recunoașterii entității denumite (NER), Shaip a reușit să convertească datele nestructurate într-un format structurat prin adnotarea informațiilor utile din diverse tipuri de înregistrări clinice. Odată ce entitățile au fost identificate, relația dintre ele a fost de asemenea mapată pentru a identifica informațiile critice.

Domeniul de activitate: Adnotarea menționării entității medicale

9 tipuri de entități

  • Conditie medicala
  • Procedura medicala
  • Structura anatomică
  • Medic
  • Dispozitiv medical
  • Masurarea corpului
  • Abuz Substanţă
  • Date de laborator
  • Funcția corpului

17 Modificatori

  • Modificatori de medicamente: putere, unitate, doză, de la, frecvență, traseu, durată, stare
  • Modificatori de măsurare a corpului: valoare, unitate, rezultat
  • Modificatori de procedură: Metodă
    • Modificator de date de laborator: Valoare de laborator, Unitate de laborator, Rezultat de laborator
  • Severitate
  • Rezultatul procedurii

27 Relații și starea pacientului

Rezultat

Datele adnotate vor fi folosite pentru a dezvolta și instrui Platforma clinică NLP a clientului, care va fi încorporată în următoarea versiune a API-ului pentru sănătate. Beneficiile pe care le-a obținut clientul au fost:

  • Datele etichetate/adnotate au respectat regulile standard de adnotare a datelor ale Clientului.
  • Au fost folosite seturi de date eterogene pentru a antrena Platforma NLP pentru o mai mare acuratețe.
  • Relația dintre diferite entități, adică Structura anatomică a corpului <> Dispozitiv medical, Afecțiune medicală <> Dispozitiv medical, Afecțiune medicală <> Medicație, Afecțiune medicală <> Au fost identificate proceduri pentru a obține informații medicale critice.
  • Setul larg de date care au fost etichetate/adnotate au fost, de asemenea, de-identificate la momentul livrării.

Colaborarea noastră cu Shaip a avansat semnificativ proiectul nostru în tehnologia ambientală și IA conversațională în domeniul sănătății. Expertiza lor în crearea și transcrierea dialogurilor de asistență medicală sintetică a oferit o bază solidă, prezentând potențialul datelor sintetice în depășirea provocărilor de reglementare. Cu Shaip, am depășit aceste obstacole și suntem acum cu un pas mai aproape de realizarea viziunii noastre despre soluții intuitive de asistență medicală.

Golden-5-stele

Accelerează-ți AI conversațional
dezvoltarea aplicațiilor cu 100%