Definiție
Recunoașterea entităților numite (NER) este o sarcină NLP care identifică și clasifică entități în text, cum ar fi persoane, organizații, locații, date sau produse.
Scop
Scopul este de a structura textul nestructurat prin extragerea entităților cheie. Acesta permite căutarea, extragerea informațiilor și construirea de grafuri de cunoștințe.
Importanță
- Fundamental pentru regăsirea informațiilor și conductele NLP.
- Erorile se propagă la aplicațiile din aval.
- NER-ul specific domeniului (de exemplu, medical, juridic) necesită seturi de date personalizate.
- Legat de sarcini precum legarea entităților și extragerea relațiilor.
Cum funcționează
- Colectarea și preprocesarea textului.
- Adnotați seturi de date cu categorii de entități.
- Antrenați modele pe exemple etichetate (CRF-uri, transformatoare).
- Preziceți entități în text nevăzut.
- Validați acuratețea cu date de testare.
Exemple (din lumea reală)
- spaCy: bibliotecă NLP open-source cu NER încorporat.
- Stanford CoreNLP: oferă instrumente de recunoaștere a entităților numite.
- NLP financiar: extrage numele companiilor din rapoarte.
Referințe/Lecturi suplimentare
- Jurafsky și Martin. Prelucrarea vorbirii și limbajului. Stanford.
- Lample și colab. „Arhitecturi neuronale pentru recunoașterea entităților numite.” ACL.
- Transformers Face Îmbrățișătoare NER Models.
- Ce este recunoașterea entității denumite (NER)