Creșterea utilizării recunoașterii optice a caracterelor poate fi atribuită în primul rând creșterii producției de sisteme de recunoaștere automată. Ca rezultat, valoarea de piață globală a tehnologiei OCR, fixată la $ 8.93 de miliarde de în 2021, se estimează că va crește la un CAGR de 15.4% între 2022 și 2030.
Dar ce este mai exact tehnologia OCR? Și de ce este un schimbător de joc pentru companiile care dezvoltă modele eficiente de IA? Să aflăm.
Ce este OCR (Optical Character Recognition)?
OCR este o tehnologie care convertește diferite tipuri de documente, cum ar fi documente de hârtie scanate, PDF-uri sau imagini de text, în date editabile și căutate. Funcționează prin:
- Analizarea structurii textului dintr-o imagine
- Împărțirea textului în rânduri și caractere
- Conversia acestor caractere vizuale în text care poate fi citit de mașină
Utilizările comune includ:
- Conversia documentelor scanate în fișiere text editabile
- Digitalizarea cărților tipărite
- Extragerea textului din fotografii
- Conversia rețetelor scrise de mână în text digital
- Recunoașterea numerelor de înmatriculare
Beneficiile și provocările setului de date open-source
Companiile trebuie să pună în față beneficiile și provocările pentru a înțelege dacă trebuie să opteze pentru date gratuite pentru aplicațiile lor ML.
Beneficii
- Datele sunt ușor de accesat. Datorită disponibilității datelor, costul dezvoltării aplicației este redus semnificativ.
- Timpul și efortul petrecut pentru colectarea datelor pentru aplicație sunt reduse semnificativ, deoarece setul de date este ușor disponibil.
- Există o mulțime de forumuri comunitare sau grupuri de ajutor care ajută la învățarea, adaptarea și optimizarea setului de date.
- Unul dintre avantajele majore ale setului de date open-source este că nu impune restricții privind personalizarea.
- Datele open-source sunt accesibile pentru o mare parte a populației, făcând posibile analiza și inovarea fără bariere monetare.
Provocări
- Datele specifice proiectului sunt greu de achizitionat. În plus, există posibilitatea de a lipsi informații și de a utiliza incorectă datele disponibile.
- Obținerea datelor proprietare necesită timp și efort și este costisitoare
- Deși ar putea fi mai ușor să obțineți date, costul cunoștințelor și analizei ar putea depăși avantajul inițial.
- Alți dezvoltatori folosesc, de asemenea, aceleași date pentru a dezvolta aplicații.
- Aceste seturi de date sunt foarte vulnerabile la încălcări de securitate, confidențialitate și consimțământ.
22 cele mai bune seturi de date de scriere de mână și OCR pentru învățarea automată
Multe seturi de date open-source sunt disponibile pentru dezvoltarea aplicațiilor de recunoaștere a textului. Unele dintre cele mai bune 22 sunt
Baza de date NIST
NIST sau Institutul Național de Știință oferă o colecție gratuită de peste 3600 de mostre de scris de mână cu peste 810,000 de imagini de caractere
Baza de date MNIST
Derivată din baza de date speciale 1 și 3 a NSIT, baza de date MNIST este o colecție compilată de 60,000 de numere scrise de mână pentru setul de antrenament și 10,000 de exemple pentru setul de testare. Această bază de date open-source ajută la antrenarea modelelor pentru a recunoaște tiparele, în timp ce petrece mai puțin timp preprocesării.
Detectarea textului
O bază de date open-source, setul de date Text Detection conține aproximativ 500 de imagini interioare și exterioare cu panouri, plăci de uși, plăci de avertizare și multe altele.
Stanford OCR
Publicat de Stanford, acest set de date gratuit este o colecție de cuvinte scrise de mână de către MIT Spoken Language Systems Group.
Text Street View
Adunat din imaginile Google Street View, acest set de date conține imagini de detectare a textului, în principal de panouri și indicatoare la nivelul străzii.
Baza de date de documente
Baza de date de documente este o colecție de 941 de documente scrise de mână, inclusiv tabele, formule, desene, diagrame, liste și multe altele, de la 189 de scriitori.
Expresii de matematică
Mathematics Expressions este o bază de date care conține 101 de simboluri matematice și 10,000 de expresii.
Numerele din Street View
Recoltate din Google Street View, aceste numere de locuințe Street View sunt o bază de date care conține 73257 de cifre ale numerelor stradale.
Mediul natural OCR
Natural Environment OCR, este un set de date de aproape 660 de imagini din întreaga lume și 5238 de adnotări text.
Expresii de matematică
Peste 10,000 de expresii cu peste 101 de simboluri matematice.
Caractere chinezești scrise de mână
Un set de date de 909,818 imagini cu caractere chinezești scrise de mână, echivalentul a aproximativ 10 articole de știri.
Text tipărit arab
Un lexicon de 113,284 de cuvinte folosind 10 fonturi arabe.
Text în engleză scris de mână
Text în limba engleză scris de mână pe o tablă cu peste 1700 de intrări.
3000 de medii Imagini
3000 de imagini din diverse medii, inclusiv scene exterioare și interioare sub diferite lumini.
Date Chars74K
74,000 de imagini cu cifre în engleză și kannada.
IAM (scris de mână IAM)
Baza de date IAM are 13,353 de imagini text scrise de mână de 657 de scriitori din Corpusul englezului britanic Lancaster-Oslo/Bergen.
FUNSD (înțelegerea formularelor în documente scanate zgomotoase)
FUNSD include 199 de formulare adnotate, scanate, cu apariții variate și zgomotoase, dificile pentru înțelegerea formularelor.
Text OCR
TextOCR evaluează recunoașterea textului pe scenă-text cu formă arbitrară în imagini naturale.
Twitter 100k
Twitter100k este un set mare de date pentru recuperarea cross-media slab supravegheată.
SSIG-SegPlate – Segmentarea caracterelor plăcuței de înmatriculare (LPCS)
Acest set de date evaluează License Plate Character Segmentation (LPCS) cu 101 imagini de vehicule în timpul zilei.
105,941 imagini Scene naturale Date OCR din 12 limbi
Datele includ 12 limbi (6 asiatice, 6 europene) și diverse scene și unghiuri naturale. Dispune de casete de delimitare la nivel de linie și transcripții de text. Este util pentru sarcini OCR în mai multe limbi.
Setul de date pentru imaginea panoului indian
Setul de date conține imagini indiene de semne de trafic pentru clasificare și detectare, luate în diferite condiții meteorologice în timpul zilei, serii și nopții.
Acestea au fost unele dintre cele mai importante seturi de date open-source pentru antrenarea modelelor ML pentru aplicațiile de detectare a textului. Selectarea celui care se aliniază cu nevoile dvs. de afaceri și aplicații ar putea necesita timp și efort. Cu toate acestea, trebuie să experimentați cu aceste seturi de date înainte de a vă decide asupra celui potrivit.
[Citește și: Infografică OCR – Definiție, beneficii, provocări și cazuri de utilizare]
Pentru a vă ajuta să progresați către o aplicație fiabilă și eficientă de detectare a textului este Shaip – furnizorul de soluții tehnologice de rang înalt. Ne valorificăm experiența tehnologică pentru a crea seturi de date de instruire OCR personalizabile, optimizate și eficiente pentru diverse proiecte ale clienților. Pentru a ne înțelege pe deplin capacitățile, contactați-ne astăzi.