Seturi de date de scriere de mână

Cele mai bune 15 seturi de date de scriere de mână open-source pentru a vă instrui modelele ML

Lumea afacerilor se transformă într-un ritm fenomenal, dar această transformare digitală nu este atât de vastă pe cât ne-am dori să fie. Oamenii încă se ocupă de documente fizice în operațiunile lor de zi cu zi, de la mari corporații până la întreprinderi mici. Deși frecvența de utilizare s-a redus considerabil, aceasta nu a fost complet eliminată. În locul procesului consumator de timp de scanare a documentelor pentru uz digital, folosind cele mai recente OCR este eficient în timp și eficient.

Creșterea utilizării recunoașterii optice a caracterelor poate fi atribuită în primul rând creșterii producției de sisteme de recunoaștere automată. Ca rezultat, valoarea de piață globală a tehnologiei OCR, fixată la $ 8.93 de miliarde de în 2021, se estimează că va crește la un CAGR de 15.4% între 2022 și 2030.

Dar ce este mai exact tehnologia OCR? Și de ce este un schimbător de joc pentru companiile care dezvoltă modele eficiente de IA? Să aflăm.

Ce este OCR?

Denumită alternativ recunoașterea textului, OCR sau recunoaștere optică a caracterelor este un program care extrage date tipărite sau scrise din documente scanate, PDF-uri doar cu imagini și note scrise de mână într-un format care poate fi citit de mașină. Software-ul scoate fiecare literă din imagine și le combină în cuvinte și propoziții, facilitând astfel accesul și editarea documentelor digital.

Ce sunt seturile de date open-source?

Există mai multe locuri în care tehnologia OCR are un mare potențial de a fi valorificată. Unele locuri includ aeroportul, publicarea de cărți electronice, reclamele, băncile și sistemele lanțului de aprovizionare. Cu toate acestea, pentru ca aplicațiile să-și servească scopul, aceștia trebuie să fie instruiți în funcție de proiect Seturi de date de recunoaștere optică a caracterelor.

Eficiența aplicației depinde în mare măsură de calitatea setului de date și de metodologia de instruire implicată. Cu toate acestea, găsirea digitală de calitate și seturi de date de scriere de mână este dificil de aplicat. Așadar, multe companii folosesc seturi de date open-source sau free-to-use în loc de cele proprietare.

Beneficiile și provocările setului de date open-source

Companiile trebuie să pună în față beneficiile și provocările pentru a înțelege dacă trebuie să opteze pentru date gratuite pentru aplicațiile lor ML.

Beneficii

  • Datele sunt ușor de accesat. Datorită disponibilității datelor, costul dezvoltării aplicației este redus semnificativ.
  • Timpul și efortul petrecut pentru colectarea datelor pentru aplicație sunt reduse semnificativ, deoarece setul de date este ușor disponibil.
  • Există o mulțime de forumuri comunitare sau grupuri de ajutor care ajută la învățarea, adaptarea și optimizarea setului de date.
  • Unul dintre avantajele majore ale setului de date open-source este că nu impune restricții privind personalizarea.
  •   Datele open-source sunt accesibile pentru o mare parte a populației, făcând posibile analiza și inovarea fără bariere monetare.

Provocări

  • Datele specifice proiectului sunt greu de achizitionat. În plus, există posibilitatea de a lipsi informații și de a utiliza incorectă datele disponibile.
  • Obținerea datelor proprietare necesită timp și efort și este costisitoare
  • Deși ar putea fi mai ușor să obțineți date, costul cunoștințelor și analizei ar putea depăși avantajul inițial.
  • Alți dezvoltatori folosesc, de asemenea, aceleași date pentru a dezvolta aplicații.
  • Aceste seturi de date sunt foarte vulnerabile la încălcări de securitate, confidențialitate și consimțământ.

15 cele mai bune seturi de date de scriere de mână și OCR pentru învățarea automată

Seturi de date OCR cu sursă deschisă

Multe seturi de date open-source sunt disponibile pentru dezvoltarea aplicațiilor de recunoaștere a textului. Unele dintre cele mai bune 15 sunt

  1. Setul de date ICDAR

    Conferința internațională pentru analiza și recunoașterea documentelor are un depozit de 229 de imagini de instruire și 233 de testare, împreună cu adnotări. Acționează ca un punct de referință pentru evaluarea detectării textului.

  2. Setul de date IIIT 5K-Word

    Preluat din căutarea de imagini Google, IIIT 5K-word este o colecție de cuvinte din panouri, panouri publicitare, plăcuțe de înmatriculare și postere. Conține imagini de cuvinte decupate de 5K, ceea ce o face una dintre cele mai extinse colecții de seturi de date de recunoaștere a textului disponibile.

  3. Baza de date NIST

    NIST sau Institutul Național de Știință oferă o colecție gratuită de peste 3600 de mostre de scris de mână cu peste 810,000 de imagini de caractere

  4. Baza de date MNIST

    Derivată din baza de date speciale 1 și 3 a NSIT, baza de date MNIST este o colecție compilată de 60,000 de numere scrise de mână pentru setul de antrenament și 10,000 de exemple pentru setul de testare. Această bază de date open-source ajută la antrenarea modelelor pentru a recunoaște tiparele, în timp ce petrece mai puțin timp preprocesării.

  5. Detectarea textului

    O bază de date open-source, setul de date Text Detection conține aproximativ 500 de imagini interioare și exterioare cu panouri, plăci de uși, plăci de avertizare și multe altele.

  6. Stanford OCR

    Publicat de Stanford, acest set de date gratuit este o colecție de cuvinte scrise de mână de către MIT Spoken Language Systems Group.

  7. DDI-100

    Altfel numit Setul de date pentru imagini de documente distorsionate, DDI-100 este o colecție de peste 6658 de pagini de documente cu mai multe modele geometrice și distorsiuni aplicate. În plus, DDI-100 are mai mult de 99870 de imagini, măști de ștampile, măști de text și casete de delimitare.

  8. RoadText-1K

    Unul dintre cele mai mari seturi de date care ajută la antrenarea modelelor pentru a detecta textul din videoclipuri, RoadText-1K conține 1000 de clipuri video complete cu adnotare text cu casetă de delimitare și transcriere a textului în fiecare cadru video.

  9. MSRA-TD500

    Conține 300 de imagini de antrenament și 200 de imagini text; MSRA-TD500 conține caractere din limbile chineză și engleză și este adnotat la nivel de propoziție.

  10. Setul de date MJSynth

    Furnizat de Universitatea din Oxford, acest set de date de cuvinte are aproape 9 milioane de imagini generate sintetic care acoperă peste 90 de mii de cuvinte în limba engleză.

  11. Text Street View

    Adunat din imaginile Google Street View, acest set de date conține imagini de detectare a textului, în principal de panouri și indicatoare la nivelul străzii.

  12. Baza de date de documente

    Baza de date de documente este o colecție de 941 de documente scrise de mână, inclusiv tabele, formule, desene, diagrame, liste și multe altele, de la 189 de scriitori.

  13. Expresii de matematică

    Mathematics Expressions este o bază de date care conține 101 de simboluri matematice și 10,000 de expresii.

  14. Numerele din Street View

    Recoltate din Google Street View, aceste numere de locuințe Street View sunt o bază de date care conține 73257 de cifre ale numerelor stradale.

  15. Mediul natural OCR

    Natural Environment OCR, este un set de date de aproape 660 de imagini din întreaga lume și 5238 de adnotări text.

Acestea au fost unele dintre cele mai importante seturi de date open-source pentru antrenarea modelelor ML pentru aplicațiile de detectare a textului. Selectarea celui care se aliniază cu nevoile dvs. de afaceri și aplicații ar putea necesita timp și efort. Cu toate acestea, trebuie să experimentați cu aceste seturi de date înainte de a vă decide asupra celui potrivit.

Pentru a vă ajuta să progresați către o aplicație fiabilă și eficientă de detectare a textului este Shaip – ​​furnizorul de soluții tehnologice de rang înalt. Ne valorificăm experiența tehnologică pentru a crea elemente personalizabile, optimizate și seturi de date eficiente de instruire OCR pentru diverse proiecte ale clientului. Pentru a ne înțelege pe deplin capacitățile, contactați-ne astăzi.

Partajare socială