Detectarea textului OCR și adnotarea transcripției
Cum a oferit Shaip adnotări la nivel de cuvânt cu casete de încadrare și transcriere la nivel de caracter pe diverse surse de text - documente tipărite, scris de mână, semnalistică, plăcuțe de înmatriculare, chitanțe - construite ca un set de date OCR și de informații despre documente de nivel de producție, cu o precizie de 99%.
rezumatul proiectului
Pe măsură ce OCR trece de la documentele tipărite curate la text din lumea reală și inteligența documentelor, clientul avea nevoie de o rețea de adnotări capabilă să gestioneze diverse tipuri de text, fonturi, orientări, limbi și condiții de suprafață, cu precizie atât spațială, cât și la nivel de caracter.
Shaip a construit canalul de adnotare end-to-end care acoperă plasarea casetelor de delimitare la nivel de cuvânt, transcrierea exactă a caracterelor, etichetarea multi-atribut și asigurarea calității duală spațială + transcriere — producând seturi de date OCR pregătite pentru model pentru peste 10 tipuri de surse de text.
Statistici cheie
Adnotare per imagine
Sute de cuvinte
Pragul de precizie
99%
Surse textuale
10+
Straturi de atribute
5
Activități
- Adnotarea fiecare instanță de text vizibilă la nivel de cuvânt — sute per imagine densă
- Combinând precizia casetei de încadrare spațială implementate cu transcriere exactă la nivel de caracter în paralel
- Manipularea text curbat, distorsionat din perspectivă și rotit pe panouri publicitare și etichete de produse
- Transcrierea estompat, cu contrast scăzut și parțial ocluzionat cuvinte fără a ghici caracterele ilizibile
- De conducere text în limbaj mixt și în mai multe alfabete în cadrul aceleiași imagini
Soluţie
Adnotare spațială la nivel de cuvânt
Fiecare instanță de text vizibilă din fiecare imagine a fost adnotată individual cu o casetă de delimitare strâns ajustată la nivel de cuvânt — surprinzând locația spațială exactă a fiecărui element de text. Pentru imagini dense, cum ar fi chitanțe sau formulare, aceasta a însemnat sute de adnotări individuale per imagine, fiecare menținând precizia alinierii de bază.
Transcriere la nivel de caracter
Alături de caseta de încadrare, adnotatorii au transcris conținutul textual exact al fiecărui cuvânt, inclusiv numere, caractere speciale, punctuație și combinații alfanumerice. Acest flux de lucru dual - spațial + transcriere - a fost realizat în paralel cu reguli de consistență pe ambele straturi.
Acoperire multi-surse
Acoperirea a cuprins o gamă extrem de diversă de surse: documente tipărite, note scrise de mână, semnalizare stradală, etichete de produse, plăcuțe de înmatriculare, vitrine magazine, panouri publicitare, chitanțe, facturi, meniuri și câmpuri de formular. Fiecare tip de sursă a venit cu propriile instrucțiuni de adnotare adaptate la caracteristicile sale vizuale.
Etichetare atribute pe 5 straturi
Fiecare regiune de text adnotată a fost îmbogățită cu atribute care acoperă orientarea textului (orizontală, verticală, diagonală), limba și tipul de scriere, claritatea textului (clar lizibil, parțial lizibil, complet ilizibil), stilul fontului (tipărit vs. scris de mână) și tipul de fundal al textului (simpl, cu model, complex). Acest strat bogat de atribute permite modelului antrenat să gestioneze diverse condiții de text din lumea reală, mult dincolo de OCR-ul standard al documentelor.
Prag de vizibilitate și QA dublu
Pragurile minime de vizibilitate au fost reglementate de reguli stricte — textul ilizibil a fost semnalizat în loc să fie ghicit, menținând integritatea setului de date. Fiecare imagine adnotată a trecut printr-un proces de asigurare a calității pe două niveluri, care combină verificarea preciziei casetei de delimitare și validarea acurateței transcrierii, cu un prag de precizie de 99% pe ambele straturi.
Domeniul de aplicare al proiectului
| Tipul setului de date | Nivel de adnotare | Surse | Atribute | QA | Acuratețe |
|---|---|---|---|---|---|
| Detectare text OCR + transcriere | Casete de cuvinte + transcrierea caracterelor | Peste 10 tipuri de surse | 5 straturi de atribute | QC dual spațial + transcripțional | 99% |
Rezultate
- Înființat a conductă de transcriere spațială duală la nivel de cuvânt + la nivel de caracter pentru OCR AI
- standardizat Acoperire cu peste 10 surse text care se întinde pe documente, text de scenă și scris de mână
- Livrat 5 straturi de atribute pentru orientare, limbă, claritate, font și fundal
- Menținut Poartă cu precizie de 99% atât în straturile QA spațiale, cât și în cele ale transcripției
- A activat clientul digitalizarea documentelor, OCR pentru comerțul cu amănuntul, navigare, servicii bancare și juridice Aplicații AI
Per total, Shaip a contribuit la transformarea unei cerințe de adnotare text multi-sursă într-un flux OCR structurat, pregătit pentru producție - unul capabil să sprijine digitalizarea documentelor, detectarea textului scenelor, inteligența în retail, automatizarea bancară și conformitatea legală prin inteligență artificială, cu precizie dublă spațială și de transcriere.
Shaip a gestionat cazurile limită de OCR pe care majoritatea furnizorilor nu le pot gestiona - text curbat al semnalizării, scripturi mixte, chitanțe estompate, notițe scrise de mână. Controlul lor dublu de calitate, atât pentru casetele de încadrare, cât și pentru transcrieri, ne-a oferit date de instruire pe care le puteam implementa.
— Director, Document AI