Îmbunătățirea înțelegerii interogărilor de căutare cu ajutorul adnotării umane

Valorificarea judecății umane și a taxonomiei structurate pentru a gestiona în mod consecvent cazurile limită ambigue și a îmbunătăți relevanța căutărilor pentru un conglomerat de comerț electronic de top cu sediul în Polonia.

Îmbunătățirea interogării de căutare

rezumatul proiectului

Clientul, un lider în comerțul electronic cu sediul în Polonia, primește zilnic milioane de interogări de căutare. Multe dintre aceste interogări sunt ambiguu, include erori de scriere, sau se referă la mai multe categorii de produse, creând provocări pentru motoarele de căutare automatizate.

Pentru a îmbunătățiprecizia căutării și experiența cliențilorShaip a dezvoltat un cadru structurat de adnotare inspirat de studiul lui Baymard. Interogările au fost clasificate sistematic în categorii 11 (de exemplu, Categorie de produs, Temă, Atribut specific, Exact, Comerciant, Simptom, Produs non-produs etc.) cu reguli de prioritate pentru a asigura o clasificare consistentă.

 

Îmbunătățirea interogării de căutare

Statistici cheie

Peste 50,000 de interogări adnotate

în mai multe categorii

11 clase de adnotare

cu definiții clare și reguli de precedență

Flux de lucru în 3 pași

Adnotare ➔ Asigurarea calității ➔ Arbitraj IMM

Domeniul de aplicare al proiectului

Proiectul s-a concentrat pe construirea unui taxonomie cuprinzătoare pentru a surprinde întregul spectru al comportamentului de căutare al utilizatorilor pe o platformă de piață la scară largă. Domeniul de aplicare a inclus:

  • Dezvoltarea unei taxonomii de 11 categorii cu definiții clare și o ierarhie de precedență pentru a aborda cazurile în care interogările s-ar putea încadra în mai multe clase.
  • Adnotarea a mii de interogări reale în ambele domenii, legate de produse și non-produs, pentru a antrena și calibra sistemul de clasificare.
  • Rezolvarea interogărilor ambigue prin escaladarea către experți în domeniu (IMM-uri), asigurând consecvența în modul în care au fost gestionate cazurile extreme.
  • Furnizarea de exemple adnotate și justificări pentru calibrarea QA, creând un set de antrenament pe care viitorii adnotatori s-ar putea baza ca referință.

Exemple de adnotări incluse:

  • De dietrich ELENSIO ➔ Exact
  • E 91 ➔ Greu de spus
  • tezfiles ➔ Comerciant
  • Subaru Brz Toyota GT86 ➔ Produs non-productiv
  • okulary BHP ➔ Categorie de produse
  • stawu skokowego ➔ Simptom

Activități

Proiectul a trebuit să depășească mai multe probleme de complexitate a datelor care sunt tipice în mediile de căutare din comerțul electronic:

Ambiguitate

Interogări precum „E 91” ar putea corespunde unor produse extrem de diferite (un model de mașină, un suport de siguranță, amprenta unei capsule), ceea ce face ca interpretarea să fie extrem de incertă.

Greșeli de scriere și variante

Greșelile de ortografie sau prescurtările, cum ar fi „lampa uf zestaw”, necesitau interpretare umană contextuală pentru a fi înțelese ca „lampa UV zestaw”.

Categorii suprapuse

Interogările se potriveau adesea cu mai multe clase (de exemplu, Exact vs. Compatibil vs. Atribut Specific), necesitând reguli de precedență pentru a asigura consecvența.

Intrări nevalide

Codurile de serie sau identificatorii fără nicio potrivire de produs trebuiau etichetați ca „Expresie nevalidă” în loc să fie clasificați greșit.

scalabilitate

Aplicarea consecventă a regulilor de clasificare nuanțate în zeci de mii de interogări a necesitat un control strict al calității și o guvernanță solidă a adnotărilor.

Soluţie

Pentru a aborda aceste provocări, o cadru de adnotare structurat a fost introdus, echilibrând automatizarea cu supravegherea umană:

Ghid de adnotare

Au fost create definiții detaliate, exemple și instrucțiuni pentru a ajuta adnotatorii să clasifice în mod consecvent, chiar și în scenarii complexe.

Reguli de precedență

A fost stabilită o ierarhie (de exemplu, Compatibil > Exact > Atribut specific), astfel încât cazurile care se suprapun au fost rezolvate sistematic.

Proces de asigurare a calității pe mai multe niveluri

  1. Adnotare inițială de către anotatori instruiți.
  2. Revizuire secundară de către specialiști în asigurarea calității.
  3. Escalarea către IMM-uri pentru arbitraj în cazuri marginale sau dezacorduri

Aplicarea practică a ghidurilor cu interogări din lumea reală

  • 4008146044786 ➔ Expresie nevalidă
  • miraculul croșelii Atribut tematic
  • gri galactic zcd Compatibil
  • owczarek belgian Temă

 Acest lucru a asigurat aliniere, calitate și fiabilitate de-a lungul conductei de adnotare.

Rezultat

Inițiativa a adus îmbunătățiri măsurabile ecosistemului de căutare al clientului:

  • Peste 50,000 de interogări clasificate cu precizie ridicată, formând un set de date robust de antrenament pentru îmbunătățiri ale căutării.
  • Relevanță îmbunătățită a rezultatelor căutării, sporind direct satisfacția utilizatorilor și reducând frustrarea cauzată de potrivirile irelevante.
  • Ambiguitate redusă prin rezolvarea sistematică a cazurilor limită prin arbitraj condus de IMM-uri și reguli de precedență.
  • Descoperibilitate îmbunătățită a produselor, asigurându-se că utilizatorii pot găsi articole mai precis în funcție de categorii, atribute și teme.

Per total, proiectul a pus bazele unei o experiență de căutare mai inteligentă, axată pe utilizator, ajutând clientul să își mențină avantajul competitiv pe piața comerțului electronic.

Fluxul de lucru pentru adnotări umane a adus claritate interogărilor de căutare complexe. Taxonomia structurată și regulile de precedență au îmbunătățit semnificativ precizia motorului nostru de căutare și au făcut experiențele utilizatorilor mai fluide.

– Șeful departamentului de căutare și descoperire, conglomeratul de comerț electronic cu sediul în Polonia

Golden-5-stele