Colectarea datelor pentru IA conversațională

Cum să abordați colectarea datelor pentru IA conversațională

Astăzi, avem câțiva roboți vorbitori ca chatboți, asistenți virtuali și multe altele în casele noastre, sistemele auto, dispozitivele portabile, soluțiile de automatizare a locuinței etc. Aceste dispozitive ascultă cu exactitate ceea ce spunem și cum spunem și preiau rezultate sau execută sarcini specifice. .

Și dacă ați folosit un asistent ca Siri sau Alexa, ai realiza, de asemenea, că devin mai ciudate pe zi ce trece. Răspunsurile lor sunt pline de duh, răspund, refuză, oferă complimente și se comportă mai uman decât unii dintre colegii pe care poate îi cunoașteți. Nu glumim. Potrivit PwC, 27% dintre utilizatorii care au interacționat cu asociatul lor recent al serviciului pentru clienți nu știau dacă vorbesc cu un om sau cu un chatbot.

Dezvoltarea unor astfel de sisteme și dispozitive de conversație complicate este extrem de complexă și descurajantă. Este un joc de minge diferit, cu abordări distincte de dezvoltare. De aceea ne-am gândit că ar trebui să o descompunem pentru tine pentru o înțelegere mai ușoară. Deci, dacă doriți să dezvoltați un motor AI conversațional sau un asistent virtual, acest ghid vă va ajuta să obțineți claritate.

Semnificația IA conversațională

Pe măsură ce tehnologia devine un aspect mai integral al vieții noastre sub forma unor dispozitive și sisteme mai noi, apare nevoia de a împinge bariere, de a încălca convențiile și de a găsi noi modalități de a interacționa cu ele. De la simpla folosire a perifericelor conectate, cum ar fi mouse-ul și tastatura, am trecut la mouse pad-uri care oferă mai mult confort. Am migrat apoi la ecranele tactile care ofereau mai multă comoditate în alimentarea intrărilor și executarea sarcinilor.

Cu dispozitivele care devin extensii ale noastre, acum deblocăm un nou mediu de comandă prin voce. Nici măcar nu trebuie să fim lângă un dispozitiv pentru a-l opera. Tot ce trebuie să facem este să ne folosim vocea pentru a o debloca și a comanda intrările noastre. Dintr-o cameră din apropiere, când conduceți, în timp ce utilizați un alt dispozitiv simultan, IA conversațională îndeplinește sarcinile pe care le-am propus. Deci, de unde începem – totul începe cu date de vorbire de înaltă calitate pentru a antrena modele ML.

Elementele de bază ale colectării datelor de formare a vorbirii

Colectarea și adnotarea datelor de antrenament AI pentru IA conversațională este foarte diferită. Există o mulțime de complexități implicate în comenzile umane și trebuie implementate diverse măsuri pentru a se asigura că fiecare aspect este adaptat pentru rezultate de impact. Să ne uităm la care sunt unele dintre elementele fundamentale ale datelor de vorbire.

Înțelegerea limbajului natural (NLU)

Pentru ca chatboții și asistenții virtuali să înțeleagă și să răspundă la ceea ce trimitem text sau comandăm, un proces numit NLU este implementat. Inseamna Înțelegerea limbajului natural și implică trei concepte tehnologice pentru a interpreta și procesa diverse tipuri de input.

  • Scop

    Totul începe cu intenție. Ce încearcă un anumit utilizator să transmită, să comunice sau să realizeze printr-o comandă? Utilizatorul caută informații? Așteaptă actualizări pentru o acțiune? Comandă o instrucțiune pentru ca sistemul să o execute? Cum o comandă? Este printr-o întrebare sau o cerere? Toate aceste aspecte ajută mașinile să înțeleagă și să clasifice intențiile și scopurile pentru a veni cu răspunsuri etanșe.

  • Colecția de cuvinte

    Există o diferență între comanda „Unde este cel mai apropiat bancomat?” și comanda „Găsiți-mă un bancomat în apropiere”. Acum, oamenii ar recunoaște că ambele înseamnă același lucru, dar mașinile trebuie explicate cu această diferență. Sunt aceleași în ceea ce privește intenția, dar modul în care a fost modelată intenția este complet diferit.

    Colectarea de enunțuri se referă la definirea și maparea diferitelor enunțuri și fraze către obiective specifice pentru executarea precisă a sarcinilor și răspunsurilor. Din punct de vedere tehnic, specialiștii în adnotări de date lucrează la datele de vorbire sau de text pentru a ajuta mașinile să diferențieze acest lucru.

  • Extragerea entității

    Fiecare propoziție are cuvinte sau expresii specifice care au pondere accentuate și tocmai acest accent duce la o interpretare a contextului și scopului. Mașinile, ca și sistemele rigide care sunt, trebuie să fie alimentate cu linguriță astfel de entități. De exemplu, „Unde pot găsi corzi de la chitara mea lângă 6th Avenue?”

    Dacă rafinați propoziția, găsiți este entitatea unu, corzile sunt două, chitara este trei și a șasea avenue este 6. Aceste entități sunt combinate de mașini pentru a obține rezultate adecvate și pentru ca acest lucru să se întâmple, experții lucrează la backend.

Seturi de date standard de voce/vorbire/audio pentru a vă antrena mai rapid modelul AI conversațional

Proiectarea dialogurilor pentru IA conversațională

Scopul AI a fost în principal replicarea comportamentului uman prin gesturi, acțiuni și răspunsuri. Mintea umană conștientă are capacitatea înnăscută de a înțelege contextul, intenția, tonul, emoțiile și alți factori și de a răspunde în consecință. Dar cum pot mașinile să diferențieze aceste aspecte? 

Proiectarea dialogurilor pentru AI de conversație este foarte complex și, mai important, este destul de imposibil să lansați un model universal. Fiecare individ are un mod diferit de a gândi, de a vorbi și de a răspunde. Chiar și în răspunsuri, toți ne articulăm gândurile în mod unic. Deci, mașinile trebuie să asculte și să răspundă în consecință. 

Cu toate acestea, acest lucru nu este, de asemenea, lin. Când oamenii vorbesc, intervin factori precum accentele, pronunția, etnia, limba și alții și nu este ușor pentru mașini să înțeleagă și să interpreteze greșit cuvintele și să răspundă.. Un anumit cuvânt poate fi înțeles de mașini într-o multitudine de moduri atunci când este dictat de un indian, un britanic, un american și un mexican. Există o mulțime de bariere lingvistice care intră în joc și cel mai practic mod de a veni cu un sistem de răspuns este prin programarea vizuală care se bazează pe diagrame. 

Prin blocuri dedicate pt gesturi, răspunsuri și declanșatoare, autorii și experții pot ajuta mașinile să dezvolte un caracter. Acest lucru este mai mult ca o mașină de algoritm pe care o poate folosi pentru a veni cu răspunsurile corecte. Când o intrare este alimentată, informațiile circulă prin factori corespunzători, ceea ce duce la răspunsul corect pe care mașinile trebuie să le livreze. 

Formați D pentru diversitate

După cum am menționat, interacțiunile umane sunt foarte unice. Oamenii din întreaga lume provin din diferite medii sociale, medii, naționalități, categorii demografice, etnii, accente, dicție, pronunție și multe altele. 

Pentru ca un bot conversațional sau un sistem să fie operabil universal, acesta trebuie să fie antrenat cu date de antrenament cât mai diverse posibil. Dacă, de exemplu, un model a fost antrenat numai cu datele de vorbire ale unei anumite limbi sau etnie, un nou accent ar deruta sistemul și îl va obliga să ofere rezultate greșite. Acest lucru nu este doar jenant pentru proprietarii de afaceri, ci și insultător pentru utilizatori. 

De aceea, faza de dezvoltare ar trebui să implice date de instruire AI dintr-un grup bogat de seturi de date diverse compuse din oameni din toate mediile posibile. Cu cât sistemul tău înțelege mai multe accente și etnii, cu atât mai universal ar fi. În plus, ceea ce i-ar enerva mai mult pe utilizatori nu este preluarea incorectă a informațiilor, ci neînțelegerea intrărilor lor, în primul rând. 

Eliminarea părtinirii ar trebui să fie o prioritate cheie și o modalitate prin care companiile ar putea face acest lucru este să opteze pentru date crowdsourced. Când accesați în comun datele de vorbire sau de text, permiteți oamenilor din întreaga lume să contribuie la cerințele dvs., făcându-vă pool-ul de date numai sănătos (Citiți blogul pentru a înțelege beneficiile și capcanele externalizării datelor către lucrătorii crowdsource). Acum, modelul tău va înțelege diferite accente și pronunții și va răspunde în consecință. 

Calea înainte

Dezvoltarea IA conversațională este la fel de dificilă ca și creșterea unui copil. Singura diferență este că copilul va crește în cele din urmă să înțeleagă lucrurile și să devină mai bun în comunicarea autonomă. Sunt mașinile care trebuie împinse constant. Există mai multe provocări în acest spațiu în prezent și ar trebui să recunoaștem faptul că avem unele dintre cele mai revoluționare sisteme AI conversaționale care decurg în ciuda acestor provocări. Să așteptăm și să vedem ce ne rezervă viitorul pentru chatboții și asistenții virtuali de cartier prietenoși. Între timp, dacă intenționați să obțineți IA conversațională precum Google Home dezvoltată pentru afacerea dvs., contactați-ne pentru nevoile dvs. de date și adnotări de antrenament AI.

Partajare socială