Cheia pentru depășirea obstacolelor în dezvoltarea AI

Date mai fiabile

Introducere
Cheia pentru a depăși obstacolele AI?
Provocarea calității inconsecvente a datelor
Navigarea cerințelor complexe de conformitate
Depășirea obstacolelor în dezvoltarea AI
Hai să vorbim

Introducere

Inteligența artificială a început să capteze imaginația atunci când Omul de Tinichea din „Vrăjitorul din Oz” a ajuns pe ecranul de argint în 1939 și de atunci a câștigat o poziție mai fermă în zeitgeist. În aplicare, totuși, produsele AI au trecut prin cicluri regulate de expansiune și declin care au împiedicat până acum cele mai influente adoptări.

În timpul boom-urilor, inginerii și cercetătorii au făcut progrese uriașe, dar când aspirațiile lor depășesc inevitabil capacitățile de calcul disponibile la acea vreme, a urmat o perioadă de repaus. Din fericire, creșterea exponențială a puterii de calcul profețită de Legea lui Moore în 1965 s-a dovedit în cea mai mare parte exactă, iar semnificația acestei creșteri este greu de supraestimat.

Citiți cartea electronică: Cheia pentru depășirea obstacolelor în dezvoltarea AI sau descărcați o versiune PDF a cărții electronice.

Cuprins

Introducere

Cheia pentru a depăși obstacolele AI?

Provocarea calității inconsecvente a datelor

Navigarea cerințelor complexe de conformitate

Depășirea obstacolelor în dezvoltarea AI

Hai să vorbim

Cheia pentru depășirea obstacolelor în dezvoltarea AI: date mai fiabile

Astăzi, o persoană obișnuită are acum de milioane de ori mai multă putere de calcul în buzunar decât a avut-o NASA pentru a ateriza pe Lună în 1969. Același dispozitiv omniprezent care demonstrează în mod convenabil o abundență de putere de calcul îndeplinește, de asemenea, o altă condiție prealabilă pentru epoca de aur a AI: o abundență de date. Potrivit informațiilor de la Information Overload Research Group, 90% din datele lumii au fost create în ultimii doi ani. Acum, că creșterea exponențială a puterii de calcul a convergit în sfârșit cu o creștere la fel de fulgerătoare în generarea de date, inovațiile de date AI explodează atât de mult încât unii experți cred că vor declanșa o a patra revoluție industrială.

Datele Asociației Naționale de Capital de Risc indică faptul că sectorul AI a înregistrat o investiție record de 6.9 miliarde USD în primul trimestru al anului 2020. Nu este greu să vedem potențialul instrumentelor AI, deoarece este deja valorificat în jurul nostru. Unele dintre cele mai vizibile cazuri de utilizare pentru produsele AI sunt motoarele de recomandare din spatele aplicațiilor noastre preferate, cum ar fi Spotify și Netflix. Deși este distractiv să descoperi un artist nou pe care să îl asculți sau o nouă emisiune TV pe care să o urmărești, aceste implementări sunt destul de mici. Alți algoritmi notează scorurile testelor – determinând parțial locul în care studenții sunt acceptați la facultate – și încă alții cernează CV-urile candidaților, decid ce candidați primesc un anumit loc de muncă. Unele instrumente AI pot avea chiar implicații pe viață sau pe moarte, cum ar fi modelul AI care testează cancerul de sân (care îi depășește pe medici).

În ciuda creșterii constante atât a exemplelor din lumea reală de dezvoltare a inteligenței artificiale, cât și a numărului de startup-uri care luptă pentru a crea următoarea generație de instrumente de transformare, provocările pentru dezvoltarea și implementarea eficientă rămân. În special, ieșirea AI este atât de precisă pe cât permite intrarea, ceea ce înseamnă că calitatea este primordială.

Provocarea calității inconsecvente a datelor în soluțiile AI

Într-adevăr, se generează o cantitate incredibilă de date în fiecare zi: 2.5 trilioane de octeți, potrivit Social Media Today. Dar asta nu înseamnă că totul merită să-ți antrenezi algoritmul. Unele date sunt incomplete, altele sunt de calitate scăzută, iar altele sunt pur și simplu inexacte, așa că utilizarea oricăreia dintre aceste informații defectuoase va avea ca rezultat aceleași trăsături din inovația dvs. (costisitoare) a datelor AI. Potrivit cercetărilor de la Gartner, aproximativ 85% dintre proiectele AI create până în 2022 vor produce rezultate inexacte din cauza datelor părtinitoare sau inexacte. Deși puteți sări cu ușurință o recomandare de cântec care nu se potrivește gusturilor dvs., alți algoritmi inexacți au un cost financiar și reputațional semnificativ.

În 2018, Amazon a început să folosească un instrument de angajare bazat pe inteligență artificială, în producție din 2014, care avea o părtinire puternică și inconfundabilă împotriva femeilor. Se dovedește că modelele de computer care stau la baza instrumentului au fost instruite folosind CV-uri transmise companiei pe parcursul unui deceniu. Deoarece majoritatea solicitanților de tehnologie erau bărbați (și încă mai sunt, poate datorită acestei tehnologii), algoritmul a decis să penalizeze CV-urile cu „femei” incluse oriunde – căpitan de fotbal feminin sau grup de afaceri pentru femei, de exemplu. S-a hotărât chiar să sancționeze solicitanții a două colegii pentru femei. Amazon susține că instrumentul nu a fost niciodată folosit ca unic criteriu pentru evaluarea potențialilor candidați, totuși recrutorii s-au uitat la motorul de recomandare atunci când au căutat noi angajați.

Instrumentul de angajare Amazon a fost în cele din urmă abandonat după ani de muncă, dar lecția persistă, subliniind importanța calității datelor atunci când antrenați algoritmi și instrumente AI. Cum arată datele „de înaltă calitate”? Pe scurt, bifează aceste cinci casete:

1. Relevant

Pentru a fi considerate de înaltă calitate, datele trebuie să aducă ceva valoros procesului decizional. Există o corelație între statutul unui solicitant de locuri de muncă ca campion de stat la sărituri cu coșchi și performanța lor la locul de muncă? Este posibil, dar pare foarte puțin probabil. Prin eliminarea datelor care nu sunt relevante, un algoritm se poate concentra pe sortarea informațiilor care afectează efectiv rezultatele.

2. Acurate

Datele pe care le utilizați trebuie să reprezinte cu exactitate ideile pe care le testați. Dacă nu, nu merită. De exemplu, Amazon și-a antrenat algoritmul de angajare folosind 10 ani de CV-uri ale solicitanților, dar nu este clar dacă compania a confirmat mai întâi informațiile furnizate în acele CV-uri. Cercetările de la compania de verificare a referințelor Checkster demonstrează că 78% dintre solicitanți mint sau ar lua în considerare să mintă la o cerere de angajare. Dacă un algoritm ia decizii de recomandare folosind GPA-ul unui candidat, de exemplu, este o idee bună să confirmați mai întâi autenticitatea acelor numere. Acest proces ar necesita timp și bani, dar ar îmbunătăți, fără îndoială, acuratețea rezultatelor tale.

3. Organizat și adnotat corespunzător

În cazul unui model de angajare bazat pe CV, adnotarea este relativ ușoară. Într-un fel, un CV vine pre-adnotat, deși fără îndoială ar exista excepții. Majoritatea candidaților își listează experiența de muncă la rubrica „Experiență” și abilitățile relevante la „Abilități”. Cu toate acestea, în alte situații, precum screening-ul cancerului, datele vor fi mult mai variate. Informațiile pot veni sub formă de imagistică medicală, rezultatele unui screening fizic sau chiar o conversație între medic și pacient despre istoricul de sănătate a familiei și cazurile de cancer, printre alte forme de date. Pentru ca aceste informații să contribuie la un algoritm de detectare precis, trebuie să fie atent organizate și adnotate pentru a se asigura că modelul AI învață să facă predicții precise pe baza inferențelor corecte.

4. La zi

Amazon încerca să creeze un instrument care să economisească timp și bani, reproducând aceleași decizii de angajare pe care oamenii le iau în mult mai puțin timp. Pentru a face recomandările cât mai exacte posibil, datele ar trebui să fie păstrate la zi. Dacă o companie a demonstrat odată o preferință pentru candidații cu capacitatea de a repara mașini de scris, de exemplu, aceste angajări istorice probabil că nu ar avea prea multă influență asupra aptitudinii candidaților actuali pentru orice fel de rol. Drept urmare, ar fi înțelept să le eliminați.

5. Diverse în mod corespunzător

Inginerii Amazon au ales să antreneze un algoritm cu un grup de aplicanți care era în mare parte bărbați. Această decizie a fost o eroare critică și nu este mai puțin flagrantă de faptul că acestea erau CV-urile pe care compania le avea la dispoziție în acel moment. Inginerii Amazon ar fi putut colabora cu organizații apreciate cu similare posturi disponibile care au primit mai multe candidate de sex feminin pentru a compensa lipsa, sau ar putea avea a redus în mod artificial numărul de CV-uri ale bărbaților pentru a se potrivi cu numărul de femei și instruiți și a ghidat algoritmul cu o reprezentare mai exactă a populației. Ideea este că datele diversitatea este esențială și, dacă nu se face un efort concertat pentru a elimina părtinirea intrărilor, ieșirile părtinitoare vor prevala.

În mod clar, datele de înaltă calitate nu apar doar de nicăieri. În schimb, trebuie să fie îngrijit cu atenție, având în vedere rezultatele dorite. În domeniul AI, se spune adesea că „gunoiul intră înseamnă gunoiul afară”. Această afirmație este adevărată, dar subestimează oarecum importanța calității. Inteligența artificială poate procesa cantități incredibile de informații și le poate transforma în orice, de la alegeri de stoc la recomandări de angajare până la diagnostice medicale. Această capacitate depășește cu mult capacitatea oamenilor, ceea ce înseamnă, de asemenea, că mărește rezultatele. Un recrutor uman părtinitor ar putea trece cu vederea doar atâtea femei, dar un recrutor părtinitor AI le-ar putea trece cu vederea pe toate. În acest sens, gunoiul intră nu înseamnă doar gunoi ieșit - înseamnă că o cantitate mică de date „gunoi” se poate transforma într-un întreg depozit.

Navigarea cerințelor complexe de conformitate

De parcă găsirea datelor de calitate nu ar fi destul de dificilă, unele dintre industriile care pot câștiga cel mai mult din inovațiile în domeniul datelor AI sunt, de asemenea, cele mai strict reglementate. Asistența medicală este poate cel mai bun exemplu și, în timp ce un sondaj de la HIT Infrastructure a constatat că 91% dintre cei din industrie cred că tehnologia ar putea îmbunătăți accesul la îngrijire, acel optimism este temperat de faptul că 75% îl consideră o amenințare la adresa securității și confidențialității pacienților. — și pacienții nu sunt singurii expuși riscului.

Reglementările cuprinzătoare adoptate prin Legea privind portabilitatea și responsabilitatea asigurărilor de sănătate se intersectează acum cu diverse obstacole locale privind conformitatea datelor, cum ar fi Regulamentul general european privind protecția datelor, Legea privind confidențialitatea consumatorilor din California din Statele Unite și Legea privind protecția datelor cu caracter personal din Singapore. Aceste reglementări locale li se vor alătura mult mai multe și, pe măsură ce telesănătatea devine o sursă mai semnificativă de date privind asistența medicală, este probabil ca reglementările să câștige o control și mai strâns asupra datelor pacienților în tranzit. Ca rezultat, platforma cloud sigură și conformă a lui Shaip se va dovedi a fi un mijloc și mai valoros de a acumula și de a accesa date din domeniul sănătății pentru a instrui produse AI.

Informațiile de identificare personală pot reprezenta o amenințare semnificativă pentru dezvoltarea AI, dar chiar și o implementare complet conformă este în pericol dacă nu poate oferi genul de rezultate precise care vin numai cu diverse date de antrenament. Un studiu din 2020 din Jurnalul Asociației Medicale Americane a demonstrat că algoritmii de învățare automată din domeniul medical sunt cel mai adesea antrenați cu date de la pacienți din California, New York și Massachusetts. Având în vedere că acești pacienți reprezintă mai puțin de o cincime din populația SUA, ca să nu mai vorbim despre restul lumii, este greu de imaginat cum aceste modele ar putea produce altceva decât rezultate părtinitoare.

Recunoscând dificultatea de a securiza informații conforme, diverse din punct de vedere geografic, Shaip oferă date licențiate de asistență medicală dintr-o mare varietate de regiuni special îngrijite cu scopul de a construi algoritmi precisi. Aceste date vin sub formă de text, cum ar fi fișe medicale sau informații despre revendicări, imagistică medicală de diagnosticare, cum ar fi scanările CT, audio, cum ar fi note vorbite de la medici sau conversații între medici și pacienți, și chiar videoclipuri din rezultatele RMN. De asemenea, este complet deidentificat și anonimizat, protejând organizația dvs. atât de implicațiile etice, cât și de cele financiare care pot urma unei încălcări a oricăreia dintre numărul tot mai mare de reglementări care guvernează datele atât de origine națională, cât și internațională.

Depășirea obstacolelor în dezvoltarea AI

Eforturile de dezvoltare AI includ obstacole semnificative, indiferent de industria în care se desfășoară, iar procesul de trecere de la o idee fezabilă la un produs de succes este plin de dificultăți. Între provocările de a achiziționa datele potrivite și nevoia de a le anonimiza pentru a respecta toate reglementările relevante, se poate simți că construirea și antrenamentul unui algoritm este partea ușoară.

Pentru a oferi organizației dvs. toate avantajele necesare în efortul de a proiecta o nouă dezvoltare revoluționară a AI, veți dori să luați în considerare parteneriatul cu o companie precum Shaip. Chetan Parikh și Vatsal Ghiya au fondat Shaip pentru a ajuta companiile să creeze tipurile de soluții care ar putea transforma asistența medicală în SUA După mai bine de 16 ani de activitate, compania noastră a crescut pentru a include peste 600 de membri ai echipei și am lucrat cu sute de clienții să transforme ideile convingătoare în soluții AI.

Cu oamenii, procesele și platforma noștri lucrând pentru organizația dvs., puteți debloca imediat următoarele patru beneficii și vă puteți catapulta proiectul către o finalizare de succes:

1. Capacitatea de a-ți elibera oamenii de știință de date

Procesul de dezvoltare AI necesită o investiție considerabilă de timp, dar poți optimiza întotdeauna funcțiile pe care echipa ta le petrece cel mai mult timp. V-ați angajat oamenii de știință de date pentru că sunt experți în dezvoltarea de algoritmi avansați și modele de învățare automată, dar cercetarea demonstrează în mod constant că acești lucrători își petrec de fapt 80% din timp aprovizionând, curățând și organizând datele care vor alimenta proiectul. Mai mult de trei sferturi (76%) dintre oamenii de știință de date raportează că aceste procese banale de colectare a datelor se întâmplă să fie, de asemenea, părțile lor cele mai puțin preferate ale jobului, dar nevoia de date de calitate lasă doar 20% din timpul lor pentru dezvoltarea efectivă, ceea ce este cea mai interesantă și mai stimulativă activitate intelectuală pentru mulți oameni de știință ai datelor. Prin achiziționarea de date printr-un furnizor terț, cum ar fi Shaip, o companie își poate lăsa inginerii de date scumpi și talentați să-și externalizeze munca în calitate de îngrijitori de date și, în schimb, își poate petrece timpul pe părțile soluțiilor AI unde pot produce cea mai mare valoare.

2. Capacitatea de a obține rezultate mai bune

Mulți lideri de dezvoltare AI decid să folosească date open-source sau crowdsourced pentru a reduce cheltuielile, dar această decizie aproape întotdeauna ajunge să coste mai mult pe termen lung. Aceste tipuri de date sunt disponibile cu ușurință, dar nu pot egala calitatea seturilor de date îngrijite cu grijă. Datele crowdsourced, în special, sunt pline de erori, omisiuni și inexactități și, deși aceste probleme pot fi uneori rezolvate în timpul procesului de dezvoltare sub ochii atenți ai inginerilor dvs., este nevoie de iterații suplimentare care nu ar fi necesare dacă ați începe cu mai multe. -date de calitate de la început.

Bazarea pe date open-source este o altă scurtătură comună care vine cu propriul set de capcane. Lipsa diferențierii este una dintre cele mai mari probleme, deoarece un algoritm antrenat folosind date open-source este mai ușor de replicat decât unul construit pe seturi de date licențiate. Mergând pe această cale, inviți la concurență de la alți participanți în spațiu care ar putea subcota prețurile și ar putea lua cota de piață în orice moment. Când vă bazați pe Shaip, accesați date de cea mai înaltă calitate asamblate de o forță de muncă gestionată priceput și vă putem acorda o licență exclusivă pentru un set de date personalizat care îi împiedică pe concurenți să recreeze cu ușurință proprietatea dvs. intelectuală câștigată cu greu.

3. Acces la profesioniști cu experiență

Chiar dacă lista dvs. internă include ingineri calificați și oameni de știință de date talentați, instrumentele dvs. AI pot beneficia de înțelepciunea care vine doar din experiență. Experții noștri în domeniu au condus numeroase implementări AI în domeniile lor și au învățat lecții valoroase pe parcurs, iar singurul lor scop este să te ajute să-l atingi pe al tău.

Cu experții în domeniu care identifică, organizează, clasifică și etichetează datele pentru dvs., știți că informațiile utilizate pentru a vă antrena algoritmul pot produce cele mai bune rezultate posibile. De asemenea, efectuăm o asigurare regulată a calității pentru a ne asigura că datele îndeplinesc cele mai înalte standarde și vor funcționa conform așteptărilor nu doar într-un laborator, ci și într-o situație reală.

4. O cronologie de dezvoltare accelerată

Dezvoltarea inteligenței artificiale nu are loc peste noapte, dar se poate întâmpla mai rapid atunci când faci partener cu Shaip. Colectarea și adnotarea internă a datelor creează un blocaj operațional semnificativ care blochează restul procesului de dezvoltare. Lucrul cu Shaip vă oferă acces instantaneu la biblioteca noastră vastă de date gata de utilizare, iar experții noștri vor putea să obțină orice fel de inputuri suplimentare de care aveți nevoie cu cunoștințele noastre profunde din industrie și rețeaua globală. Fără povara aprovizionării și adnotărilor, echipa dvs. poate începe imediat să lucreze la dezvoltarea reală, iar modelul nostru de instruire poate ajuta la identificarea inexactităților timpurii pentru a reduce iterațiile necesare pentru a îndeplini obiectivele de acuratețe.

Dacă nu sunteți pregătit să externalizați toate aspectele gestionării datelor, Shaip oferă, de asemenea, o platformă bazată pe cloud, care ajută echipele să producă, să modifice și să adnoteze mai eficient diferite tipuri de date, inclusiv suport pentru imagini, video, text și audio. . ShaipCloud include o varietate de instrumente intuitive de validare și flux de lucru, cum ar fi o soluție patentată pentru a urmări și monitoriza încărcăturile de lucru, un instrument de transcriere pentru a transcrie înregistrări audio complexe și dificile și o componentă de control al calității pentru a asigura o calitate fără compromisuri. Cel mai bun dintre toate, este scalabil, astfel încât poate crește pe măsură ce diferitele cerințe ale proiectului dumneavoastră cresc.

Era inovației AI abia începe și vom vedea progrese și inovații incredibile în următorii ani, care au potențialul de a remodela industrii întregi sau chiar de a modifica societatea în ansamblu. La Shaip, dorim să ne folosim expertiza pentru a servi ca o forță transformatoare, ajutând cele mai revoluționare companii din lume să valorifice puterea soluțiilor AI pentru a atinge obiective ambițioase.

Avem o experiență profundă în aplicații de asistență medicală și IA conversațională, dar avem și abilitățile necesare pentru a pregăti modele pentru aproape orice fel de aplicație. Pentru mai multe informații despre modul în care Shaip vă poate ajuta să vă duceți proiectul de la idee la implementare, aruncați o privire la numeroasele resurse disponibile pe site-ul nostru web sau contactați-ne astăzi.

Hai să vorbim

Prenume *
Nume *
E-mail*
Telefon*
Despre*
Țară*
Țară
Comentarii*
Prin înregistrare, sunt de acord cu Shaip Politica de Confidențialitate și Termeni şi Condiții și îmi dau consimțământul pentru a primi comunicări de marketing B2B de la Shaip.
CAPTCHA