Date de instruire AI

Data Wars 2024: Luptele etice și practice ale antrenamentului AI

Dacă ai cerut unui model Gen AI să scrie versuri pentru o melodie precum Beatles și dacă a făcut o treabă impresionantă, există un motiv pentru asta. Sau, dacă ai cerut unui model să scrie proză în stilul autorului tău preferat și acesta a replicat exact stilul, există un motiv pentru asta.

Chiar și simplu, te afli într-o altă țară și când vrei să traduci numele unei gustări interesante pe care o găsești pe culoarul unui supermarket, smartphone-ul tău detectează etichetele și traduce textul fără probleme.

AI se află la punctul de sprijin al tuturor astfel de posibilități și asta se datorează în primul rând pentru că modelele AI ar fi fost antrenate pe volume mari de astfel de date - în cazul nostru, sute de cântece ale The Beatles și probabil cărți ale scriitorului tău preferat.

Odată cu ascensiunea IA generativă, toată lumea este muzician, scriitor, artist sau tot. Modelele gen AI generează lucrări de artă personalizate în câteva secunde, în funcție de solicitările utilizatorului. Ei pot crea Van Gogh-isque piese de artă și chiar să-l pună pe Al Pacino să citească Termenii și condițiile fără ca el să fie acolo.

Fascinația deoparte, aspectul important aici este etica. Este corect ca astfel de lucrări creative să fi fost folosite pentru a antrena modele AI, care încearcă treptat să înlocuiască artiștii? A fost dobândit consimțământul de la proprietarii unor astfel de proprietăți intelectuale? Au fost compensați echitabil?

Bine ați venit în 2024: Anul Războiului Datelor

În ultimii câțiva ani, datele au devenit și mai mult un magnet pentru a atrage atenția firmelor pentru a-și instrui modelele Gen AI. Ca un copil, modelele AI sunt naive. Ei trebuie învățați și apoi instruiți. De aceea, companiile au nevoie de miliarde, dacă nu de milioane, de date pentru a antrena în mod artificial modele care să imite oamenii.

De exemplu, GPT-3 a fost antrenat pe miliarde (sute dintre ele) de jetoane, ceea ce se traduce în cuvinte. Cu toate acestea, sursele dezvăluie că trilioane de astfel de jetoane au fost folosite pentru a antrena modelele mai recente.

Cu astfel de volume uriașe de seturi de date de instruire necesare, unde se duc marile firme de tehnologie?

Lipsa acută de date de instruire

Ambiția și volumul merg mână în mână. Pe măsură ce întreprinderile își extind modelele și le optimizează, au nevoie de și mai multe date de instruire. Acest lucru ar putea rezulta din cererile de a dezvălui modele de succes de GPT sau pur și simplu de a oferi rezultate îmbunătățite și precise.

Indiferent de caz, necesitatea unor date abundente de antrenament este inevitabil.

Aici întreprinderile se confruntă cu primul obstacol. Pentru a spune simplu, internetul devine prea mic pentru ca modelele AI să se antreneze. Înseamnă că companiile rămân fără seturi de date existente pentru a-și alimenta și antrena modelele.

Această resursă epuizantă sperie părțile interesate și pasionații de tehnologie, deoarece ar putea limita dezvoltarea și evoluția modelelor de inteligență artificială, care sunt în cea mai mare parte strâns legate de modul în care mărcile își poziționează produsele și de modul în care unele preocupări afectatoare din lume sunt percepute ca fiind abordate cu ajutorul inteligenței artificiale. solutii.

În același timp, există și speranță sub formă de date sintetice sau consangvinizare digitală, așa cum o numim noi. În termeni profani, datele sintetice sunt datele de antrenament generate de AI, care sunt din nou folosite pentru a antrena modele.

Deși sună promițător, experții în tehnologie cred că sinteza unor astfel de date de antrenament ar duce la ceea ce se numește Habsburg AI. Aceasta este o preocupare majoră pentru întreprinderi, deoarece astfel de seturi de date consangvinizate ar putea avea erori de fapt, părtinire sau pur și simplu ar putea fi farfurie, influențând negativ rezultatele modelelor AI.

Considerați acest lucru ca pe un joc de șoaptă chinezească, dar singura întorsătură este că primul cuvânt care este transmis ar putea fi, de asemenea, lipsit de sens.

Cursa către aprovizionarea datelor de antrenament AI

Aprovizionarea datelor de antrenament ai Licențierea este o modalitate ideală de a sursa date de instruire. Deși puternice, bibliotecile și depozitele sunt surse finite. Adică, nu pot satisface cerințele de volum ale modelelor la scară largă. O statistică interesantă arată că am putea rămâne fără date de înaltă calitate pentru a pregăti modele până în anul 2026, cântărind disponibilitatea datelor la egalitate cu alte resurse fizice din lumea reală.

Unul dintre cele mai mari depozite de fotografii – Shutterstock are 300 de milioane de imagini. Deși acest lucru este suficient pentru a începe formarea, testarea, validarea și optimizarea ar avea nevoie din nou de date abundente.

Cu toate acestea, există și alte surse disponibile. Singura captură aici este că au coduri de culoare gri. Vorbim despre datele disponibile public de pe internet. Iată câteva fapte interesante:

  • Peste 7.5 milioane de postări de blog sunt preluate live în fiecare zi
  • Există peste 5.4 miliarde de oameni pe platformele de social media precum Instagram, X, Snapchat, TikTok și multe altele.
  • Pe internet există peste 1.8 miliarde de site-uri web.
  • Peste 3.7 milioane de videoclipuri sunt încărcate numai pe YouTube în fiecare zi.

În plus, oamenii partajează public texte, videoclipuri, fotografii și chiar expertiză în materie prin podcasturi doar audio.

Acestea sunt elemente de conținut disponibile în mod explicit.

Deci, folosirea lor pentru a antrena modele AI trebuie să fie corectă, nu?

Aceasta este zona gri pe care am menționat-o mai devreme. Nu există o opinie clară cu privire la această întrebare, deoarece companiile de tehnologie cu acces la volume atât de abundente de date vin cu noi instrumente și modificări de politică pentru a satisface această nevoie.

Unele instrumente transformă sunetul din videoclipurile YouTube în text și apoi le folosesc ca simboluri în scopuri de instruire. Întreprinderile revizuiesc politicile de confidențialitate și ajung chiar până la utilizarea datelor publice pentru a antrena modele cu o intenție predeterminată de a face față proceselor.

Mecanisme de contra

În același timp, companiile dezvoltă și ceea ce se numește date sintetice, în care modelele AI generează texte care pot fi din nou folosite pentru a antrena modelele ca o buclă.

Pe de altă parte, pentru a contracara distrugerea datelor și pentru a preveni întreprinderile să exploateze lacunele legale, site-urile web implementează plugin-uri și coduri pentru a atenua roboții care scaping datele.

Care este soluția supremă?

Implicația AI în rezolvarea preocupărilor din lumea reală a fost întotdeauna susținută de intenții nobile. Atunci de ce aprovizionarea seturilor de date pentru a antrena astfel de modele trebuie să se bazeze pe modele gri?

Pe măsură ce conversațiile și dezbaterile despre IA responsabilă, etică și responsabilă câștigă proeminență și putere, companiile de toate nivelurile trebuie să treacă la surse alternative care au tehnici de pălărie albă pentru a furniza date de antrenament.

Aici e locul Shaip excelează la. Înțelegând preocupările predominante legate de aprovizionarea datelor, Shaip a pledat întotdeauna pentru tehnici etice și a practicat în mod constant metode rafinate și optimizate pentru a colecta și compila date din diverse surse.

Metodologii de aprovizionare cu seturi de date White Hat

Metodologii de aprovizionare pentru seturi de date Hat Instrumentul nostru proprietar de colectare a datelor are oamenii în centrul ciclurilor de identificare și livrare a datelor. Înțelegem sensibilitatea cazurilor de utilizare la care lucrează clienții noștri și impactul pe care l-ar avea seturile noastre de date asupra rezultatelor modelelor lor. De exemplu, seturile de date de asistență medicală au sensibilitatea lor în comparație cu seturile de date pentru viziune computerizată pentru mașinile autonome.

Acesta este motivul pentru care modul nostru de operare implică verificări meticuloase de calitate și tehnici pentru a identifica și a compila seturi de date relevante. Acest lucru ne-a permis să oferim companiilor seturi de date exclusive de instruire Gen AI în mai multe formate, cum ar fi imagini, videoclipuri, audio, text și mai multe cerințe de nișă.

Filozofia noastră

Operăm pe baza unor filosofii de bază, cum ar fi consimțământul, confidențialitatea și corectitudinea în colectarea seturilor de date. Abordarea noastră asigură, de asemenea, diversitatea datelor, astfel încât nu există nicio introducere a părtinirii inconștiente.

Pe măsură ce tărâmul AI se pregătește pentru începutul unei noi ere marcate de practici corecte, noi cei de la Shaip intenționăm să fim purtătorii de steag și precursorii unor astfel de ideologii. Dacă, fără îndoială, seturi de date corecte și de calitate sunt ceea ce cauți pentru a-ți antrena modelele AI, contactați-ne astăzi.

Partajare socială