Set de date NLP pentru ML

Cele mai bune seturi de date NLP pentru a vă supraalimenta modelele de învățare automată

Ce este NLP?

NLP (Natural Language Processing) ajută computerele să înțeleagă limbajul uman. Este ca și cum ai învăța computerele să citească, să înțeleagă și să răspundă la text și vorbire așa cum o fac oamenii.

Ce poate face NLP?

  • Transformă textul dezordonat în date organizate
  • Înțelegeți dacă comentariile sunt pozitive sau negative
  • Traduceți între limbi
  • Creați rezumate ale textelor lungi
  • Și mult mai mult!
  • Noțiuni introductive cu NLP:

Pentru a construi sisteme NLP bune, aveți nevoie de o mulțime de exemple pentru a le antrena - la fel cum oamenii învață mai bine cu mai multă practică. Vestea bună este că există multe resurse gratuite în care puteți găsi aceste exemple: Fata îmbrățișată, Kaggle si GitHub

Dimensiunea și creșterea pieței NLP:

Începând cu 2023, piața procesării limbajului natural (NLP) a fost evaluată la aproximativ 26 de miliarde de dolari. Este de așteptat să crească semnificativ, cu o rată de creștere anuală compusă (CAGR) de aproximativ 30% din 2023 până în 2030. Această creștere este determinată de creșterea cererii de aplicații NLP în industrii precum asistența medicală, finanțele și serviciile pentru clienți.

Cum să alegeți un set de date NLP bun, luați în considerare următorii factori:

  • relevanță: Asigurați-vă că setul de date se aliniază cu sarcina sau domeniul dvs. specific.
  • Mărimea: seturile de date mai mari îmbunătățesc în general performanța modelului, dar echilibrează dimensiunea cu calitatea.
  • Diversitate: Căutați seturi de date cu stiluri lingvistice și contexte variate pentru a îmbunătăți robustețea modelului.
  • Calitate: Verificați dacă există date bine etichetate și exacte pentru a evita introducerea de erori.
  • Accesibilitate: Asigurați-vă că setul de date este disponibil pentru utilizare și luați în considerare orice restricții de licențiere.
  • preprocesare: Determinați dacă setul de date necesită o curățare sau o preprocesare semnificativă.
  • De Sprijin Comunitar: seturile de date populare au adesea mai multe resurse și sprijin comunitar, ceea ce poate fi de ajutor.

Evaluând acești factori, puteți selecta un set de date care se potrivește cel mai bine nevoilor proiectului dvs

Top 33 de seturi de date deschise obligatorii pentru NLP

General

  • Spambaza UCI (Link)

    Spambase, creat la Hewlett-Packard Labs, are o colecție de e-mailuri spam de către utilizatori, având ca scop dezvoltarea unui filtru de spam personalizat. Are peste 4600 de observații din mesaje de e-mail, dintre care aproape 1820 sunt spam.

  • Setul de date Enron (Link)

    Setul de date Enron are o colecție vastă de e-mailuri „reale” anonimizate disponibile publicului pentru a-și antrena modelele de învățare automată. Se mândrește cu mai mult de jumătate de milion de e-mailuri de la peste 150 de utilizatori, predominant managementul superior al Enron. Acest set de date este disponibil pentru utilizare atât în ​​formate structurate, cât și în cele nestructurate. Pentru a îmbunătăți datele nestructurate, trebuie să aplicați tehnici de prelucrare a datelor.

  • Setul de date pentru sisteme de recomandare (Link)

    Setul de date Recommender System este o colecție imensă de diverse seturi de date care conțin diferite caracteristici, cum ar fi,

    • Recenzii pentru acest produs
    • Evaluări cu stele
    • Urmărirea fitnessului
    • Date melodii
    • Rețelele sociale
    • Marcaje temporale
    • Interacțiuni utilizator/articol
    • Date GPS
  • Penn Treebank (Link)

    Acest corpus, din Wall Street Journal, este popular pentru testarea modelelor de etichetare a secvenței.

  • NLTK (Link)

    Această bibliotecă Python oferă acces la peste 100 de corpuri și resurse lexicale pentru NLP. Include, de asemenea, cartea NLTK, un curs de instruire pentru utilizarea bibliotecii.

  • Dependențe universale (Link)

    UD oferă o modalitate consistentă de adnotare a gramaticii, cu resurse în peste 100 de limbi, 200 de bancuri de arbori și sprijin din partea a peste 300 de membri ai comunității.

Analiza sentimentelor

  • Dicționare pentru filme și finanțe (Link)

    Analiza sentimentelor
    Setul de date Dicționare pentru filme și finanțe oferă dicționare specifice domeniului pentru polaritatea pozitivă sau negativă în completările Finanțe și recenziile de filme. Aceste dicționare sunt extrase din completările IMDb și US Form-8.

  • Sentimentul 140 (Link)

    Sentiment 140 are peste 160,000 de tweet-uri cu diverse emoticoane clasificate în 6 câmpuri diferite: data tweet, polaritate, text, nume de utilizator, ID și interogare. Acest set de date vă permite să descoperiți sentimentul unui brand, un produs sau chiar un subiect pe baza activității Twitter. Deoarece acest set de date este creat automat, spre deosebire de alte tweet-uri adnotate de oameni, el clasifică tweet-urile cu emoții pozitive și emoții negative ca fiind nefavorabile.

  • Set de date Sentiment multi-domeniu (Link)

    Acest set de date privind sentimentele pe mai multe domenii este un depozit de recenzii Amazon pentru diverse produse. Unele categorii de produse, cum ar fi cărțile, au mii de recenzii, în timp ce altele au doar câteva sute de recenzii. În plus, recenziile cu evaluări cu stele pot fi convertite în etichete binare.

  • Standford Sentiment TreeBank (Link)

    Acest set de date NLP de la Rotten Tomatoes include fraze mai lungi și exemple de text mai detaliate.

  • Corpul de autor al blogului (Link)

    Această colecție are postări pe blog cu aproape 1.4 milioane de cuvinte, fiecare blog fiind un set de date separat.

  • Setul de date OpinRank (Link)

    300,000 de recenzii de la Edmunds și TripAdvisor, organizate după model de mașină sau destinație de călătorie și hotel.

Text

  • Corpusul Wiki QA (Link)

    Creat pentru a ajuta la cercetarea cu întrebări și răspunsuri pe domeniul deschis, WiKi QA Corpus este unul dintre cele mai extinse seturi de date disponibile public. Compilat din jurnalele de interogări ale motorului de căutare Bing, vine cu perechi întrebări-răspuns. Are peste 3000 de întrebări și 1500 de propoziții cu răspunsuri etichetate.

  • Setul de date pentru rapoartele de caz juridic (Link)

    Setul de date Legal Case Reports are o colecție de 4000 de cazuri juridice și poate fi folosit pentru a pregăti rezumarea automată a textului și analiza citărilor. Sunt folosite fiecare document, fraze de referință, clase de citare, fraze de referință și altele.

  • Primejdie (Link)

    Setul de date Jeopardy este o colecție de peste 200,000 de întrebări prezentate în populara emisiune TV cu teste reunite de un utilizator Reddit. Fiecare punct de date este clasificat după data difuzării, numărul episodului, valoarea, runda și întrebarea/răspunsul.

  • 20 de grupuri de știri (Link)

    O colecție de 20,000 de documente cuprinde 20 de grupuri de știri și subiecte, care detaliază subiecte de la religie la sporturi populare.

  • Setul de date Reuters News (Link)

    Apărut pentru prima dată în 1987, acest set de date a fost etichetat, indexat și compilat în scopuri de învățare automată.

  • arXiv (Link)

    Acest set de date substanțial de 270 GB include textul complet al tuturor lucrărilor de cercetare arXiv.

  • Dezbaterile Parlamentului European Corpus paralel (Link)

    Perechile de propoziții din procedurile Parlamentului includ intrări din 21 de limbi europene, prezentând unele limbi mai puțin obișnuite pentru corpurile de învățare automată.

  • Benchmark de miliarde de cuvinte (Link)

    Derivat din News Crawl WMT 2011, acest set de date de modelare a limbii cuprinde aproape un miliard de cuvinte pentru testarea tehnicilor inovatoare de modelare a limbajului.

Discurs audio

  • Corpora Wikipedia vorbită (Link)

    Discurs audio Acest set de date este perfect pentru toți cei care doresc să depășească limba engleză. Acest set de date conține o colecție de articole vorbite în olandeză, germană și engleză. Are o gamă variată de subiecte și seturi de difuzoare care durează sute de ore.

  • 2000 HUB5 engleză (Link)

    Setul de date în limba engleză 2000 HUB5 are 40 de transcriere a conversațiilor telefonice în limba engleză. Datele sunt furnizate de Institutul Național de Standarde și Tehnologie, iar accentul lor principal este pe recunoașterea vorbirii conversaționale și pe conversia vorbirii în text.

  • LibriSpeech (Link)

    Setul de date LibriSpeech este o colecție de aproape 1000 de ore de vorbire în limba engleză luate și segmentate corespunzător pe subiecte în capitole din cărți audio, ceea ce îl face un instrument perfect pentru procesarea limbajului natural.

  • Set de date cu cifre vorbite gratuit (Link)

    Acest set de date NLP include peste 1,500 de înregistrări ale cifrelor rostite în limba engleză.

  • Setul de date despre vorbire M-AI Labs (Link)

    Setul de date oferă aproape 1,000 de ore de audio cu transcripții, cuprinzând mai multe limbi și clasificate după voci masculine, feminine și mixte.

  • Baza de date pentru vorbire zgomotoasă (legătură)

    Acest set de date conține înregistrări paralele de vorbire zgomotoasă și curată, destinate dezvoltării de software de îmbunătățire a vorbirii, dar și benefice pentru antrenamentul vorbirii în condiții dificile.

Recenzii

  • Recenzii Yelp (Link)

    Setul de date Yelp are o colecție vastă de aproximativ 8.5 milioane de recenzii de la peste 160,000 de companii, recenziile acestora și datele utilizatorilor. Recenziile pot fi folosite pentru a vă instrui modelele cu privire la analiza sentimentelor. În plus, acest set de date are și peste 200,000 de imagini care acoperă opt locații metropolitane.

  • Recenzii IMDB (Link)

    Recenziile IMDB sunt printre cele mai populare seturi de date care conțin informații despre distribuție, evaluări, descriere și gen pentru peste 50 de mii de filme. Acest set de date poate fi folosit pentru a testa și a vă instrui modelele de învățare automată.

  • Setul de date de recenzii și evaluări Amazon (Link)

    Setul de date de evaluare și evaluare Amazon conține o colecție valoroasă de metadate și recenzii ale diferitelor produse de la Amazon colectate din 1996 până în 2014 - aproximativ 142.8 milioane de înregistrări. Metadatele includ prețul, descrierea produsului, marca, categoria și multe altele, în timp ce recenziile au calitatea textului, utilitatea textului, evaluări și multe altele.

Intrebare si raspuns

  • Setul de date de întrebări și răspunsuri Stanford (SQuAD) (Link)

    Acest set de date de înțelegere a lecturii are 100,000 de întrebări la care se poate răspunde și 50,000 de întrebări fără răspuns, toate create de lucrătorii mulțimii Wikipedia.

  • Întrebări naturale (Link)

    Acest set de instruire are peste 300,000 de exemple de antrenament, 7,800 de exemple de dezvoltare și 7,800 de exemple de testare, fiecare cu o interogare Google și o pagină Wikipedia corespunzătoare.

  • TriviaQA (Link)

    Acest set de întrebări provocator are 950,000 de perechi QA, incluzând atât subseturi verificate de oameni, cât și subseturi generate de mașini.

  • CLEVR (Limbajul compozițional și raționamentul vizual elementar) (Link)

    Acest set de date vizuale cu răspunsuri la întrebări prezintă obiecte redate 3D și mii de întrebări cu detalii despre scena vizuală.

Deci, pe ce set de date ați ales pentru a vă instrui modelul de învățare automată?

Pe măsură ce mergem, vă vom lăsa cu un pro-tip.

Asigurați-vă că parcurgeți cu atenție fișierul README înainte de a alege un set de date NLP pentru nevoile dvs. Setul de date va conține toate informațiile necesare de care ați putea avea nevoie, cum ar fi conținutul setului de date, diferiții parametri pe baza cărora au fost clasificate datele și cazurile probabile de utilizare ale setului de date.

Indiferent de modelele pe care le construiți, există o perspectivă interesantă de a integra mașinile noastre mai strâns și mai intrinsec în viața noastră. Cu NLP, posibilitățile de afaceri, filme, recunoaștere a vorbirii, finanțe și multe altele sunt sporite.

Partajare socială