Set de date NLP pentru ML

Cele mai bune 15 seturi de date NLP pentru a vă instrui modele de procesare a limbajului natural

Procesarea limbajului natural este o parte vitală în armura de învățare automată. Cu toate acestea, are nevoie de cantități masive de date și instruire pentru ca modelul să funcționeze bine. Una dintre problemele semnificative cu NLP este lipsa de seturi de date de instruire care să poată acoperi domenii vaste de interes din domeniu.

Dacă începeți în acest domeniu vast, s-ar putea să vi se pară dificil și practic redundant să vă creați seturile de date. Mai ales când există calitate PNL seturi de date disponibile pentru a vă instrui modelele de învățare automată în funcție de scopul lor.

Piața NLP este programată să crească cu un CAGR de 11.7% în 2018 și 2026 pentru a ajunge 28.6 miliarde USD până în 2026. Datorită cererii tot mai mari pentru NLP și învățare automată, acum este posibil să puneți mâna pe seturi de date de calitate care se adresează analizei sentimentelor, recenziilor, analizei întrebărilor și răspunsurilor și seturi de date de analiză a vorbirii.

Seturile de date NLP pentru învățare automată în care poți avea încredere

Deoarece nenumărate seturi de date – care se concentrează pe diverse nevoi – sunt lansate aproape în fiecare zi, poate fi o provocare să accesezi seturi de date de calitate, fiabile și cele mai bune. Aici, ți-am ușurat munca, deoarece ți-am prezentat seturi de date selectate, separate în funcție de categoriile pe care le deservesc.

General

Spambase, creat la Hewlett-Packard Labs, are o colecție de e-mailuri spam de către utilizatori, având ca scop dezvoltarea unui filtru de spam personalizat. Are peste 4600 de observații din mesaje de e-mail, dintre care aproape 1820 sunt spam.

Setul de date Enron are o colecție vastă de e-mailuri „reale” anonimizate disponibile publicului pentru a-și antrena modelele de învățare automată. Se mândrește cu mai mult de jumătate de milion de e-mailuri de la peste 150 de utilizatori, predominant managementul superior al Enron. Acest set de date este disponibil pentru utilizare atât în ​​formate structurate, cât și în cele nestructurate. Pentru a îmbunătăți datele nestructurate, trebuie să aplicați tehnici de prelucrare a datelor.

  • Setul de date pentru sisteme de recomandare (Link)

Setul de date Recommender System este o colecție imensă de diverse seturi de date care conțin diferite caracteristici, cum ar fi,

  • Recenzii pentru acest produs
  • Evaluări cu stele
  • Urmărirea fitnessului
  • Date melodii
  • Rețelele sociale
  • Marcaje temporale
  • Interacțiuni utilizator/articol
  • Date GPS

Analiza sentimentelor

  • Dicționare pentru filme și finanțe (Link)

Analiza sentimentelor
Setul de date Dicționare pentru filme și finanțe oferă dicționare specifice domeniului pentru polaritatea pozitivă sau negativă în completările Finanțe și recenziile de filme. Aceste dicționare sunt extrase din completările IMDb și US Form-8.

Sentiment 140 are peste 160,000 de tweet-uri cu diverse emoticoane clasificate în 6 câmpuri diferite: data tweet, polaritate, text, nume de utilizator, ID și interogare. Acest set de date vă permite să descoperiți sentimentul unui brand, un produs sau chiar un subiect pe baza activității Twitter. Deoarece acest set de date este creat automat, spre deosebire de alte tweet-uri adnotate de oameni, el clasifică tweet-urile cu emoții pozitive și emoții negative ca fiind nefavorabile.

  • Set de date Sentiment multi-domeniu (Link)

Acest set de date privind sentimentele pe mai multe domenii este un depozit de recenzii Amazon pentru diverse produse. Unele categorii de produse, cum ar fi cărțile, au mii de recenzii, în timp ce altele au doar câteva sute de recenzii. În plus, recenziile cu evaluări cu stele pot fi convertite în etichete binare.

Să discutăm astăzi despre cerințele tale privind datele de instruire AI.

Text

Creat pentru a ajuta la cercetarea cu întrebări și răspunsuri pe domeniul deschis, WiKi QA Corpus este unul dintre cele mai extinse seturi de date disponibile public. Compilat din jurnalele de interogări ale motorului de căutare Bing, vine cu perechi întrebări-răspuns. Are peste 3000 de întrebări și 1500 de propoziții cu răspunsuri etichetate.

  • Setul de date pentru rapoartele de caz juridic (Link)

Setul de date Legal Case Reports are o colecție de 4000 de cazuri juridice și poate fi folosit pentru a pregăti rezumarea automată a textului și analiza citărilor. Sunt folosite fiecare document, fraze de referință, clase de citare, fraze de referință și altele.

Setul de date Jeopardy este o colecție de peste 200,000 de întrebări prezentate în populara emisiune TV cu teste reunite de un utilizator Reddit. Fiecare punct de date este clasificat după data difuzării, numărul episodului, valoarea, runda și întrebarea/răspunsul.

Discurs audio

  • Corpora Wikipedia vorbită (Link)

Discurs audio Acest set de date este perfect pentru toți cei care doresc să depășească limba engleză. Acest set de date conține o colecție de articole vorbite în olandeză, germană și engleză. Are o gamă variată de subiecte și seturi de difuzoare care durează sute de ore.

Setul de date în limba engleză 2000 HUB5 are 40 de transcriere a conversațiilor telefonice în limba engleză. Datele sunt furnizate de Institutul Național de Standarde și Tehnologie, iar accentul lor principal este pe recunoașterea vorbirii conversaționale și pe conversia vorbirii în text.

Setul de date LibriSpeech este o colecție de aproape 1000 de ore de vorbire în limba engleză luate și segmentate corespunzător pe subiecte în capitole din cărți audio, ceea ce îl face un instrument perfect pentru procesarea limbajului natural.

Recenzii

Setul de date Yelp are o colecție vastă de aproximativ 8.5 milioane de recenzii de la peste 160,000 de companii, recenziile acestora și datele utilizatorilor. Recenziile pot fi folosite pentru a vă instrui modelele cu privire la analiza sentimentelor. În plus, acest set de date are și peste 200,000 de imagini care acoperă opt locații metropolitane.

Recenziile IMDB sunt printre cele mai populare seturi de date care conțin informații despre distribuție, evaluări, descriere și gen pentru peste 50 de mii de filme. Acest set de date poate fi folosit pentru a testa și a vă instrui modelele de învățare automată.

  • Setul de date de recenzii și evaluări Amazon (Link)

Setul de date de evaluare și evaluare Amazon conține o colecție valoroasă de metadate și recenzii ale diferitelor produse de la Amazon colectate din 1996 până în 2014 - aproximativ 142.8 milioane de înregistrări. Metadatele includ prețul, descrierea produsului, marca, categoria și multe altele, în timp ce recenziile au calitatea textului, utilitatea textului, evaluări și multe altele.

Deci, pe ce set de date ați ales pentru a vă instrui modelul de învățare automată?

Pe măsură ce mergem, vă vom lăsa cu un pro-tip. 

Asigurați-vă că parcurgeți cu atenție fișierul README înainte de a alege un set de date NLP pentru nevoile dvs. Setul de date va conține toate informațiile necesare de care ați putea avea nevoie, cum ar fi conținutul setului de date, diferiții parametri pe baza cărora au fost clasificate datele și cazurile probabile de utilizare ale setului de date.

Indiferent de modelele pe care le construiți, există o perspectivă interesantă de a integra mașinile noastre mai strâns și mai intrinsec în viața noastră. Cu NLP, posibilitățile de afaceri, filme, recunoaștere a vorbirii, finanțe și multe altele sunt sporite. Dacă sunteți în căutarea mai multor astfel de seturi de date Click Aici.

Partajare socială

Ați putea dori, de asemenea