26 fantastici set di dati aperti per i tuoi progetti di scienza dei dati/ML

La ricerca dei set di dati giusti potrebbe essere scoraggiante, soprattutto quando ne hai bisogno per progetti di machine learning (ML) e scienza dei dati. Riduciamo i tuoi sforzi di ricerca fornendo l’elenco definitivo di set di dati gratuiti.

I dataset sono semplicemente raccolte di dati. Potrebbe trattarsi di dati finanziari, sanitari della comunità, dati del mercato azionario, dati bancari, dati geografici, dati di ricerca sulla scienza delle particelle, valutazioni di prodotti su un sito di e-commerce, ecc.

I set di dati contengono dati raccolti attraverso uno standard di indagine scientifica e sono importanti per ulteriori visualizzazioni, estrazioni, previsioni, ecc. Poiché i dati sono l’equivalente del petrolio greggio nell’universo digitale, i set di dati stanno diventando commerciali e scarsi.

Continua a leggere per scoprire le nozioni di base sui set di dati. Scoprirai anche alcuni set di dati open source che sono veramente gratuiti per i tuoi progetti di machine learning (ML) o scienza dei dati.

Cosa sono i set di dati?

I dataset sono la raccolta di dati in un contenitore strutturato e organizzato. Di solito, i topografi associano i set di dati a un corpo unico, ad esempio i dati aperti della Banca mondiale.

Ancora una volta, i raccoglitori di dati mantengono i set di dati specifici per un argomento come i dati del censimento del 2020 degli Stati Uniti d’America pubblicati dallo United States Census Bureau.

Troverai molti set di dati su questioni globali e locali. La maggior parte dei set di dati contiene punti dati correlati. Ad esempio, la popolazione di un paese e il modo in cui l’obesità si relaziona alle diverse classi di questa popolazione.

Gli scienziati dei dati potrebbero aver bisogno di pulire, ristrutturare ed elaborare tali set di dati utilizzando strumenti di big data per arrivare a conclusioni preziose come ridurre i rifiuti di plastica analizzando i dati sull’utilizzo della plastica, porre rimedio ai problemi della forza lavoro analizzando i dati sui salari, addestrare l’intelligenza artificiale (AI) e così via Su.

Tipi di set di dati

A seconda dell’origine dei set di dati, possono essere pubblici o privati. I dataset pubblici sono aperti a tutti e contribuiscono molto alla ricerca e allo sviluppo.

Anche in questo caso, i set di dati possono essere dei seguenti tipi a seconda delle informazioni in essi contenute:

  • Multivariato: tali dati contengono più variabili.
  • Categorico: Ritrae molte categorie di persone.
  • Numerico: tali set di dati misurano i dati in numeri come età, altezza, ecc.
  • Correlazione: in questo tipo, i punti dati sono correlati.
  • Basato su file: qui, i set di dati sono archiviati in file.
  • Bivariato: un set di dati con due variabili e una relazione tra di loro.
  • Set di dati Web: dati raccolti da uno o più portali Internet simili.
  • Database: tali set di dati archiviano i dati in tabelle, colonne e righe.

Set di dati open source per progetti di scienza dei dati

I set di dati gratuiti sono il carburante per alimentare la tua passione per una carriera nella scienza dei dati. Perché se sei nelle prime fasi della tua carriera nella scienza dei dati, potresti voler intraprendere progetti personali e non commerciali per la fiducia in te stesso o la creazione di portfolio.

In primo luogo, puoi facilmente testare le tue abilità appena apprese applicando strumenti e tecniche a problemi di set di dati del mondo reale.

Ad esempio, ci sono dati di ricerca sul cancro liberamente disponibili, dati Covid-19, dati sui casellari giudiziari dell’FBI, dati sull’analisi delle particelle del CERN, ecc. È possibile utilizzare tali dati e costruire un modello di scienza dei dati per rispondere a problemi sociali, finanziari e sanitari vitali .

In secondo luogo, tali progetti funzionano come potenziatori di portfolio per la tua carriera. Se riesci a creare un modello di analisi dei dati di successo in grado di offrire informazioni utili, puoi mostrare questi modelli online creando siti Web di portfolio. I datori di lavoro preferiscono i progetti alle dichiarazioni di intenti.

Set di dati gratuiti per progetti di apprendimento automatico

Come un professionista della scienza dei dati, anche un professionista del machine learning deve lavorare su progetti autogestiti per esaminare le proprie competenze. Se il progetto ha successo, diventa anche un componente ideale per il tuo portafoglio di progetti ML online o offline.

Pertanto, ora puoi capire che la scienza dei dati e la crescita del ML dipendono da set di dati strutturati. Se tali set di dati fossero troppo commercializzati, la ricerca e lo sviluppo nel campo della scienza dei dati diventerebbero completamente incentrati sull’azienda.

Per mantenere aperta a tutti la ricerca ML nella scienza dei dati, le seguenti agenzie, istituzioni e piattaforme offrono set di dati gratuiti:

Data.gov

Troverai tutti i dati aperti raccolti ed elaborati dal governo degli Stati Uniti. in Data.gov. La piattaforma offre anche risorse e strumenti per condurre ricerche, progettare visualizzazioni di dati, sviluppare app mobili/web, ecc.

I suoi importanti set di dati includono dati sull’utilizzo sostenibile del suolo, dati sugli alloggi rurali, carte di navigazione elettroniche interne, ecc.

Set di dati aperti: Kaggle

Kaggle offre un oceano di dati pubblici e codici informatici per progetti di scienza dei dati. È possibile selezionare Dataset per i dati grezzi e Codice per i codici di programmazione. I set di dati di tendenza su Kaggle sono dati AMEX, Simpsons Viewership, dati di addestramento Chatbot, ecc.

Set di dati di segmento: YouTube 8-M

I set di dati di segmento di YouTube 8-M ti offrono annotazioni di segmento verificate da auditor umani. Puoi anche accedere al set di dati YouTube-8M dallo stesso portale. Il set di dati contiene 6,1 milioni di ID video, 350.000 ore di video, 2,6 miliardi di funzionalità audio/visive, 3863 classi di video e, in media, 3,0 etichette per video.

Registro degli Open Data su AWS

ROD su AWS aiuta i data scientist a condividere e scoprire set di dati ospitati su risorse AWS. Alcuni set di dati interessanti che puoi trovare qui sono The Cancer Genome Atlas, Foldingathome COVID-19 Datasets, Common Crawl, ecc.

Archivio di apprendimento automatico: UCI

L’UCI Machine Learning Repository attualmente mantiene 622 set di dati adatti ai data scientist e agli ingegneri ML per addestrare i loro modelli di intelligenza artificiale. Inoltre, c’è un’interfaccia ricercabile per ricercare i database. Le attrazioni popolari sono il set di dati dell’accelerometro, il set di dati della macchina sincrona, Wikipedia Math Essentials, il set di dati dei titoli turchi, ecc.

Set di dati pubblici BigQuery: Google Cloud

Molti set di dati pubblici sono archiviati su BigQuery. Google rende il set di dati accessibile gratuitamente tramite il programma Google Cloud Public Dataset. Tuttavia, la query gratuita ha un limite di 1 TB al mese. È possibile eseguire query SQL standard e SQL legacy.

Fantastici set di dati pubblici: GitHub

Awesome Public Datasets è un set di dati open source che contiene dati pubblici incentrati sull’argomento. Raccolti e ordinati da vari blog, risposte e feedback degli utenti, combina set di dati gratuiti e a pagamento su fisica, sport, software, linguaggio naturale e apprendimento automatico.

Dati della Banca Mondiale

World Bank Open Data è la piattaforma in cui ottieni libero accesso ai dati di sviluppo globale. Offre anche altre preziose risorse come tabelle e report preformattati. Puoi facilmente navigare per paese o indicatore per ottenere il set di dati richiesto.

FiveThirtyEight: dati

FiveThirtyEight è un sito web americano che si occupa di analisi di sondaggi d’opinione, politica, economia e sport. Puoi accedere a questi sondaggi e previsioni tramite set di dati dalla sua piattaforma. È possibile scaricare i set di dati con un clic.

ImageNet

ImageNet è un database di immagini da cui i ricercatori di tutto il mondo possono ottenere set di dati open source per i loro progetti non commerciali. Qui, le immagini sono organizzate in base alla gerarchia di WordNet. Il progetto svolge un ruolo fondamentale nella ricerca sull’apprendimento profondo di livello avanzato.

Archivi di dataset: DATI UNICEF

Utilizzando gli archivi dei set di dati, puoi ottenere i set di dati raccolti dall’UNICEF in tutto il mondo. I dati su migrazione, sfollamento, dieta, connettività, istruzione, salute, apprendimento, mortalità, violenza, sviluppo infantile, matrimoni precoci, lavoro minorile e varie statistiche sono disponibili qui.

Trova dati aperti: Gov. del Regno Unito

Se il tuo progetto ha bisogno di dati pubblicati dagli enti locali e dal governo centrale del Regno Unito, Find Open Data è il portale che dovresti controllare. Copre la spesa pubblica, le imprese, la salute, l’istruzione, la difesa e altri set di dati.

Dati: Ufficio censimento degli Stati Uniti

Avete bisogno dei dati del censimento degli Stati Uniti per un progetto rilevante? Puoi ricevere assistenza da USCB Data. Qui puoi esplorare i dati, le tabelle, le mappe e i profili dei dati del censimento 2020 mentre visualizzi i dati e utilizzi gli strumenti dei dati.

Dati e Statistiche: CDC

L’agenzia federale degli Stati Uniti Centers for Disease Control and Prevention fornisce anche set di dati gratuiti al pubblico per accedere a dati e statistiche da questo portale. Gli argomenti del set di dati sono Salute ambientale, Malattie croniche, Nascite e natalità, Morti e mortalità, Aspettativa di vita, Infortuni e violenza, Salute riproduttiva, Malattie notificabili nazionali, ecc.

Set di dati: MIT

Questo set di dati si concentra sui dati sulle vibrazioni indotte dai vortici. Il Center for Ocean Engineering del MIT ospita alcuni set di dati pubblicamente disponibili per il benchmarking del codice del computer. I set di dati sono aperti a tutti per invitare nuove teorie dai dati e sincronizzare i ricercatori che lavorano nello stesso campo.

Catalogo dati della Banca mondiale

Il Catalogo dati raccoglie set di dati gratuiti che rendono facilmente accessibili i dati relativi allo sviluppo della Banca mondiale. Usarlo in vari progetti è un gioco da ragazzi poiché puoi trovare e scaricare facilmente le tue informazioni preferite. Contiene oltre 5000 set di dati che coprono i microdati, le finanze e le piattaforme energetiche della Banca mondiale.

Dati sulla scienza spaziale della NASA

La NASA offre l’accesso ai suoi dati d’archivio su Space Science Data Coordinated Archive. Questa piattaforma è di grande aiuto per il pubblico in generale, in particolare per le persone che lavorano nell’istruzione e nella ricerca spaziale. Dispone di 400 TB di dati digitali contenenti informazioni su 550 scienze spaziali.

Ottieni i dati: dentro Airbnb

Airbnb è un mercato online di fama mondiale per alloggi in famiglia e affitti per le vacanze. Offre anche la raccolta di dati su varie città in tutto il mondo da Get the Data. Puoi navigare per la città per ottenere rapidamente i dati. Inoltre, puoi richiedere i dati richiesti e leggere le ipotesi di dati su questo portale.

Dati Web: recensioni su Amazon

Coloro che sono interessati a ricerche di mercato e recensioni di prodotti dovrebbero utilizzare i set di dati forniti da Snap Web Data. Contiene oltre 34 milioni di recensioni degli utenti su Amazon, da giugno 1995 a marzo 2013. Il set di dati contiene testo normale, informazioni sul prodotto, nome utente, valutazioni e una recensione.

Dati FMI

Il portale IMF Data è prezioso per tutti i tipi di dati economici e finanziari. Che tu stia cercando dati finanziari del FMI, statistiche del settore esterno, pubblicazioni di punta o dati di microeconomia, è qui che puoi trovarli. Inoltre, puoi utilizzare un filtro per ottenere dati nazionali.

Google Libri Ngrams

Se stai lavorando su parti del parlato e del linguaggio, Google Books Ngrams può aiutarti in modo significativo. Questo set di dati open source ti dà un’idea sull’utilizzo di una parola e una frase particolare nella cronologia o in un intervallo di tempo specifico. La fonte di questo set di dati sono i documenti digitali indicizzati da Google.

Dati sui mercati: The Financial Times

Se vuoi mettere le mani su dati di mercato azionario globali e regionali affidabili e accurati, Markets Data di The Financial Times è qui per aiutarti. Ti consente di lavorare con i dati di mercato provenienti da America, Asia-Pacifico, Europa, Africa e dal mercato globale.

Dati terrestri: NASA

La NASA fornisce un accesso completo e aperto ai suoi dati scientifici attraverso il programma Earth Data che ti aiuta a comprendere il nostro pianeta natale e realizzare progetti con esso. Puoi trovare set di dati gratuiti su atmosferica, biosfera, criosfera, dimensioni umane, superficie terrestre, oceano, terra solida, interazione sole-terra e idrosfera terrestre.

Ricerca set di dati: Google

Se sei uno studente, un ricercatore o un data scientist alla ricerca di set di dati per supportare il tuo progetto, puoi ricevere assistenza dal portale Ricerca set di dati. Puoi chiamarlo un motore di ricerca per set di dati in quanto ti consente di scoprire set di dati ospitati in vari rapporti sul Web tramite la ricerca per parole chiave.

Dati aperti: CERN

L’organizzazione di ricerca europea CERN ha un portale Open Data che puoi utilizzare per accedere ai dati generati dalla ricerca al CERN. Questo portale di set di dati contiene due petabyte di dati relativi alla fisica delle particelle. Inoltre, viene fornito con le applicazioni e la documentazione necessarie per l’analisi dei dati.

Crime Data Explorer: FBI

Il Crime Data Explorer (CDE) è il set di dati open source dell’FBI che mira a fornire un accesso più semplice alla condivisione di dati criminali, non penali e delle forze dell’ordine. Oltre a permetterti di scoprire i dati necessari attraverso la visualizzazione e il filtraggio di categorie, questa piattaforma ti consente di scaricare i dati in formato CSV.

Parole finali

Finora, hai esaminato un elenco davvero esauriente di set di dati di alta qualità. L’articolo presenta dati provenienti da varie nicchie come scienze fisiche, cartelle cliniche, ricerca spaziale, precedenti penali, valutazioni dei prodotti, ecc.

A seconda del progetto di data science o machine learning che stai facendo, puoi scegliere. Quasi tutti i set di dati hanno anche istruzioni adeguate per aiutarti con il tuo progetto.

Potresti anche essere interessato a queste risorse per imparare la scienza dei dati e il ML.