Condividi tramite


Set di dati Open di Azure

Migliora l'accuratezza dei tuoi modelli di Machine Learning con set di dati disponibili pubblicamente. Per risparmiare tempo nella scoperta e nella preparazione dei dati, usare set di dati curati e pronti per i progetti di apprendimento automatico.

Trasporto

Set di dati Descrizione
TartanAir: set di dati di simulazione AirSim Dati del veicolo autonomo AirSim generati per risolvere la localizzazione e il mapping simultaneo (SLAM).
Record relativi alle corse di NYC Taxi & Limousine Commission - taxi gialli I record relativi alle corse dei taxi gialli includono data e ora di partenza e di arrivo, luogo di partenza e di arrivo, distanze delle corse, dettaglio delle tariffe, tipi di tariffa, tipi di pagamento e numero di passeggeri segnalato dal tassista.
Record relativi alle corse di NYC Taxi & Limousine Commission - taxi verdi I record relativi alle corse dei taxi verdi includono data e ora di partenza e di arrivo, luogo di partenza e di arrivo, distanze delle corse, dettaglio delle tariffe, tipi di tariffa, tipi di pagamento e numero di passeggeri segnalato dal tassista.
Record relativi alle corse di NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) I record relativi alle corse dei veicoli a noleggio includono il numero di licenza della base di spedizione e la data, l'ora e l'ID della zona di prelievo.

Integrità e genomica

Set di dati Descrizione
Data lake COVID-19 Il data lake per COVID-19 è una raccolta di set di dati correlati a COVID-19 provenienti da varie origini, che includono dati di tracciamento di test e di risultati per i pazienti, criteri di distanziamento sociale, capacità degli ospedali, mobilità e così via.
Set di dati aperti sulla ricerca COVID-19 Set di dati full-text e di metadati di articoli accademici relativi a COVID-19 e di database correlati all'architettura, ottimizzati per la leggibilità dei computer e resi disponibili per l'uso da parte della community di ricerca globale.
Data lake di Genomica Genomica Data Lake offre diversi set di dati pubblici disponibili gratuitamente, pronti per l'integrazione nei flussi di lavoro e nelle applicazioni di analisi genomica. I set di dati comprendono sequenze di genoma, informazioni sulle varianti e metadati di campioni/soggetti nei formati di file BAM, FASTA, VCF, CSV.

Forza lavoro ed economia

Set di dati Descrizione
Statistiche relative alla forza lavoro negli Stati Uniti US Labor Force Statistics fornisce statistiche sulla forza lavoro, i tassi di partecipazione alle forze di lavoro e la popolazione civile non istituzionale per età, sesso, razza e gruppi etnici negli Stati Uniti.
Ore e guadagni per il settore dell'occupazione nazionale negli Stati Uniti Il programma Current Employment Statistics (CES) genera stime dettagliate per il settore dell'occupazione non agricola con informazioni su ore e guadagni dei lavoratori stipendiati negli Stati Uniti.
Ore e guadagni per il settore dell'occupazione a livello statale negli Stati Uniti Il programma Current Employment Statistics (CES) genera stime dettagliate per il settore dell'occupazione non agricola con informazioni su ore e guadagni dei lavoratori stipendiati negli Stati Uniti.
Statistiche relative alla disoccupazione a livello di area locale negli Stati Uniti I set di dati US Local Area Unemployment Statistics includono dati relativi a occupazione, disoccupazione e forza lavoro, su base mensile e annuale, ai fini del censimento per aree geografiche e divisioni, stati, contee, aree metropolitane e numerose città negli Stati Uniti.
US Consumer Price Index L'indice dei prezzi al consumo (CPI) misura la variazione media nel tempo dei prezzi pagati dai consumatori urbani per un carrello del mercato di beni e servizi di consumo.
US Producer Price Index - Industry L'indice dei prezzi del produttore (PPI) misura la variazione media, nel corso del tempo, dei prezzi di vendita ricevuti dai produttori nazionali per la loro produzione.
US Producer Price Index - Commodities L'indice dei prezzi del produttore (PPI) misura la variazione media, nel tempo, dei prezzi di vendita ricevuti dai produttori nazionali per le loro materie prime.

Popolazione e sicurezza

Set di dati Descrizione
Popolazione degli Stati Uniti per contea Popolazione statunitense suddivisa per sesso ed etnia per ciascuna contea degli Stati Uniti, ricavata dal censimento decennale del 2000 e del 2010. Questo set di dati proviene da United States Census Bureau.
Popolazione degli Stati Uniti per CAP Popolazione statunitense suddivisa per sesso ed etnia per ciascun codice postale statunitense, ricavata dal censimento decennale del 2010. Questo set di dati proviene da United States Census Bureau.
Dati sulla sicurezza di Boston Leggi i dati sulle chiamate al 311 registrate per la città di Boston. Questo set di dati viene archiviato in formato Parquet e riceve aggiornamenti giornalieri.
Dati sulla sicurezza di Chicago Leggi i dati sulle chiamate al 311 registrate per la città di Chicago. Questo set di dati viene archiviato in formato Parquet e riceve aggiornamenti giornalieri.
Dati sulla sicurezza di New York Questo set di dati contiene tutte le richieste di assistenza effettuate al numero 311 nella città di New York dal 2010 a oggi. Questo set di dati viene archiviato in formato Parquet e riceve aggiornamenti giornalieri.
Dati sulla sicurezza di San Francisco Richieste di assistenza ai vigili del fuoco e casi del servizio 311 di San Francisco. Questo set di dati include record cronologici accumulati dal 2015 a oggi.
Dati sulla sicurezza di Seattle Risposte a chiamate al numero 911 del Seattle Fire Department. Questo set di dati, aggiornato quotidianamente, include record cronologici accumulati dal 2010 a oggi

Set di dati supplementari e comuni

Set di dati Descrizione
Diabete Il set di dati Diabetes include 442 esempi con 10 funzionalità ed è quindi ottimale per iniziare a usare gli algoritmi di Machine Learning.
Dati simulati vendite OJ Questo set di dati è derivato dal set di dati OJ di Dominick e include dati simulati aggiuntivi con l'obiettivo di fornire un set di dati che semplifica il training simultaneo di migliaia di modelli in Azure Machine Learning.
Database MNIST di cifre scritte a mano Il database MNIST di cifre scritte a mano ha un set di training di 60.000 esempi e un set di test di 10.000 esempi. Le dimensioni delle cifre sono normalizzate e le cifre sono inserite al centro in un'immagine di dimensioni fisse.
Set di dati sulle raccomandazioni di Microsoft News Microsoft News Dataset (MIND) è un set di dati su larga scala per la ricerca di raccomandazioni di notizie. Funge da set di dati di riferimento per le raccomandazioni sulle notizie e facilita la ricerca nei sistemi di raccomandazione e consultazione delle notizie.
Festività pubbliche Dati per le festività mondiali generati dai pacchetti PyPI relativi alle festività e da Wikipedia e relativi a 38 paesi o aree geografiche dal 1970 al 2099.
Riconoscimento vocale aperto in russo Il riconoscimento vocale aperto in russo è un set di dati vocale aperto su larga scala per la lingua russa