Condividi tramite


Cosa sono i set di dati aperti di Azure e come possono essere usati?

I set di dati aperti di Azure include set di dati pubblici curati che è possibile usare per aggiungere caratteristiche specifiche dello scenario alle soluzioni di Machine Learning e realizzare modelli più accurati. I set di dati aperti sono disponibili nel cloud in Microsoft Azure. Sono integrati in Azure Machine Learning e sono facilmente disponibili per Azure Databricks. È anche possibile accedere ai set di dati tramite API e usarli in altri prodotti, come Power BI e Azure Data Factory.

I set di dati includono dati di pubblico dominio relativi a meteo, censimento, festività, sicurezza pubblica e posizione, che consentono di eseguire il training di modelli di Machine Learning e arricchire le soluzioni predittive. È anche possibile condividere i propri set di dati pubblici in set di dati aperti di Azure.

Diagramma che mostra i blocchi predefiniti del servizio set di dati aperti di Azure.

Set di dati preparati e curati

I set di dati pubblici, aperti e curati disponibili in Azure Open Datasets sono ottimizzati per l'utilizzo in flussi di lavoro di Machine Learning.

Per altre informazioni sui set di dati disponibili, visitare la risorsa set di dati aperti di Azure.

I data scientist dedicano spesso la maggior parte del tempo alla pulizia e alla preparazione dei dati per l'analisi avanzata. I set di dati aperti vengono copiati nel cloud di Azure e pre-elaborati per far risparmiare tempo. A intervalli regolari viene effettuato il pull dei dati dalle origini, ad esempio tramite una connessione FTP alla National Oceanic and Atmosferical Administration (NOAA). Successivamente, i dati vengono analizzati in un formato strutturato e quindi arricchiti in modo appropriato con funzionalità come il codice postale ZIP (Stati Uniti) o la posizione della stazione meteo più vicina.

I set di dati sono co-ospitati con risorse di calcolo del cloud in Azure, semplificandone l'accesso e la manipolazione.

Ecco alcuni esempi di set di dati disponibili:

Trasporti

Set di dati Descrizione
Record relativi alle corse di NYC Taxi & Limousine Commission - taxi gialli I record delle corse dei taxi gialli includono date e ore di presa e rilascio, posizioni di presa e rilascio, distanze di viaggio, tariffe dettagliate, tipi di tariffa, tipi di pagamento e conteggi dei passeggeri segnalati dall'autista.
NYC Taxi & Limousine Commission - registrazioni di viaggi in taxi verdi I record di corse dei taxi verdi includono date/ore di ritiro e di consegna, posizioni di ritiro e recapito, distanze di viaggio, tariffe, tipi di tariffa, tipi di pagamento e conteggi passeggeri segnalati dal conducente.

Lavoro ed economia

Set di dati Descrizione
Statistiche sulle forze di lavoro statunitensi Us Labor Force Statistics fornisce statistiche sulla forza lavoro, tassi di partecipazione alle forze di lavoro e popolazione civile non civile per età, sesso, razza e gruppi etnici negli Stati Uniti.
Ore e Salari Nazionali per l'Occupazione negli Stati Uniti Il programma Current Employment Statistics (CES) produce stime dettagliate dell'industria sull'occupazione non agricola, delle ore e dei salari dei lavoratori con stipendio negli Stati Uniti.

Accedere ai set di dati

Con un account Azure è possibile accedere ai set di dati aperti tramite codice o tramite l'interfaccia dei servizi di Azure. I dati sono co-ospitati con risorse di calcolo del cloud di Azure per l'uso nelle soluzioni di Machine Learning.

I set di dati aperti sono disponibili tramite l'interfaccia utente di Azure Machine Learning e l'SDK. I set di dati aperti mettono inoltre a disposizione notebook di Azure Notebooks e Azure Databricks, che possono essere usati per connettere i dati ad Azure Machine Learning e ad Azure Databricks. I set di dati sono accessibili anche tramite Python SDK.

Tuttavia, non è necessario un account Azure per accedere ai set di dati aperti, che sono accessibili in qualsiasi ambiente Python con o senza Spark.

Richiedere o aggiungere set di dati

Se i dati desiderati non sono disponibili, è possibile inviarci un messaggio di posta elettronica per richiedere un set di dati o aggiungere un set di dati.

Passaggi successivi