Cosa sono i set di dati aperti di Azure e come possono essere usati?
Articolo
I set di dati aperti di Azure include set di dati pubblici curati che è possibile usare per aggiungere caratteristiche specifiche dello scenario alle soluzioni di Machine Learning e realizzare modelli più accurati. I set di dati aperti sono disponibili nel cloud in Microsoft Azure. Sono integrati in Azure Machine Learning e sono facilmente disponibili per Azure Databricks e Machine Learning Studio (versione classica). È anche possibile accedere ai set di dati tramite API e usarli in altri prodotti, come Power BI e Azure Data Factory.
I set di dati includono dati di pubblico dominio relativi a meteo, censimento, festività, sicurezza pubblica e posizione, che consentono di eseguire il training di modelli di Machine Learning e arricchire le soluzioni predittive. È anche possibile condividere i propri set di dati pubblici in set di dati aperti di Azure.
Set di dati preparati e curati
I set di dati pubblici, aperti e curati disponibili in Azure Open Datasets sono ottimizzati per l'utilizzo in flussi di lavoro di Machine Learning.
Gli scienziati dei dati dedicano spesso la maggior parte del loro tempo a pulire e preparare i dati per l'analisi avanzata. I set di dati aperti vengono copiati nel cloud di Azure e pre-elaborati per far risparmiare tempo. A intervalli regolari viene effettuato il pull dei dati dalle origini, ad esempio tramite una connessione FTP alla National Oceanic and Atmosferical Administration (NOAA). Successivamente, i dati vengono analizzati in un formato strutturato e quindi arricchiti in modo appropriato con funzionalità come il codice postale ZIP (Stati Uniti) o la posizione della stazione meteo più vicina.
I set di dati sono co-ospitati con risorse di calcolo del cloud in Azure, semplificandone l'accesso e la manipolazione.
Dati meteo orari a livello mondiale di NOAA, con la migliore copertura spaziale in America del Nord, Europa, Australia e parti dell'Asia. Vengono aggiornati quotidianamente.
Dati sulle festività pubbliche di tutto il mondo, con copertura di 41 nazioni o aree geografiche dal 1970 al 2099. Include il paese/area geografica e indicano se si tratta o meno di ferie retribuite per la maggior parte delle persone.
Accedere ai set di dati
Con un account Azure è possibile accedere ai set di dati aperti tramite codice o tramite l'interfaccia dei servizi di Azure. I dati sono co-ospitati con risorse di calcolo del cloud di Azure per l'uso nelle soluzioni di Machine Learning.
I set di dati aperti sono disponibili tramite l'interfaccia utente di Azure Machine Learning e l'SDK. I set di dati aperti mettono inoltre a disposizione notebook di Azure Notebooks e Azure Databricks, che possono essere usati per connettere i dati ad Azure Machine Learning e ad Azure Databricks. I set di dati sono accessibili anche tramite Python SDK.
Tuttavia, non è necessario un account Azure per accedere ai set di dati aperti, che sono accessibili in qualsiasi ambiente Python con o senza Spark.
Gestire l'inserimento e la preparazione dei dati, il training e la distribuzione di modelli e il monitoraggio delle soluzioni di apprendimento automatico con Python, Azure Machine Learning e MLflow.