opendatasets Pacchetto
Contiene funzionalità per l'utilizzo di set di dati aperti di Azure come dataframe e per l'arricchimento dei dati dei clienti.
I set di dati aperti di Azure sono set di dati pubblici curati che è possibile usare per aggiungere funzionalità specifiche dello scenario alle soluzioni di Machine Learning per modelli più accurati. È possibile convertire questi set di dati pubblici in dataframe Spark e pandas con filtri applicati. Per alcuni set di dati, è possibile usare un enricher per unire i dati pubblici ai dati. Ad esempio, è possibile unire i dati con i dati meteo per longitudine e latitudine o codice postale e ora.
Inclusi nei set di dati aperti di Azure sono dati di dominio pubblico per meteo, censimento, festività, sicurezza pubblica e posizione che consentono di eseguire il training di modelli di Machine Learning e arricchire le soluzioni predittive. I set di dati aperti si trovano nel cloud in Microsoft Azure e sono integrati in Azure Machine Learning. Per altre informazioni sull'uso dei set di dati aperti di Azure, vedere Creare set di dati con Set di dati aperti di Azure.
Per informazioni generali sui set di dati aperti di Azure, vedere la documentazione relativa ai set di dati aperti di Azure.
Pacchetti
| accessories |
Contiene funzionalità che consentono di identificare i tipi di colonna nei dati, tra cui lat/long, zipcode e time. |
| aggregators |
Contiene funzionalità per definire la modalità di aggregazione dei dati uniti. Gli aggregatori definiscono operazioni che possono essere eseguite sul risultato dell'unione dei dati da due set di dati. Ad esempio, quando si usa una delle classi in enrichers, è possibile specificare un aggregatore come parte dell'operazione. Se non è necessaria alcuna aggregazione, usare AggregatorAll. |
| data |
Contiene il file init per le risorse di dati nel modulo publicholidays. |
| dataaccess |
Contiene funzionalità che forniscono metodi di accesso ai file BLOB. Quando si usa una classe del opendatasets pacchetto come la ChicagoSafety classe , le classi e le funzioni di dataaccess in questo pacchetto vengono usate internamente. In generale, non è necessario usare direttamente la funzionalità nel pacchetto dataaccess. |
| enrichers |
Contiene funzionalità per arricchire e unire i dati da due set di dati. In genere, i enricher uniscono i dati provenienti da origini diverse. In particolare, gli enricher consentono di aggiungere i dati (dati dei clienti) ai dati di Azure Open Dataset o ad altri set di dati pubblici. |
| granularities |
Contiene funzionalità che definiscono le misure di tempo e distanza usate dagli enricher. Le granularità sono misure di tempo o distanza usate da enrichers quando si arricchiscono i dati (join). Esistono granularità temporali, ad esempio orarie o giornaliere, e granularità della posizione, ad esempio la distanza più vicina. |
| selectors |
Contiene funzionalità per la selezione e l'unione di dati da un set di dati del cliente con i dati di un set di dati pubblico. I selettori definiscono la logica che consente di arricchire i dati con set di dati pubblici in base alle misure di tempo e distanza. Ad esempio, con un selettore è possibile trovare dati pubblici da unire ai dati in base alla posizione più vicina o arrotondando alla stessa granularità temporale. Specificare i selettori quando si lavora con una delle classi nel enrichers pacchetto. |
Moduli
| environ |
Definisce le classi di ambiente di runtime in cui vengono usati set di dati aperti di Azure. Le classi in questo modulo assicurano che la funzionalità Set di dati aperti di Azure sia ottimizzata per ambienti diversi.
In generale, non è necessario creare un'istanza di queste classi di ambiente o preoccuparsi dell'implementazione.
Usare invece la |
Classi
| BingCOVID19Data |
Rappresenta il set di dati BING COVID-19. Questi set di dati contengono i dati di Bing COVID-19 da più fonti attendibili e affidabili, tra cui l'Organizzazione mondiale della sanità (OMS), i Centri per il controllo e la prevenzione delle malattie (CDC), i reparti sanitari pubblici nazionali e statali, BNO News, 24/7 Wall St., e Wikipedia. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Bing COVID-19 Data nel catalogo dei set di dati aperti di Microsoft Azure. Inizializzare i campi di filtro. |
| BostonSafety |
Rappresenta il set di dati pubblico Boston Safety. Questo set di dati contiene 311 chiamate segnalate alla città di Boston. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Boston Safety Data nel catalogo dei set di dati aperti di Microsoft Azure. Inizializzare i campi di filtro. |
| COVID19OpenResearch |
Rappresenta il set di dati open research COVID-19. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere COVID-19 Open Research Dataset nel catalogo di Microsoft Azure Open Datasets. |
| COVIDTrackingProject |
Rappresenta il set di dati del progetto di rilevamento COVID. Questo set di dati contiene il set di dati di COVID Tracking Project che fornisce i numeri più recenti sui test, i casi confermati, le ospedaliizzazioni e i risultati dei pazienti da ogni stato e territorio degli Stati Uniti. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Set di dati del progetto di rilevamento COVID nel catalogo dei set di dati aperti di Microsoft Azure. Inizializzare i campi di filtro. |
| ChicagoSafety |
Rappresenta il set di dati pubblico di Chicago Safety. Questo set di dati contiene 311 richieste di servizio dalla città di Chicago, tra cui reclami cronologici relativi al codice sanitario, fori di vaso segnalati e problemi di luce stradale. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Chicago Safety Data nel catalogo dei set di dati aperti di Microsoft Azure. Inizializzare i campi di filtro. |
| CitySafety |
Classe di sicurezza city: si tratta di una classe padre che può essere ereditata da ogni singola città. Inizializzare i campi di filtro. |
| Diabetes |
Rappresenta il set di dati pubblico Sample Diabetes. Il set di dati Diabetes include 442 esempi con 10 funzionalità ed è quindi ottimale per iniziare a usare gli algoritmi di Machine Learning. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Esempio: Diabetes nel catalogo dei set di dati aperti di Microsoft Azure. |
| EcdcCOVIDCases |
Rappresenta il Centro europeo per la prevenzione e il controllo delle malattie (ECDC) Casi covid-19. Questo set di dati contiene il Centro europeo per la prevenzione e il controllo delle malattie (ECDC). Ogni riga/voce contiene il numero di nuovi casi segnalati al giorno e per paese/area geografica. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere European Centre for Disease Prevention and Control (ECDC) Covid-19 Cases nel catalogo di Microsoft Azure Open Datasets. Inizializzare i campi di filtro. |
| MNIST |
Rappresenta il set di dati MNIST di cifre scritte a mano. Il database MNIST di cifre scritte a mano ha un set di training di 60.000 esempi e un set di test di 10.000 esempi. Le cifre sono state normalizzate e centrate in un'immagine a dimensione fissa. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Database MNIST di cifre scritte a mano nel catalogo dei set di dati aperti di Microsoft Azure. Per un esempio di uso del set di dati MNIST, vedere l'esercitazione Eseguire il training di modelli di classificazione delle immagini con dati MNIST e scikit-learn usando Azure Machine Learning. |
| NoParameterOpenDatasetBase |
Classe di base del lavoro degli Stati Uniti. Inizializzare. |
| NoaaGfsWeather |
Rappresenta il set di dati National Oceanic and Atmospheric Administration (NOAA) Global Forecast System (GFS). Questo set di dati contiene dati sulle previsioni meteo orarie statunitensi di 15 giorni (ad esempio: temperatura, precipitazioni, vento) prodotti dal Global Forecast System (GFS) dalla National Oceanic and Atmospheric Administration (NOAA). Per informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere NOAA Global Forecast System nel catalogo dei set di dati aperti di Microsoft Azure. Inizializzare i campi di filtro. |
| NoaaIsdWeather |
Rappresenta l'ISD (National Oceanic and Atmospheric Administration) Integrated Surface Dataset (NOAA). Questo set di dati contiene dati di cronologia meteo oraria in tutto il mondo (ad esempio: temperatura, precipitazioni, vento) originati dalla National Oceanic and Atmospheric Administration (NOAA). Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere NOAA Integrated Surface Data nel catalogo dei set di dati aperti di Microsoft Azure. Inizializzare i campi di filtro. |
| NycSafety |
Rappresenta il set di dati pubblico New York City Safety. Questo set di dati contiene tutte le richieste di assistenza effettuate al numero 311 nella città di New York dal 2010 a oggi. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere New York City Safety Data nel catalogo dei set di dati aperti di Microsoft Azure. Inizializzare i campi di filtro. |
| NycTaxiBase |
Classe New York Taxi: classe padre che può essere ereditata. Inizializzare i campi di filtro. |
| NycTlcFhv |
Rappresenta il set di dati pubblico NYC Taxi & Limousine Commission. Questo set di dati contiene For-Hire record delle corse di Vechicle (FHV), inclusi i campi che acquisisce il numero di licenza di base di invio e l'ID della posizione della zona di ritiro (file di forma riportato di seguito). Questi record vengono generati dagli invii FHV Trip Record effettuati dalle basi. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) record di viaggio nel catalogo dei set di dati aperti di Microsoft Azure. Inizializzare i campi di filtro. |
| NycTlcGreen |
Rappresenta il set di dati pubblico relativo alle corse in taxi verdi di NYC Taxi & Limousine Commission. I record delle corse dei taxi verdi includono campi che acquisisce date/ore di ritiro e di consegna, posizioni di ritiro e recapito, distanze di viaggio, tariffe articoli, tipi di tariffa, tipi di pagamento e conteggi passeggeri segnalati dal conducente. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere NYC Taxi & Limousine Commission - record di corse di taxi verdi nel catalogo dei set di dati aperti di Microsoft Azure. Per un esempio di uso della classe NycTlcGreen, vedere l'esercitazione Usare machine learning automatizzato per stimare le tariffe dei taxi. Inizializzare i campi di filtro. |
| NycTlcYellow |
Rappresenta il set di dati pubblico delle corse dei taxi di NYC Taxi & Limousine Commission. I record delle corse dei taxi gialli includono campi che acquisisce date/ore di ritiro e di consegna, posizioni di ritiro e recapito, distanze di viaggio, tariffe localizzate, tipi di tariffa, tipi di pagamento e conteggi passeggeri segnalati dal conducente. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere NYC Taxi & Limousine Commission - record delle corse dei taxi gialli nel catalogo dei set di dati aperti di Microsoft Azure. Inizializzare i campi di filtro. |
| OjSalesSimulated |
Rappresenta il set di dati simulato Sample Orange Juice Sales. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Esempio: DATI simulati DI VENDITA DI DATI DI SALES NEL catalogo di Set di dati aperti di Microsoft Azure. |
| PublicHolidays |
Rappresenta il set di dati Pubblico festività pubbliche. Questi set di dati contengono i dati delle festività pubbliche in tutto il mondo originati dal pacchetto di festività PyPI e Wikipedia, che coprono 38 paesi o aree geografiche dal 1970 al 2099. Ogni riga indica le informazioni sulle festività per una data, un paese o un'area geografica specifiche e se la maggior parte delle persone ha pagato il tempo di disattivazione. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Festività pubbliche nel catalogo dei set di dati aperti di Microsoft Azure. Inizializzare i campi di filtro. |
| PublicHolidaysOffline |
Rappresenta il set di dati pubblico offline per le festività pubbliche. Per una descrizione delle righe, vedere Festività pubbliche nel catalogo dei set di dati aperti di Microsoft Azure. Inizializzare i campi di filtro. |
| SampleDatasetBase |
Rappresenta la classe base del set di dati di esempio. |
| SanFranciscoSafety |
Rappresenta il set di dati pubblico di San Francisco Safety. Questo set di dati contiene chiamate al reparto antincendio per il servizio e 311 casi a San Francisco. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere San Francisco Safety Data nel catalogo dei set di dati aperti di Microsoft Azure. Inizializzare i campi di filtro. |
| SeattleSafety |
Rappresenta il set di dati pubblico Seattle Safety. Questo set di dati contiene i dati di invio di Seattle Fire Department 911. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Seattle Safety Data nel catalogo dei set di dati aperti di Microsoft Azure. Inizializzare i campi di filtro. |
| UsLaborCPI |
Rappresenta il set di dati pubblico us Consumer Price Index. L'indice dei prezzi di consumo (CPI) è una misura della variazione media nel tempo dei prezzi pagati dai consumatori urbani per un carrello di mercato di beni e servizi di consumo. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Us Consumer Price Index nel catalogo dei set di dati aperti di Microsoft Azure. Inizializzare. |
| UsLaborEHENational |
Rappresenta il set di dati pubblico Us National Employment Hours and Earnings. Questo set di dati contiene stime del settore dell'occupazione, delle ore e degli utili dei lavoratori sulle retribuzioni negli Stati Uniti. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Us National Employment Hours and Earning nel catalogo dei set di dati open di Microsoft Azure. Inizializzare. |
| UsLaborEHEState |
Rappresenta il set di dati pubblico Us State Employment Hours and Earnings. Questo set di dati contiene stime del settore dell'occupazione, delle ore e degli utili dei lavoratori sulle retribuzioni negli Stati Uniti. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Us State Employment Hours and Earning nel catalogo dei set di dati aperti di Microsoft Azure. Inizializzare. |
| UsLaborLAUS |
Rappresenta il set di dati pubblico delle statistiche di disoccupazione dell'area locale degli Stati Uniti. Questo set di dati contiene dati mensili e annuali sull'occupazione, la disoccupazione e la forza lavoro per aree e divisioni del censimento, Stati, contee, aree metropolitane e molte città negli Stati Uniti. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Us Local Area Unemployment Statistics nel catalogo dei set di dati aperti di Microsoft Azure. Inizializzare. |
| UsLaborLFS |
Rappresenta il set di dati pubblico US Labor Force Statistics. Questo set di dati contiene dati sulla forza lavoro negli Stati Uniti, inclusi i tassi di partecipazione alle forze di lavoro e la popolazione civile non stituzionale in base all'età, al sesso, alla razza e ai gruppi etnici. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere US Labor Force Statistics nel catalogo dei set di dati aperti di Microsoft Azure. Inizializzare. |
| UsLaborPPICommodity |
Rappresenta il set di dati pubblico us Producer Price Index (PPI) - Commodits. L'indice dei prezzi del produttore (PPI) è una misura della variazione media nel tempo nei prezzi di vendita ricevuti dai produttori nazionali per la loro produzione. I prezzi inclusi nel PPI provengono dalla prima transazione commerciale per i prodotti e i servizi coperti. Questo set di dati contiene ppi per singoli prodotti e gruppi di prodotti rilasciati mensilmente. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Us Producer Price Index - Commodits nel catalogo di Microsoft Azure Open Datasets. Inizializzare. |
| UsLaborPPIIndustry |
Rappresenta il set di dati pubblico dell'industria statunitense Producer Price Index (PPI). L'indice dei prezzi del produttore (PPI) è una misura della variazione media nel tempo nei prezzi di vendita ricevuti dai produttori nazionali per la loro produzione. I prezzi inclusi nel PPI provengono dalla prima transazione commerciale per i prodotti e i servizi coperti. Questo set di dati contiene i PPI per un'ampia gamma di settori industriali dell'economia statunitense. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere Us Producer Price Index - Industry nel catalogo dei set di dati aperti di Microsoft Azure. Per informazioni generali sui set di dati aperti di Azure, vedere la documentazione relativa ai set di dati aperti di Azure. Inizializzare. |
| UsPopulationCounty |
Rappresenta il set di dati pubblico us Population by County. Questo set di dati contiene la popolazione statunitense per sesso e razza per ogni contea degli Stati Uniti originata dal censimento decenniale del 2000 e del 2010. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere US Population by County nel catalogo dei set di dati aperti di Microsoft Azure. Inizializzare. |
| UsPopulationZip |
Rappresenta il set di dati pubblico della popolazione degli Stati Uniti in base al codice postale. Questo set di dati contiene la popolazione statunitense in base al sesso e alla razza per ogni codice POSTALE statunitense originato dal censimento decenniale del 2010. Per altre informazioni su questo set di dati, incluse le descrizioni delle colonne, diversi modi per accedere al set di dati ed esempi, vedere US Population by ZIP Code nel catalogo di Set di dati aperti di Microsoft Azure. Inizializzare. |