Dela via


opendatasets Paket

Innehåller funktioner för att använda Azure Open Datasets som dataramar och för att utöka kunddata.

Azure Open Datasets är utvalda offentliga datauppsättningar som du kan använda för att lägga till scenariospecifika funktioner i maskininlärningslösningar för mer exakta modeller. Du kan konvertera dessa offentliga datauppsättningar till Spark- och Pandas-dataramar med filter tillämpade. För vissa datauppsättningar kan du använda en berikare för att koppla offentliga data till dina data. Du kan till exempel koppla dina data med väderdata efter longitud och latitud eller postnummer och tid.

I Azure Open Datasets ingår offentliga data för väder, folkräkning, helgdagar, allmän säkerhet och plats som hjälper dig att träna maskininlärningsmodeller och berika förutsägande lösningar. Open Datasets finns i molnet på Microsoft Azure och är integrerade i Azure Machine Learning. Mer information om hur du arbetar med Azure Open Datasets finns i Skapa datauppsättningar med Azure Open Datasets.

Allmän information om Azure Open Datasets finns i Dokumentation om Azure Open Datasets.

Paket

accessories

Innehåller funktioner som hjälper dig att identifiera kolumntyper i data, inklusive lat/long, postnummer och tid.

aggregators

Innehåller funktioner för att definiera hur anslutna data aggregeras.

Aggregatorer definierar åtgärder som kan utföras på resultatet av att koppla data från två datauppsättningar. När du till exempel använder en av klasserna i enricherskan du ange en aggregator som en del av åtgärden. Om ingen aggregering behövs använder du AggregatorAll.

data

Innehåller init-filen för dataresurser i modulen publicholidays.

dataaccess

Innehåller funktioner som tillhandahåller åtkomstmetoder för blobfiler.

När du använder en klass från opendatasets paketet som ChicagoSafety klassen används dataåtkomstklasserna och funktionerna i det här paketet internt. I allmänhet behöver du inte använda funktionerna i dataaccess-paketet direkt.

enrichers

Innehåller funktioner för att berika och koppla samman data från två datamängder.

I allmänhet sammanfogar berikare data från olika källor. Mer specifikt kan berikare du ansluta dina data (kunddata) med data från Azure Open Datasets eller andra offentliga datamängder.

granularities

Innehåller funktioner som definierar tids- och avståndsmått som används av berikare.

Kornigheter är mått på tid eller avstånd som används vid enrichers berikande (sammanfogning) data. Det finns tidskornigheter, till exempel varje timme eller dag, och platsdetaljnivå, till exempel närmaste avstånd.

selectors

Innehåller funktioner för att välja och koppla data från en kunddatauppsättning med data från en offentlig datauppsättning.

Väljare definierar logik som gör att du kan utöka dina data med offentliga datamängder baserat på tids- och avståndsåtgärder. Med en väljare kan du till exempel hitta offentliga data som ska kopplas till dina data baserat på närmaste plats eller genom att avrunda till samma tidskornighet.

Ange väljare när du arbetar med någon av klasserna enrichers i paketet.

Moduler

environ

Definierar körningsmiljöklasser där Azure Open Datasets används.

Klasserna i den här modulen säkerställer att Azure Open Datasets-funktionerna är optimerade för olika miljöer. I allmänhet behöver du inte instansiera dessa miljöklasser eller bekymra dig om deras implementering. Använd get_environ i stället modulfunktionen för att returnera miljön.

Klasser

BingCOVID19Data

Representerar datauppsättningen Bing COVID-19.

Dessa datauppsättningar innehåller Bing COVID-19-data från flera betrodda, tillförlitliga källor, inklusive Världshälsoorganisationen (WHO), Centers for Disease Control and Prevention (CDC), nationella och statliga folkhälsomyndigheter, BNO News, 24/7 Wall St., och Wikipedia. Mer information om den här datauppsättningen, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i Bing COVID-19-data i Microsoft Azure Open Datasets-katalogen.

Initiera filtreringsfält.

BostonSafety

Representerar den offentliga datauppsättningen för Boston Safety.

Den här datamängden innehåller 311 anrop som rapporterats till staden Boston. Mer information om den här datauppsättningen, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i Boston Safety Data i Microsoft Azure Open Datasets-katalogen.

Initiera filtreringsfält.

COVID19OpenResearch

Representerar COVID-19 Open Research Dataset.

Mer information om den här datauppsättningen, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i COVID-19 Open Research Dataset i Microsoft Azure Open Datasets-katalogen.

COVIDTrackingProject

Representerar datamängden COVID Tracking Project.

Dessa datauppsättningar innehåller datauppsättningen COVID Tracking Project som ger de senaste siffrorna för tester, bekräftade fall, sjukhusvistelser och patientresultat från varje delstat och område i USA. Mer information om den här datauppsättningen, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i COVID Tracking Project-datauppsättningen i Microsoft Azure Open Datasets-katalogen.

Initiera filtreringsfält.

ChicagoSafety

Representerar den offentliga datauppsättningen för Chicago Safety.

Den här datamängden innehåller 311 tjänstbegäranden från chicago, inklusive klagomål om historisk sanitetskod, rapporterade potthål och problem med gatubelysning. Mer information om den här datauppsättningen, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i Chicago Safety Data i Microsoft Azure Open Datasets-katalogen.

Initiera filtreringsfält.

CitySafety

Säkerhetsklass för stad – det här är en överordnad klass som kan ärvas av varje enskild stad.

Initiera filtreringsfält.

Diabetes

Representerar den offentliga datauppsättningen För exempeldiabetes.

Diabetes-datamängden innehåller 442 exempel med 10 funktioner, vilket gör den idealisk för att komma igång med Machine Learning-algoritmer. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i Exempel: Diabetes i katalogen Microsoft Azure Open Datasets.

EcdcCOVIDCases

Representerar Europeiska centrumet för förebyggande och kontroll av sjukdomar (ECDC) Covid-19-fall.

Dessa datamängder innehåller från European Center for Disease Prevention and Control (ECDC). Varje rad/post innehåller antalet nya fall som rapporteras per dag och per land/region. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i European Centre for Disease Prevention and Control (ECDC) Covid-19 Cases i Microsoft Azure Open Datasets-katalogen.

Initiera filtreringsfält.

MNIST

Representerar MNIST-datauppsättningen för handskrivna siffror.

MNIST-databasen med handskrivna siffror har en träningsuppsättning med 60 000 exempel och en testuppsättning med 10 000 exempel. Siffrorna har storleksnormaliserats och centrerats i en bild med fast storlek. Mer information om den här datauppsättningen, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i MNIST-databasen med handskrivna siffror i Microsoft Azure Open Datasets-katalogen.

Ett exempel på hur du använder MNIST-datamängden finns i självstudien Träna bildklassificeringsmodeller med MNIST-data och scikit-learn med Azure Machine Learning.

NoParameterOpenDatasetBase

Amerikansk arbetsbasklass.

Initiera.

NoaaGfsWeather

Representerar datamängden National Oceanic and Atmospheric Administration (NOAA) Global Forecast System (GFS).

Den här datamängden innehåller väderprognosdata för 15 dagar i USA per timme (till exempel temperatur, nederbörd, vind) som produceras av Global Forecast System (GFS) från National Oceanic and Atmospheric Administration (NOAA). Information om den här datauppsättningen, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i NOAA Global Forecast System i Microsoft Azure Open Datasets-katalogen.

Initiera filtreringsfält.

NoaaIsdWeather

Representerar National Oceanic and Atmospheric Administration (NOAA) Integrated Surface Dataset (ISD).

Den här datamängden innehåller data om världsomfattande väderhistorik varje timme (till exempel temperatur, nederbörd, vind) från National Oceanic and Atmospheric Administration (NOAA). Mer information om den här datauppsättningen, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i NOAA Integrated Surface Data i Microsoft Azure Open Datasets-katalogen.

Initiera filtreringsfält.

NycSafety

Representerar den offentliga datamängden New York City Safety.

Den här datamängden innehåller alla 311-tjänstbegäranden i New York City från 2010 fram till nutid. Mer information om den här datauppsättningen, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i New York City Safety Data i Microsoft Azure Open Datasets-katalogen.

Initiera filtreringsfält.

NycTaxiBase

New York Taxi-klass – det här är en överordnad klass som kan ärvas.

Initiera filtreringsfält.

NycTlcFhv

Representerar den offentliga datamängden NYC Taxi & Limousine Commission.

Den här datamängden innehåller For-Hire FHV-reseposter (Vechicle), som innehåller fält som samlar in det sändande baslicensnumret och plats-ID:t för hämtningsdatum, tid och taxizon (formfil nedan). Dessa poster genereras från FHV-färdregistret som skickas från basenheterna. Mer information om den här datauppsättningen, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i NYC Taxi & Limousine Commission – For-Hire Vehicle (FHV) reseposter i Microsoft Azure Open Datasets-katalogen.

Initiera filtreringsfält.

NycTlcGreen

Representerar NYC Taxi & Limousine Commission green taxi trip public dataset.

Den gröna taxins färdposter innehåller fält som visar datum och tid för upphämtning och avlämning, plats för upphämtning och avlämning, körsträcka, specificerade priser, tarifftyper, betalningssätt och förarrapporterade passagerarantal. Mer information om den här datauppsättningen, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i NYC Taxi & Limousine Commission – reseposter för grön taxi i Microsoft Azure Open Datasets-katalogen.

Ett exempel på hur du använder klassen NycTlcGreen finns i självstudien Använda automatiserad maskininlärning för att förutsäga taxipriser.

Initiera filtreringsfält.

NycTlcYellow

Representerar NYC Taxi & Limousine Commission yellow taxi trip public dataset.

Den gula taxins färdposter innehåller fält som visar datum och tid för upphämtning och avlämning, plats för upphämtning och avlämning, körsträcka, specificerade priser, tarifftyper, betalningssätt och förarrapporterade passagerarantal. Mer information om den här datauppsättningen, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i NYC Taxi & Limousine Commission – gul taxi reseposter i Microsoft Azure Open Datasets-katalogen.

Initiera filtreringsfält.

OjSalesSimulated

Representerar datauppsättningen Orange Juice Sales Simulated(Exempel på simulerad försäljning).

Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i Exempel: OJ Sales Simulated Data i Microsoft Azure Open Datasets-katalogen.

PublicHolidays

Representerar den offentliga datauppsättningen för helgdagar.

Dessa datamängder innehåller globala helgdagsdata från PyPI-semesterpaketet och Wikipedia, som omfattar 38 länder eller regioner från 1970 till 2099. Varje rad visar helgdagsinformation för ett specifikt datum, land/region och om de flesta invånarna har betald ledighet. Mer information om den här datauppsättningen, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i Offentliga helgdagar i Microsoft Azure Open Datasets-katalogen.

Initiera filtreringsfält.

PublicHolidaysOffline

Representerar den offentliga datauppsättningen för offentliga helgdagar offline.

En beskrivning av raderna finns i Offentliga helgdagar i Microsoft Azure Open Datasets-katalogen.

Initiera filtreringsfält.

SampleDatasetBase

Representerar klassen Sample Dataset Base.

SanFranciscoSafety

Representerar den offentliga datauppsättningen San Francisco Safety.

Den här datamängden innehåller brandkårsanrop för service och 311 fall i San Francisco. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i San Francisco Safety Data i Microsoft Azure Open Datasets-katalogen.

Initiera filtreringsfält.

SeattleSafety

Representerar den offentliga datamängden Seattle Safety.

Den här datamängden innehåller Seattle Fire Department 911 dispatch data. Mer information om den här datauppsättningen, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i Seattle Safety Data i Microsoft Azure Open Datasets-katalogen.

Initiera filtreringsfält.

UsLaborCPI

Representerar den offentliga datamängden för det amerikanska konsumentprisindexet.

Konsumentprisindex är ett mått på den genomsnittliga förändringen över tid av de priser som betalas av urbana konsumenter för en varukorg med konsumtionsvaror och tjänster. Mer information om den här datauppsättningen, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i US Consumer Price Index i Microsoft Azure Open Datasets-katalogen.

Initiera.

UsLaborEHENational

Representerar us National Employment Hours and Earnings public dataset.

Den här datamängden innehåller branschuppskattningar av icke-jordbruksanställdas anställning, timmar och inkomster för arbetstagare med löneuppgifter i USA. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i Us National Employment Hours and Earning in the Microsoft Azure Open Datasets catalog ( Nationella anställningstimmar och intäkter i Microsoft Azure Open Datasets-katalogen).

Initiera.

UsLaborEHEState

Representerar den offentliga datauppsättningen us State Employment Hours and Earnings .

Den här datamängden innehåller branschuppskattningar av icke-jordbruksanställdas anställning, timmar och inkomster för arbetstagare med löneuppgifter i USA. Mer information om den här datauppsättningen, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i US State Employment Hours and Earning in the Microsoft Azure Open Datasets catalog ( Us State Employment Hours and Earning in the Microsoft Azure Open Datasets catalog).

Initiera.

UsLaborLAUS

Representerar den offentliga datamängden för us Local Area Unemployment Statistics.

Den här datamängden innehåller månatliga och årliga uppgifter om sysselsättning, arbetslöshet och arbetskraft för folkräkningsregioner och indelningar, delstater, län, storstadsområden och många städer i USA. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i US Local Area Unemployment Statistics i Microsoft Azure Open Datasets-katalogen.

Initiera.

UsLaborLFS

Representerar den offentliga datamängden för US Labor Force Statistics.

Den här datamängden innehåller data om arbetskraften i USA, inklusive arbetskraftsandel och civil icke-institutionell befolkning efter ålder, kön, ras och etniska grupper. Mer information om den här datauppsättningen, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i US Labor Force Statistics i Microsoft Azure Open Datasets-katalogen.

Initiera.

UsLaborPPICommodity

Representerar US Producer Price Index (PPI) – Offentlig datauppsättning för råvaror.

Producentprisindex (PPI) är ett mått på den genomsnittliga förändringen över tid i de försäljningspriser som inhemska producenter erhåller. PPI-priserna hämtas från den första kommersiella transaktionen för de produkter och tjänster som omfattas. Den här datamängden innehåller PRO:er för enskilda produkter och grupper av produkter som släpps varje månad. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i US Producer Price Index – Commodities in the Microsoft Azure Open Datasets catalog ( Us Producer Price Index – Commodities in the Microsoft Azure Open Datasets catalog).

Initiera.

UsLaborPPIIndustry

Representerar us Producer Price Index (PPI) – Bransch offentlig datauppsättning.

Producentprisindex (PPI) är ett mått på den genomsnittliga förändringen över tid i de försäljningspriser som inhemska producenter erhåller. PPI-priserna hämtas från den första kommersiella transaktionen för de produkter och tjänster som omfattas. Den här datamängden innehåller protonpumpshämmor för en mängd olika branschsektorer i usa:s ekonomi. Mer information om den här datauppsättningen, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i US Producer Price Index – Industry in the Microsoft Azure Open Datasets catalog ( Us Producer Price Index – Bransch i Microsoft Azure Open Datasets-katalogen).

Allmän information om Azure Open Datasets finns i Dokumentation om Azure Open Datasets.

Initiera.

UsPopulationCounty

Representerar den offentliga datamängden US Population by County.

Den här datamängden innehåller amerikansk befolkning efter kön och ras för varje amerikanskt län från 2000 och 2010 decennial census. Mer information om den här datauppsättningen, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i US Population by County i Microsoft Azure Open Datasets-katalogen.

Initiera.

UsPopulationZip

Representerar den amerikanska populationen efter offentlig datauppsättning med postnummer.

Den här datamängden innehåller amerikansk befolkning efter kön och ras för varje amerikanskt postnummer från 2010 decennial census. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i US Population by ZIP Code in the Microsoft Azure Open Datasets catalog ( Usa: s befolkning efter postnummer ) i katalogen Microsoft Azure Open Datasets.

Initiera.