Delen via


opendatasets Pakket

Bevat functionaliteit voor het gebruik van Azure Open Datasets als dataframes en voor het verrijken van klantgegevens.

Azure Open Datasets zijn samengestelde openbare gegevenssets die u kunt gebruiken om scenariospecifieke functies toe te voegen aan machine learning-oplossingen voor nauwkeurigere modellen. U kunt deze openbare gegevenssets converteren naar Spark- en Pandas-gegevensframes waarop filters zijn toegepast. Voor sommige gegevenssets kunt u een verrijker gebruiken om de openbare gegevens samen te voegen met uw gegevens. U kunt uw gegevens bijvoorbeeld samenvoegen met weergegevens op lengtegraad en breedtegraad of postcode en tijd.

Inbegrepen in Azure Open Datasets zijn openbare domeingegevens voor weer, volkstelling, feestdagen, openbare veiligheid en locatie waarmee u machine learning-modellen kunt trainen en voorspellende oplossingen kunt verrijken. Open Datasets bevinden zich in de cloud op Microsoft Azure en zijn geïntegreerd in Azure Machine Learning. Zie Gegevenssets maken met Azure Open Datasets voor meer informatie over het werken met Azure Open Datasets.

Zie Documentatie voor Azure Open Datasets voor algemene informatie over Azure Open Datasets.

Pakketten

accessories

Bevat functionaliteit die helpt bij het identificeren van kolomtypen in gegevens, waaronder lat/long, postcode en tijd.

aggregators

Bevat functionaliteit voor het definiëren van hoe samengevoegde gegevens worden samengevoegd.

Aggregators definiëren bewerkingen die kunnen worden uitgevoerd op het resultaat van het samenvoegen van gegevens uit twee gegevenssets. Als u bijvoorbeeld een van de klassen in enrichersgebruikt, kunt u een aggregator opgeven als onderdeel van de bewerking. Als er geen aggregatie nodig is, gebruikt AggregatorAllu .

data

Bevat het init-bestand voor gegevensbronnen in de module publicholidays.

dataaccess

Bevat functionaliteit die methoden biedt voor toegang tot blob-bestanden.

Wanneer u een klasse uit het opendatasets pakket gebruikt, zoals de ChicagoSafety klasse, worden de dataaccess-klassen en -functies in dit pakket intern gebruikt. Over het algemeen hoeft u de functionaliteit in het dataaccess-pakket niet rechtstreeks te gebruiken.

enrichers

Bevat functionaliteit voor het verrijken en samenvoegen van gegevens uit twee gegevenssets.

Over het algemeen voegen verrijkers gegevens uit verschillende bronnen samen. Met verrijkers kunt u uw gegevens (klantgegevens) samenvoegen met gegevens uit Azure Open Datasets of andere openbare gegevenssets.

granularities

Bevat functionaliteit die tijd- en afstandmetingen definieert die worden gebruikt door verrijkers.

Granulariteiten zijn metingen van tijd of afstand die worden gebruikt enrichers bij het verrijken (samenvoegen) van gegevens. Er zijn tijdgranulaties, zoals elk uur of dagelijks, en locatiegranulariteit, zoals dichtstbijzijnde afstand.

selectors

Bevat functionaliteit voor het selecteren en samenvoegen van gegevens uit een klantgegevensset met gegevens uit een openbare gegevensset.

Selectors definiëren logica waarmee u uw gegevens kunt verrijken met openbare gegevenssets op basis van tijd- en afstandmetingen. Met een selector kunt u bijvoorbeeld openbare gegevens vinden om samen te voegen met uw gegevens op basis van de dichtstbijzijnde locatie, of door af te ronden op dezelfde tijdgranulariteit.

Geef selectors op wanneer u met een van de klassen in het enrichers pakket werkt.

Modules

environ

Definieert runtime-omgevingsklassen waarin Azure Open Datasets worden gebruikt.

De klassen in deze module zorgen ervoor dat de functionaliteit van Azure Open Datasets is geoptimaliseerd voor verschillende omgevingen. Over het algemeen hoeft u deze omgevingsklassen niet te instantiëren en hoeft u zich geen zorgen te maken over de implementatie ervan. Gebruik in plaats daarvan de get_environ modulefunctie om de omgeving te retourneren.

Klassen

BingCOVID19Data

Vertegenwoordigt de Bing COVID-19-gegevensset.

Deze gegevenssets bevatten Bing COVID-19-gegevens uit meerdere vertrouwde, betrouwbare bronnen, waaronder de World Health Organization (WHO), Centers for Disease Control and Prevention (CDC), nationale en staatsafdelingen voor volksgezondheid, BNO News, 24/7 Wall St. en Wikipedia. Zie Bing COVID-19-gegevens in de microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, waaronder kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Filtervelden initialiseren.

BostonSafety

Vertegenwoordigt de openbare gegevensset Boston Safety.

Deze gegevensset bevat 311 aanroepen die zijn gerapporteerd aan de stad Boston. Zie Boston Safety Data in de Microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, waaronder kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Filtervelden initialiseren.

COVID19OpenResearch

Vertegenwoordigt COVID-19 Open Research Dataset.

Zie COVID-19 Open Research Dataset in de Microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, waaronder kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

COVIDTrackingProject

Vertegenwoordigt de gegevensset covid-traceringsproject.

Deze gegevenssets bevatten de gegevensset covid-traceringsproject met de meest recente cijfers voor tests, bevestigde gevallen, ziekenhuisopnamen en patiëntresultaten van elke Amerikaanse staat en elk gebied. Voor meer informatie over deze gegevensset, met inbegrip van kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden, raadpleegt u GEGEVENSSET VOOR COVID-traceringsproject in de microsoft Azure Open Datasets-catalogus.

Filtervelden initialiseren.

ChicagoSafety

Vertegenwoordigt de openbare gegevensset Chicago Safety.

Deze gegevensset bevat 311 serviceaanvragen van de stad Chicago, waaronder klachten over historische sanitaire code, gemelde potgaten en problemen met straatverlichting. Zie Chicago Safety Data in de Microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, waaronder kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Filtervelden initialiseren.

CitySafety

Veiligheidsklasse stad: dit is een bovenliggende klasse die kan worden overgenomen door elke afzonderlijke stad.

Filtervelden initialiseren.

Diabetes

Vertegenwoordigt de openbare gegevensset Voorbeelddiabetes.

De gegevensset Diabetes bevat 442 voorbeelden met 10 functies en is daarmee ideaal om aan de slag te gaan met algoritmen voor machine learning. Zie Voorbeeld: Diabetes in de microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, waaronder kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

EcdcCOVIDCases

Vertegenwoordigt het Europees Centrum voor ziektepreventie en -bestrijding (ECDC) Covid-19-gevallen.

Deze gegevenssets bevatten van het European Center for Disease Prevention and Control (ECDC). Elke rij/vermelding bevat het aantal nieuwe gevallen dat per dag en per land/regio wordt gerapporteerd. Zie European Centre for Disease Prevention and Control (ECDC) Covid-19 Cases (European Centre for Disease Prevention and Control) covid-19 in de microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, waaronder kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Filtervelden initialiseren.

MNIST

Vertegenwoordigt de MNIST-gegevensset met handgeschreven cijfers.

De MNIST-database met handgeschreven cijfers als een trainingsset met 60.000 voorbeelden en een testset met 10.000 voorbeelden. De grootte van de cijfers is genormaliseerd en worden gecentreerd weergegeven in een afbeelding met een vaste grootte. Zie De MNIST-database met handgeschreven cijfers in de Microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, waaronder kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Zie de zelfstudie Afbeeldingsclassificatiemodellen trainen met MNIST-gegevens en scikit-learn met Azure Machine Learning voor een voorbeeld van het gebruik van de MNIST-gegevensset.

NoParameterOpenDatasetBase

Amerikaanse arbeidsbasisklasse.

Initialiseren.

NoaaGfsWeather

Vertegenwoordigt de gegevensset National Oceanic and Atmospheric Administration (NOAA) Global Forecast System (GFS).

Deze gegevensset bevat 15-daagse weersvoorspellingsgegevens (bijvoorbeeld temperatuur, neerslag, wind) geproduceerd door het Global Forecast System (GFS) van de National Oceanic and Atmospheric Administration (NOAA). Zie NOAA Global Forecast System in de Microsoft Azure Open Datasets-catalogus voor informatie over deze gegevensset, waaronder kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Filtervelden initialiseren.

NoaaIsdWeather

Vertegenwoordigt de National Oceanic and Atmospheric Administration (NOAA) Integrated Surface Dataset (ISD).

Deze gegevensset bevat wereldwijd gegevens over de geschiedenis van het weer (bijvoorbeeld temperatuur, neerslag, wind) afkomstig van de National Oceanic and Atmospheric Administration (NOAA). Zie NOAA Integrated Surface Data in de Microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, waaronder kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Filtervelden initialiseren.

NycSafety

Vertegenwoordigt de openbare gegevensset New York City Safety.

Deze gegevensset bevat alle 311-serviceaanvragen van 2010 tot heden voor New York City. Zie New York City Safety Data in de Microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, waaronder kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Filtervelden initialiseren.

NycTaxiBase

New York Taxi-klasse: dit is een bovenliggende klasse die kan worden overgenomen.

Filtervelden initialiseren.

NycTlcFhv

Vertegenwoordigt de openbare gegevensset NYC Taxi & Limousine Commission.

Deze gegevensset bevat For-Hire VECHICLE-reisrecords (FHV), waaronder velden die het basislicentienummer van de verzending en de locatie-id van de ophaaldatum, tijd en taxizone (shapebestand hieronder) vastleggen. Deze records worden gegenereerd op basis van de door centrales ingediende FHV-ritrecords. Zie NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV)-ritrecords in de Microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, waaronder kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Filtervelden initialiseren.

NycTlcGreen

Vertegenwoordigt de openbare gegevensset nyc taxi & Limousine Commission groene taxirit.

De groene taxiritrecords bevatten velden met de datums/tijden waarop passagiers zijn opgehaald en afgezet, locaties voor ophalen en afzetten, ritafstanden, in items verdeelde tarieven, tarieftypen, betalingstypen en door de chauffeur gerapporteerde passagiersaantallen. Zie NYC Taxi & Limousine Commission - groene taxiritrecords in de microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, waaronder kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Zie de zelfstudie Geautomatiseerde machine learning gebruiken om taxitarieven te voorspellen voor een voorbeeld van het gebruik van de klasse NycTlcGreen.

Filtervelden initialiseren.

NycTlcYellow

Vertegenwoordigt de openbare gegevensset nyc taxi & Limousine Commission gele taxirit.

De gele taxiritrecords bevatten velden met de datums/tijden waarop passagiers zijn opgehaald en afgezet, locaties voor ophalen en afzetten, ritafstanden, in items verdeelde tarieven, tarieftypen, betalingstypen en door de chauffeur gerapporteerde passagiersaantallen. Zie NYC Taxi & Limousine Commission - gele taxiritrecords in de Microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, waaronder kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Filtervelden initialiseren.

OjSalesSimulated

Vertegenwoordigt de gegevensset Sample Orange Juice Sales Simulated.

Voor meer informatie over deze gegevensset, met inbegrip van kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden, raadpleegt u Voorbeeld: GEsimuleerde gegevens in de Microsoft Azure Open Datasets-catalogus.

PublicHolidays

Vertegenwoordigt de openbare gegevensset Openbare feestdagen.

Deze gegevenssets bevatten wereldwijde gegevens over feestdagen die afkomstig zijn van pyPI-feestdagenpakket en Wikipedia, die 38 landen of regio's van 1970 tot 2099 bestrijken. Elke rij geeft de feestdageninformatie aan voor een specifiek(e) datum, land of regio en de vraag of de meeste personen betaald verlof hebben. Zie Openbare feestdagen in de microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, waaronder kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Filtervelden initialiseren.

PublicHolidaysOffline

Vertegenwoordigt de openbare gegevensset Public Holidays Offline.

Zie de openbare feestdagen in de catalogus Microsoft Azure Open Datasets voor een beschrijving van de rijen.

Filtervelden initialiseren.

SampleDatasetBase

Vertegenwoordigt de klasse Sample Dataset Base.

SanFranciscoSafety

Vertegenwoordigt de openbare gegevensset San Francisco Safety.

Deze gegevensset bevat brandweeroproepen voor service en 311 zaken in San Francisco. Zie San Francisco Safety Data in de Microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, inclusief kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Filtervelden initialiseren.

SeattleSafety

Vertegenwoordigt de openbare gegevensset Seattle Safety.

Deze gegevensset bevat de 911-verzendgegevens van de brandweer in Seattle. Zie Seattle Safety Data in de Microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, waaronder kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Filtervelden initialiseren.

UsLaborCPI

Vertegenwoordigt de openbare gegevensset us Consumer Price Index.

De Consumer Price Index (CPI) is een meting van de gemiddelde wijziging gedurende een bepaalde periode in de prijzen die worden betaald door stedelijke consumenten voor een pakket van consumptiegoederen en services. Zie US Consumer Price Index in de Microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, waaronder kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Initialiseren.

UsLaborEHENational

Vertegenwoordigt de openbare gegevensset Us National Employment Hours and Earnings.

Deze gegevensset bevat schattingen in de branche van de werkgelegenheid, uren en inkomsten van werknemers op de salarisadministratie in de Verenigde Staten. Zie US National Employment Hours en Earning in de Microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, inclusief kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Initialiseren.

UsLaborEHEState

Vertegenwoordigt de openbare gegevensset Werkgelegenheidsuren en Inkomsten van de Amerikaanse staat.

Deze gegevensset bevat schattingen in de branche van de werkgelegenheid, uren en inkomsten van werknemers op de salarisadministratie in de Verenigde Staten. Zie Us State Employment Hours en Earning in de Microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, inclusief kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Initialiseren.

UsLaborLAUS

Vertegenwoordigt de openbare gegevensset Us Local Area Unemployment Statistics.

Deze gegevensset bevat gegevens over maandelijkse en jaarlijkse werkgelegenheid, werkloosheid en beroepsbevolking voor volkstellingsregio's en divisies, staten, provincies, grootstedelijke gebieden en veel steden in de Verenigde Staten. Zie US Local Area Unemployment Statistics in de Microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, inclusief kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Initialiseren.

UsLaborLFS

Vertegenwoordigt de openbare gegevensset us Labor Force Statistics.

Deze gegevensset bevat gegevens over de beroepsbevolking in de Verenigde Staten, met inbegrip van de participatiegraad van de beroepsbevolking, en de civiele niet-gouvernementele bevolking naar leeftijd, geslacht, ras en etnische groepen. Zie Us Labor Force Statistics in de Microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, inclusief kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Initialiseren.

UsLaborPPICommodity

Vertegenwoordigt de openbare gegevensset Us Producer Price Index (PPI) - Commodities.

De Producer Price Index (PPI) is een meting van de gemiddelde wijziging gedurende een bepaalde periode in de verkoopprijzen die nationale producenten ontvangen voor hun uitvoer. De prijzen die in de PPI zijn opgenomen, zijn afkomstig van de eerste commerciële transactie voor de betreffende producten en services. Deze gegevensset bevat PPI's voor afzonderlijke producten en groepen producten die maandelijks worden uitgebracht. Zie US Producer Price Index - Commodities in de Microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, waaronder kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Initialiseren.

UsLaborPPIIndustry

Vertegenwoordigt de amerikaanse producer price index (PPI) - openbare gegevensset industry.

De Producer Price Index (PPI) is een meting van de gemiddelde wijziging gedurende een bepaalde periode in de verkoopprijzen die nationale producenten ontvangen voor hun uitvoer. De prijzen die in de PPI zijn opgenomen, zijn afkomstig van de eerste commerciële transactie voor de betreffende producten en services. Deze gegevensset bevat PPI's voor een breed scala aan bedrijfstakken van de Amerikaanse economie. Zie US Producer Price Index - Industry in de Microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, waaronder kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Zie Documentatie voor Azure Open Datasets voor algemene informatie over Azure Open Datasets.

Initialiseren.

UsPopulationCounty

Vertegenwoordigt de openbare gegevensset Us Population by County.

Deze gegevensset bevat de Amerikaanse bevolking op geslacht en ras voor elke Amerikaanse county die afkomstig is van de volkstelling van 2000 en 2010. Zie US Population by County in de Microsoft Azure Open Datasets-catalogus voor meer informatie over deze gegevensset, waaronder kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden.

Initialiseren.

UsPopulationZip

Vertegenwoordigt de amerikaanse bevolking per postcode openbare gegevensset.

Deze gegevensset bevat de Amerikaanse bevolking op geslacht en ras voor elke Amerikaanse postcode die afkomstig is uit de telling van 2010 Decennial. Voor meer informatie over deze gegevensset, waaronder kolombeschrijvingen, verschillende manieren om toegang te krijgen tot de gegevensset en voorbeelden, raadpleegt u Us Population by Postcode in de Microsoft Azure Open Datasets-catalogus.

Initialiseren.