Azure Open-gegevenssets

Artikel
09/01/2024

Verbeter de nauwkeurigheid van uw Machine Learning-modellen met openbaar beschikbare gegevenssets. Als u tijd wilt besparen op gegevensdetectie en -voorbereiding, gebruikt u gecureerde gegevenssets die gereed zijn voor machine learning-projecten.

Transportsector

Gegevensset	Beschrijving
TartanAir: AirSim-simulatiegegevensset	AirSim Autonome voertuiggegevens gegenereerd om gelijktijdige lokalisatie en toewijzing (SLAM) op te lossen.
NYC Taxi & Limousine Commission - gele taxirit records	De records voor gele taxiritten omvatten datums/tijden voor ophalen en afzetten, locaties voor ophalen en afzetten, ritafstanden, opgegeven tarieven, tarieftypen, betalingstypen en door de chauffeur gerapporteerde passagiersaantallen.
NYC Taxi & Limousine Commission - groene taxirit records	De records voor groene taxiritten omvatten datums/tijden voor ophalen en afzetten, ophaal- en afleverlocaties, ritafstanden, opgegeven tarieven, tarieftypen, betalingstypen en door de chauffeur gerapporteerde passagiersaantallen.
NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) reisrecords	De for-Hire Vehicle trip records omvatten het nummer van de verzendbasislicentie en de ophaaldatum, de tijd en de locatie-id van de taxizone.

Gezondheid en genomics

Gegevensset	Beschrijving
COVID-19 Data Lake	De COVID-19 Data Lake-verzameling bevat aan COVID-19 verwante gegevenssets uit verschillende bronnen en omvat traceringsgegevens voor testen en patiëntresultaten, beleid met betrekking tot social distancing, ziekenhuiscapaciteit, mobiliteit enzovoort.
COVID-19 Open Research Dataset	Een gegevensset met volledige tekst en metagegevens van geleerde artikelen over COVID-19 en coronavirus, geoptimaliseerd voor machineleesbaarheid en beschikbaar gemaakt voor gebruik door de wereldwijde onderzoekscommunity.
Genomics Data Lake	De Genomics Data Lake biedt gratis verschillende openbare gegevenssets die u kunt integreren in uw genomics-analysewerkstromen en -toepassingen. De gegevenssets bevatten genoomsequenties, variantgegevens en onderwerp-/sample-metagegevens in BAM-, FASTA-, VCF- en CSV-bestandsindelingen.

Arbeid en economie

Gegevensset	Beschrijving
Statistieken over beroepsbevolking VS	Us Labor Force Statistics biedt statistieken van de beroepsbevolking, beroepsbevolkingsdeelname en de civiele niet-stitutionele bevolking op leeftijd, geslacht, ras en etnische groepen in de Verenigde Staten.
Arbeidsuren en salarissen voor VS (nationaal)	Het CES-programma (Current Employment Statistics) levert gedetailleerde bedrijfstakramingen voor de werkgelegenheid, uren en inkomsten van werknemers op loonlijsten in de niet-agrarische sector in de Verenigde Staten.
Arbeidsuren en salarissen voor VS (per staat)	Het CES-programma (Current Employment Statistics) levert gedetailleerde bedrijfstakramingen voor de werkgelegenheid, uren en inkomsten van werknemers op loonlijsten in de niet-agrarische sector in de Verenigde Staten.
Werkloosheidsstatistieken voor VS (lokale regio)	De Amerikaanse LAUS-gegevenssets (Local Area Unemployment Statistics) leveren maandelijkse en jaarlijkse gegevens over de werkgelegenheid, werkeloosheid en beroepsbevolking voor volkstellingsregio's en -afdelingen, staten, districten, grootstedelijke gebieden en vele steden in de Verenigde Staten.
US Consumer Price Index (index van de consumentenprijzen van de V.S.)	De Consumentenprijsindex (CPI) meet de gemiddelde verandering in de loop van de tijd in de prijzen die door stedelijke consumenten worden betaald voor een marktmandje met consumentengoederen en -diensten.
US Producer Price Index (index van de producentenprijzen van de V.S.): bedrijfstak	De Producer Price Index (PPI) meet de gemiddelde verandering, in de loop der tijd, in de verkoopprijzen die door binnenlandse producenten zijn ontvangen voor hun uitvoer.
US Producer Price Index (index van de producentenprijzen van de V.S.): producten	De Producer Price Index (PPI) meet de gemiddelde verandering in de loop van de tijd in de verkoopprijzen die door binnenlandse producenten voor hun grondstoffen zijn ontvangen.

Bevolking en veiligheid

Gegevensset	Beschrijving
Amerikaanse bevolking, gerangschikt op district	Amerikaanse bevolking per geslacht en ras voor elke Amerikaanse provincie, afkomstig uit 2000 en 2010 Decennial Census. Deze gegevensset is afkomstig van het United States Census Bureau.
Amerikaanse bevolking, gerangschikt op postcode	Amerikaanse bevolking per geslacht en ras voor elke Amerikaanse postcode, afkomstig uit 2010 Decennial Census. Deze gegevensset is afkomstig van het United States Census Bureau.
Boston Safety Data	Lees over de 311-oproepen die in de stad Boston worden gemeld. Deze gegevensset wordt opgeslagen in parquet-indeling en ontvangt dagelijkse updates.
Veiligheidsgegevens in Chicago	Lees gegevens over 311-oproepen gemeld in de stad Chicago. Deze gegevensset wordt opgeslagen in parquet-indeling en ontvangt dagelijkse updates.
Veiligheidsgegevens van New York City	Deze gegevensset bevat alle 311-serviceaanvragen van 2010 tot heden voor New York City. Deze gegevensset wordt opgeslagen in parquet-indeling en ontvangt dagelijkse updates.
Veiligheidsgegevens van San Francisco	Oproepen aan de brandweercentrale voor service- en 311-cases in San Francisco. Deze gegevensset bevat historische records die vanaf 2015 tot heden zijn verzameld.
Veiligheidsgegevens seattle	911-meldingen voor de brandweer van Seattle. Deze gegevensset bevat historische records die vanaf 2010 tot heden zijn verzameld en wordt dagelijks bijgewerkt.

Aanvullende en algemene gegevenssets

Gegevensset	Beschrijving
Suikerziekte	De gegevensset Diabetes bevat 442 voorbeelden met 10 functies en is daarmee ideaal om aan de slag te gaan met algoritmen voor machine learning.
Gesimuleerde verkoopgegevens IN PB	Deze gegevensset is afgeleid van de PB-gegevensset van Dominick en bevat extra gesimuleerde gegevens, met als doel een gegevensset te bieden waarmee u eenvoudig duizenden modellen tegelijk kunt trainen in Azure Machine Learning.
MNIST-database met handgeschreven cijfers	De MNIST-database met handgeschreven cijfers als een trainingsset met 60.000 voorbeelden en een testset met 10.000 voorbeelden. De cijfers zijn genormaliseerd en gecentreerd in een afbeelding met een vaste grootte.
Microsoft Nieuws aanbevelingsgegevensset	Microsoft Nieuws Dataset (MIND) is een grootschalige gegevensset voor nieuwsaanbevelingsonderzoek. Het fungeert als een benchmarkgegevensset voor nieuwsaanbevelingen en faciliteert onderzoek in nieuwsaanbevelingen en aanbevelingssystemen.
Feestdagen	Wereldwijde gegevens over nationale feestdagen zijn afkomstig van het PyPI-feestdagenpakket en Wikipedia, voor 38 landen of regio's tussen 1970 en 2099.
Russische open spraak naar tekst	Russisch Open STT is een grootschalige open spraak-naar-tekstgegevensset voor de Russische taal