Azure Open Datasets

Artikel
09/01/2024

Förbättra noggrannheten i dina maskininlärningsmodeller med datamängder som är offentligt tillgängliga. Om du vill spara tid på dataidentifiering och förberedelse använder du utvalda datauppsättningar som är redo för maskininlärningsprojekt.

Transport

Datamängd	beskrivning
TartanAir: Datauppsättning för AirSim-simulering	AirSim Autonomt fordon som genereras för att lösa samtidig lokalisering och mappning (SLAM).
NYC Taxi & Limousine Kommissionen - gul taxi resa poster	De gula taxiresorna inkluderar upphämtnings- och avlämningsdatum/tider, upphämtnings- och avlämningsplatser, reseavstånd, specificerade priser, pristyper, betalningstyper och förarrapporterade passagerarantal.
NYC Taxi & Limousine Kommissionen - grön taxi resa poster	De gröna taxiresorna inkluderar upphämtnings- och avlämningsdatum/tider, upphämtnings- och avlämningsplatser, reseavstånd, specificerade priser, pristyper, betalningstyper och förarrapporterade passagerarantal.
NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) reseposter	Reseposterna För uthyrningsfordon innehåller det sändande baslicensnumret och plats-ID:t för upphämtningsdatum, tid och taxizon.

Hälsa och genomik

Datamängd	beskrivning
COVID-19 Data Lake	COVID-19-datasjön är en samling COVID-19-relaterade datamängder från olika källor med bland annat spårningsdata om testning och patientresultat, riktlinjer för social distansering, sjukhuskapacitet, mobilitet osv.
COVID-19 Open Research Dataset	En fulltext- och metadatadatauppsättning med COVID-19- och coronavirusrelaterade vetenskapliga artiklar, optimerad för maskinläsbarhet och tillgänglig för användning av den globala forskarvärlden.
Genomics Data Lake	Genomics Data Lake innehåller olika offentliga datamängder som är tillgängliga kostnadsfritt och redo att integreras i arbetsflöden och program för genomikanalys. Datamängderna innehåller genomsekvenser, information om varianter samt metadata för element/urval i filformaten BAM, FASTA, VCF och CSV.

Arbete och ekonomi

Datamängd	beskrivning
US Labor Force Statistics (statistik om arbetskraft i USA)	US Labor Force Statistics tillhandahåller Arbetskraftsstatistik, arbetskraftsandel och den civila icke-institutionella befolkningen efter ålder, kön, ras och etniska grupper i USA.
US National Employment Hours and Earnings (arbetstimmar och inkomst i USA på nationell nivå)	Programmet för arbetsmarknadsstatistik (CES) producerar detaljerade branschberäkningar om anställningar utanför jordbrukssektorn, arbetstimmar och arbetsinkomster för avlönade arbetare i USA.
US State Employment Hours and Earnings (arbetstimmar och inkomst i USA på delstatsnivå)	Programmet för arbetsmarknadsstatistik (CES) producerar detaljerade branschberäkningar om anställningar utanför jordbrukssektorn, arbetstimmar och arbetsinkomster för avlönade arbetare i USA.
US Local Area Unemployment Statistics (statistik om arbetslöshet i USA på lokal nivå)	De amerikanska datamängderna från LAUS-programmet (Local Area Unemployment Statistics) tillhandahåller månatliga och årliga data om sysselsättning, arbetslöshet och arbetskraft för folkräkningsregioner, delstater, huvudstad/storstad och ett flertal andra städer i USA.
US Consumer Price Index	Konsumentprisindexet (CPI) mäter den genomsnittliga förändringen över tid i de priser som betalas av stadskonsumenter för en marknadskorg med konsumentvaror och tjänster.
US Producer Price Index – Bransch	Producentprisindexet (PPI) mäter den genomsnittliga förändringen över tid i de försäljningspriser som inhemska producenter får för sin produktion.
US Producer Price Index – Råvaror	Producentprisindex (PPI) mäter den genomsnittliga förändringen över tid i de försäljningspriser som inhemska producenter får för sina råvaror.

Befolkning och säkerhet

Datamängd	beskrivning
Befolkning i USA efter delstat	Amerikansk befolkning efter kön och ras för varje amerikanskt län, från 2000 och 2010 Decennial Census. Den här datamängden hämtas från United States Census Bureau.
Befolkning i USA efter postnummer	Amerikansk befolkning efter kön och ras för varje amerikanskt postnummer, som kommer från 2010 Decennial Census. Den här datamängden hämtas från United States Census Bureau.
Boston Säkerhetsdata	Läs data om 311-samtal som rapporterats i Boston. Den här datamängden lagras i Parquet-format och tar emot dagliga uppdateringar.
Chicago Säkerhetsdata	Läs data om 311-samtal som rapporterats i Chicago. Den här datamängden lagras i Parquet-format och tar emot dagliga uppdateringar.
Säkerhetsdata för New York City	Den här datamängden innehåller alla 311-tjänstbegäranden i New York City från 2010 fram till nutid. Den här datamängden lagras i Parquet-format och tar emot dagliga uppdateringar.
Säkerhetsdata för San Francisco	Samtal till brandkåren om hjälp och 311-ärenden i San Francisco. Datamängden innehåller historiska poster som ackumulerats från 2015 fram till nutid.
Seattle Säkerhetsdata	Larmrapporter från brandkåren i Seattle. Den här datamängden uppdateras dagligen och innehåller historiska poster som ackumulerats från 2010 fram till nutid

Kompletterande och vanliga datauppsättningar

Datamängd	beskrivning
Diabetes	Diabetes-datamängden innehåller 442 exempel med 10 funktioner, vilket gör den idealisk för att komma igång med Machine Learning-algoritmer.
OJ Sales Simulated Data	Den här datamängden härleds från Dominicks OJ-datauppsättning och innehåller extra simulerade data, med målet att tillhandahålla en datauppsättning som gör det enkelt att samtidigt träna tusentals modeller på Azure Mašinsko učenje.
MNIST-databas med handskrivna siffror	MNIST-databasen med handskrivna siffror har en träningsuppsättning med 60 000 exempel och en testuppsättning med 10 000 exempel. Siffrorna är storleksnormaliserade och centrerade i en bild med fast storlek.
Microsoft News-rekommendationsdatauppsättning	Microsoft News Dataset (MIND) är en storskalig datauppsättning för nyhetsrekommendationsforskning. Det fungerar som en benchmark-datauppsättning för nyhetsrekommendationer och underlättar forskning i nyhetsrekommendationer och rekommendationssystem.
Helgdagar	Information om allmänna helgdagar över hela världen från PyPI-paketet för helgdagar och Wikipedia, som omfattar 38 länder och regioner från 1970 till 2099.
Ryskt öppet tal till text	Russian Open STT är ett storskaligt öppet tal till textdatauppsättning för det ryska språket