Azure Open Datasets

Förbättra precisionen för dina maskininlärningsmodeller med offentligt tillgängliga datamängder. Spara tid på dataidentifiering och förberedelse med hjälp av utvalda datauppsättningar som är redo att användas i maskininlärningsprojekt.

Transport

Datamängd Beskrivning
TartanAir: Datauppsättning för AirSim-simulering AirSim Autonom fordonsdata som genereras för att lösa samtidig lokalisering och mappning (SLAM).
NYC Taxi & Limousine Commission - gul taxi resa poster De gula taxiresorna inkluderar upphämtnings- och avlämningsdatum/tider, upphämtnings- och avlämningsplatser, reseavstånd, specificerade priser, pristyper, betalningstyper och förarrapporterade passagerarantal.
NYC Taxi & Limousine Commission - green taxi trip records De gröna taxiresorna inkluderar upphämtnings- och avlämningsdatum/tider, upphämtnings- och avlämningsplatser, reseavstånd, specificerade priser, pristyper, betalningstyper och förarrapporterade passagerarantal.
NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) reseposter Reseposterna för For-Hire Fordon innehåller det avsändande baslicensnumret och plats-ID:t för upphämtningsdatum, tid och taxizon.

Hälsa och genomik

Datamängd Beskrivning
COVID-19 Data Lake COVID-19-datasjön är en samling COVID-19-relaterade datamängder från olika källor med bland annat spårningsdata om testning och patientresultat, riktlinjer för social distansering, sjukhuskapacitet, mobilitet osv.
COVID-19 Open Research Dataset En datamängd med vetenskapliga fulltextartiklar och metadata om COVID-19 och coronaviruset som optimerats för maskinläsning och gjorts tillgängliga för forskning globalt.
Genomics Data Lake Genomics Data Lake tillhandahåller olika offentliga datauppsättningar som du kan komma åt kostnadsfritt och integrera i dina genomikanalysarbetsflöden och program. Datamängderna innehåller genomsekvenser, data om varianter och metadata för element/urval i filformaten BAM, FASTA, VCF och CSV.

Arbete och ekonomi

Datamängd Beskrivning
US Labor Force Statistics (statistik om arbetskraft i USA) Amerikansk arbetskraftsstatistik om arbetskraft, arbetskraftsdeltagande och civil icke-institutionell befolkning efter ålder, kön, ras och etniska grupper. i USA.
US National Employment Hours and Earnings (arbetstimmar och inkomst i USA på nationell nivå) Programmet för arbetsmarknadsstatistik (CES) producerar detaljerade branschberäkningar om anställningar utanför jordbrukssektorn, arbetstimmar och arbetsinkomster för avlönade arbetare i USA.
US State Employment Hours and Earnings (arbetstimmar och inkomst i USA på delstatsnivå) Programmet för arbetsmarknadsstatistik (CES) producerar detaljerade branschberäkningar om anställningar utanför jordbrukssektorn, arbetstimmar och arbetsinkomster för avlönade arbetare i USA.
US Local Area Unemployment Statistics (statistik om arbetslöshet i USA på lokal nivå) De amerikanska datamängderna från LAUS-programmet (Local Area Unemployment Statistics) tillhandahåller månatliga och årliga data om sysselsättning, arbetslöshet och arbetskraft för folkräkningsregioner, delstater, huvudstad/storstad och ett flertal andra städer i USA.
US Consumer Price Index Konsumentprisindex är ett mått på den genomsnittliga förändringen över tid av de priser som betalas av urbana konsumenter för en varukorg med konsumtionsvaror och tjänster.
US Producer Price Index – Bransch Producentprisindex (PPI) är ett mått på den genomsnittliga förändringen över tid i de försäljningspriser som inhemska producenter erhåller.
US Producer Price Index – Råvaror Producentprisindex (PPI) är ett mått på den genomsnittliga förändringen över tid i de försäljningspriser som inhemska producenter tar för sina varor.

Befolkning och säkerhet

Datamängd Beskrivning
Befolkning i USA efter delstat Befolkning i USA efter kön och ras för varje delstat i USA från Decennial Census 2000 och 2010. Den här datamängden hämtas från United States Census Bureau.
Befolkning i USA efter postnummer Befolkning efter kön och ras för varje postnummer i USA från Decennial Census 2010. Den här datamängden hämtas från United States Census Bureau.
Boston Säkerhetsdata Läs data om 311-samtal som rapporterats i Boston. Den här datamängden lagras i formatet Parquet och uppdateras dagligen.
Chicago Säkerhetsdata Läs data om 311-samtal som rapporterats i Chicago. Den här datamängden lagras i formatet Parquet och uppdateras dagligen.
Säkerhetsdata för New York City Den här datamängden innehåller alla 311-tjänstbegäranden i New York City från 2010 fram till nutid. Itâ € ™s lagras i Parquet-format och uppdateras dagligen.
Säkerhetsdata för San Francisco Samtal till brandkåren om hjälp och 311-ärenden i San Francisco. Datamängden innehåller historiska poster som ackumulerats från 2015 fram till nutid.
Seattle Safety Data Larmrapporter från brandkåren i Seattle. Den här datamängden uppdateras dagligen och innehåller historiska poster som ackumulerats från 2010 fram till nutid

Kompletterande och vanliga datauppsättningar

Datamängd Beskrivning
Diabetes Diabetes-datamängden innehåller 442 exempel med 10 funktioner, vilket gör den idealisk för att komma igång med Machine Learning-algoritmer.
OJ Sales Simulated Data Den här datauppsättningen härleds från Dominicks OJ-datauppsättning och innehåller extra simulerade data med målet att tillhandahålla en datauppsättning som gör det enkelt att samtidigt träna tusentals modeller på Azure Machine Learning.
MNIST-databas med handskrivna siffror MNIST-databasen med handskrivna siffror har en träningsuppsättning med 60 000 exempel och en testuppsättning med 10 000 exempel. Siffrorna har storleksnormaliserats och centrerats i en bild med fast storlek.
Microsoft News rekommendationsdatauppsättning Microsoft News Dataset (MIND) är en storskalig datauppsättning för nyhetsrekommendationsforskning. Det fungerar som en benchmark-datauppsättning för nyhetsrekommendationer och underlättar forskning i nyhetsrekommendations- och rekommendationssystem.
Helgdagar Information om allmänna helgdagar över hela världen från PyPI-paketet för helgdagar och Wikipedia, som omfattar 38 länder och regioner från 1970 till 2099.
Ryskt öppet tal till text Russian Open STT är en storskalig öppen tal till text-datauppsättning för det ryska språket