Förbättra noggrannheten i dina maskininlärningsmodeller med datamängder som är offentligt tillgängliga. Om du vill spara tid på dataidentifiering och förberedelse använder du utvalda datauppsättningar som är redo för maskininlärningsprojekt.
Transport
Datamängd |
beskrivning |
TartanAir: Datauppsättning för AirSim-simulering |
AirSim Autonomt fordon som genereras för att lösa samtidig lokalisering och mappning (SLAM). |
NYC Taxi & Limousine Kommissionen - gul taxi resa poster |
De gula taxiresorna inkluderar upphämtnings- och avlämningsdatum/tider, upphämtnings- och avlämningsplatser, reseavstånd, specificerade priser, pristyper, betalningstyper och förarrapporterade passagerarantal. |
NYC Taxi & Limousine Kommissionen - grön taxi resa poster |
De gröna taxiresorna inkluderar upphämtnings- och avlämningsdatum/tider, upphämtnings- och avlämningsplatser, reseavstånd, specificerade priser, pristyper, betalningstyper och förarrapporterade passagerarantal. |
NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) reseposter |
Reseposterna För uthyrningsfordon innehåller det sändande baslicensnumret och plats-ID:t för upphämtningsdatum, tid och taxizon. |
Hälsa och genomik
Datamängd |
beskrivning |
COVID-19 Data Lake |
COVID-19-datasjön är en samling COVID-19-relaterade datamängder från olika källor med bland annat spårningsdata om testning och patientresultat, riktlinjer för social distansering, sjukhuskapacitet, mobilitet osv. |
Arbete och ekonomi
Befolkning och säkerhet
Datamängd |
beskrivning |
Befolkning i USA efter delstat |
Amerikansk befolkning efter kön och ras för varje amerikanskt län, från 2000 och 2010 Decennial Census. Den här datamängden hämtas från United States Census Bureau. |
Befolkning i USA efter postnummer |
Amerikansk befolkning efter kön och ras för varje amerikanskt postnummer, som kommer från 2010 Decennial Census. Den här datamängden hämtas från United States Census Bureau. |
Boston Säkerhetsdata |
Läs data om 311-samtal som rapporterats i Boston. Den här datamängden lagras i Parquet-format och tar emot dagliga uppdateringar. |
Chicago Säkerhetsdata |
Läs data om 311-samtal som rapporterats i Chicago. Den här datamängden lagras i Parquet-format och tar emot dagliga uppdateringar. |
Säkerhetsdata för New York City |
Den här datamängden innehåller alla 311-tjänstbegäranden i New York City från 2010 fram till nutid. Den här datamängden lagras i Parquet-format och tar emot dagliga uppdateringar. |
Säkerhetsdata för San Francisco |
Samtal till brandkåren om hjälp och 311-ärenden i San Francisco. Datamängden innehåller historiska poster som ackumulerats från 2015 fram till nutid. |
Seattle Säkerhetsdata |
Larmrapporter från brandkåren i Seattle. Den här datamängden uppdateras dagligen och innehåller historiska poster som ackumulerats från 2010 fram till nutid |
Kompletterande och vanliga datauppsättningar
Datamängd |
beskrivning |
Diabetes |
Diabetes-datamängden innehåller 442 exempel med 10 funktioner, vilket gör den idealisk för att komma igång med Machine Learning-algoritmer. |
OJ Sales Simulated Data |
Den här datamängden härleds från Dominicks OJ-datamängd och innehåller extra simulerade data, med målet att tillhandahålla en datauppsättning som gör det enkelt att samtidigt träna tusentals modeller på Azure Machine Learning. |
MNIST-databas med handskrivna siffror |
MNIST-databasen med handskrivna siffror har en träningsuppsättning med 60 000 exempel och en testuppsättning med 10 000 exempel. Siffrorna är storleksnormaliserade och centrerade i en bild med fast storlek. |
Microsoft News-rekommendationsdatauppsättning |
Microsoft News Dataset (MIND) är en storskalig datauppsättning för nyhetsrekommendationsforskning. Det fungerar som en benchmark-datauppsättning för nyhetsrekommendationer och underlättar forskning i nyhetsrekommendationer och rekommendationssystem. |
Helgdagar |
Information om allmänna helgdagar över hela världen från PyPI-paketet för helgdagar och Wikipedia, som omfattar 38 länder och regioner från 1970 till 2099. |
Ryskt öppet tal till text |
Russian Open STT är ett storskaligt öppet tal till textdatauppsättning för det ryska språket |