Förbättra noggrannheten i dina maskininlärningsmodeller med datamängder som är offentligt tillgängliga. Om du vill spara tid på dataidentifiering och förberedelse använder du utvalda datauppsättningar som är redo för maskininlärningsprojekt.
De gula taxiresorna inkluderar upphämtnings- och avlämningsdatum/tider, upphämtnings- och avlämningsplatser, reseavstånd, specificerade priser, pristyper, betalningstyper och förarrapporterade passagerarantal.
De gröna taxiresorna inkluderar upphämtnings- och avlämningsdatum/tider, upphämtnings- och avlämningsplatser, reseavstånd, specificerade priser, pristyper, betalningstyper och förarrapporterade passagerarantal.
COVID-19-datasjön är en samling COVID-19-relaterade datamängder från olika källor med bland annat spårningsdata om testning och patientresultat, riktlinjer för social distansering, sjukhuskapacitet, mobilitet osv.
En fulltext- och metadatadatauppsättning med COVID-19- och coronavirusrelaterade vetenskapliga artiklar, optimerad för maskinläsbarhet och tillgänglig för användning av den globala forskarvärlden.
Genomics Data Lake innehåller olika offentliga datamängder som är tillgängliga kostnadsfritt och redo att integreras i arbetsflöden och program för genomikanalys. Datamängderna innehåller genomsekvenser, information om varianter samt metadata för element/urval i filformaten BAM, FASTA, VCF och CSV.
US Labor Force Statistics tillhandahåller Arbetskraftsstatistik, arbetskraftsandel och den civila icke-institutionella befolkningen efter ålder, kön, ras och etniska grupper i USA.
Programmet för arbetsmarknadsstatistik (CES) producerar detaljerade branschberäkningar om anställningar utanför jordbrukssektorn, arbetstimmar och arbetsinkomster för avlönade arbetare i USA.
Programmet för arbetsmarknadsstatistik (CES) producerar detaljerade branschberäkningar om anställningar utanför jordbrukssektorn, arbetstimmar och arbetsinkomster för avlönade arbetare i USA.
De amerikanska datamängderna från LAUS-programmet (Local Area Unemployment Statistics) tillhandahåller månatliga och årliga data om sysselsättning, arbetslöshet och arbetskraft för folkräkningsregioner, delstater, huvudstad/storstad och ett flertal andra städer i USA.
Konsumentprisindexet (CPI) mäter den genomsnittliga förändringen över tid i de priser som betalas av stadskonsumenter för en marknadskorg med konsumentvaror och tjänster.
Amerikansk befolkning efter kön och ras för varje amerikanskt län, från 2000 och 2010 Decennial Census. Den här datamängden hämtas från United States Census Bureau.
Amerikansk befolkning efter kön och ras för varje amerikanskt postnummer, som kommer från 2010 Decennial Census. Den här datamängden hämtas från United States Census Bureau.
Den här datamängden innehåller alla 311-tjänstbegäranden i New York City från 2010 fram till nutid. Den här datamängden lagras i Parquet-format och tar emot dagliga uppdateringar.
Larmrapporter från brandkåren i Seattle. Den här datamängden uppdateras dagligen och innehåller historiska poster som ackumulerats från 2010 fram till nutid
Den här datamängden härleds från Dominicks OJ-datauppsättning och innehåller extra simulerade data, med målet att tillhandahålla en datauppsättning som gör det enkelt att samtidigt träna tusentals modeller på Azure Mašinsko učenje.
MNIST-databasen med handskrivna siffror har en träningsuppsättning med 60 000 exempel och en testuppsättning med 10 000 exempel. Siffrorna är storleksnormaliserade och centrerade i en bild med fast storlek.
Microsoft News Dataset (MIND) är en storskalig datauppsättning för nyhetsrekommendationsforskning. Det fungerar som en benchmark-datauppsättning för nyhetsrekommendationer och underlättar forskning i nyhetsrekommendationer och rekommendationssystem.
Information om allmänna helgdagar över hela världen från PyPI-paketet för helgdagar och Wikipedia, som omfattar 38 länder och regioner från 1970 till 2099.