Gépi tanulási modelljeinek pontosságát nyilvánosan elérhető adatkészletekkel javíthatja. Az adatok felderítésével és előkészítésével időt takaríthat meg, ha olyan válogatott adathalmazokat használ, amelyek készen állnak a gépi tanulási projektekre.
A sárga taxiút rekordjai közé tartoznak a pick-up és a legördülő dátumok/időpontok, a pick-up és a legördülő helyek, az utazási távolságok, a tételes viteldíjak, a díjtípusok, a fizetési típusok és a sofőr által jelentett utasok száma.
A zöld taxiút rekordjai közé tartoznak a pick-up és a legördülő dátumok/időpontok, a pick-up és a legördülő helyek, az utazási távolságok, a tételes viteldíjak, a díjtípusok, a fizetési típusok és a sofőr által jelentett utasok száma.
A COVID-19 Data Lake gyűjtemény a COVID-19-cel kapcsolatos, különböző forrásokból származó adatokat, többek között a tesztelések és az páciensek eredményeire vonatkozó megfigyelési adatokat, közösségi távolságtartási szabályokat, a kórházak befogadóképességével és a mobilitással kapcsolatos információkat tartalmaz.
A COVID-19 és a koronavírussal kapcsolatos tudományos cikkek teljes szöveges és metaadat-adatkészlete, amely gépi olvashatóságra van optimalizálva, és a globális kutatói közösség számára elérhetővé tette.
A Genomics Data Lake ingyenesen elérhető különböző nyilvános adatkészleteket biztosít, amelyek készen állnak a genomikai elemzési munkafolyamatokba és alkalmazásokba való integrálásra. Az adathalmaz genomszekvenciákat, variánsadatokat és alany/minta metaadatokat tartalmaz BAM, FASTA, VCF és CSV fájlformátumokban.
Az US Labor Force Statistics munkaerő-statisztikákat, munkaerő-részvételi arányokat és a civil, nem intézményes lakosságot biztosít kor, nem, faj és etnikai csoportok szerint a Egyesült Államok.
A Current Employment Statistics (CES – Aktuális foglalkoztatási statisztikák) program részletes iparági becsléseket nyújt a nem mezőgazdasági foglalkoztatásról, a munkaórákról, valamint a fizetett munkavállalók bevételéről az Egyesült Államokban.
A Current Employment Statistics (CES – Aktuális foglalkoztatási statisztikák) program részletes iparági becsléseket nyújt a nem mezőgazdasági foglalkoztatásról, a munkaórákról, valamint a fizetett munkavállalók bevételéről az Egyesült Államokban.
A US Local Area Unemployment Statistics (Helyi területi munkanélküliségi statisztikák) adatkészletek havi és éves foglalkoztatottsági, munkanélküliségi és munkaerővel kapcsolatos adatokat szolgáltat a népszámlálási régiók és részlegek, államok, megyék, nagyvárosi területek, valamint számos város számára az Egyesült Államokban.
A fogyasztói árindex (CPI) a városi fogyasztók által a fogyasztási cikkek és szolgáltatások piaci kosárjáért fizetett árak időbeli átlagos változását méri.
Az USA népessége nem és faj szerint az EGYES USA-megyékben, forrás: 2000 és 2010 Decennial Népszámlálás. Az adatkészlet forrása az Egyesült Államok Népszámlálási Hivatala.
Usa népessége nem és faj szerint az egyes USA irányítószám, forrás: 2010 Decennial Népszámlálás. Az adatkészlet forrása az Egyesült Államok Népszámlálási Hivatala.
Ez az adatkészlet a New York városban a 311-es számra érkezett összes bejelentést tartalmazza 2010-től máig. Ez az adatkészlet Parquet formátumban van tárolva, és napi frissítéseket kap.
Ez az adatkészlet a Dominick OJ-adatkészletéből származik, és extra szimulált adatokat tartalmaz, azzal a céllal, hogy olyan adatkészletet biztosítson, amely megkönnyíti több ezer modell egyidejű betanítása az Azure Machine Learningben.
A kézzel írt számjegyeket tartalmazó MNIST-adatbázis egy 60 000 példát tartalmazó betanítási készletből és egy 10 000 példát tartalmazó tesztelési készletből áll. A számjegyek méret-normalizáltak és rögzített méretű kép közepén vannak.
A Microsoft News Dataset (MIND) egy nagy méretű adatkészlet a hírjavaslatok kutatásához. Referenciaadatkészletként szolgál a hírek ajánlásához, és elősegíti a hírjavaslatok és ajánlórendszerek kutatását.