A gépi tanulási modellek pontosságának javítása nyilvánosan elérhető adathalmazokkal. Időt takaríthat meg az adatfelderítéssel és -előkészítéssel a gépi tanulási projektekben használatra kész válogatott adathalmazok használatával.
A sárga taxis utazások rekordjai közé tartozik az átvétel és a leadás dátuma/időpontja, az átvétel és a legördülő helyek, az utazási távolságok, a tételes viteldíjak, a díjtípusok, a fizetési típusok és a sofőr által jelentett utasok száma.
A zöld taxi út nyilvántartások közé tartozik a pick-up és drop-off dátumok / időpontok, pick-up és legördülő helyek, utazási távolságok, tételes viteldíjak, díjtípusok, fizetési típusok, és a vezető által jelentett utasok száma.
A COVID-19 Data Lake gyűjtemény a COVID-19-cel kapcsolatos, különböző forrásokból származó adatokat, többek között a tesztelések és az páciensek eredményeire vonatkozó megfigyelési adatokat, közösségi távolságtartási szabályokat, a kórházak befogadóképességével és a mobilitással kapcsolatos információkat tartalmaz.
A COVID–19-cel és a koronavírussal összefüggő tudományos cikkek teljes szövege és azok metaadatainak adatkészletei optimalizálva vannak gépi olvasásra, és felhasználhatja őket a kutatói közösség világszerte.
A Genomics Data Lake különböző nyilvános adatkészleteket biztosít, amelyek ingyenesen elérhetők, és integrálhatók a Genomics-elemzési munkafolyamatokba és alkalmazásokba. Az adatkészlet genomszekvenciákat, variánsadatokat és alany/minta metaadatokat tartalmaz BAM, FASTA, VCF és CSV fájlformátumokban.
A US Labor Force Statistics munkaerő-statisztikákat, munkaerő-foglalkoztatottsági arányokat, valamint a nem intézményi civil lakosság kor, nem, valamint faji és etnikai hovatartozás szerinti adatait tartalmazza. az Egyesült Államokban.
A Current Employment Statistics (CES – Aktuális foglalkoztatási statisztikák) program részletes iparági becsléseket nyújt a nem mezőgazdasági foglalkoztatásról, a munkaórákról, valamint a fizetett munkavállalók bevételéről az Egyesült Államokban.
A Current Employment Statistics (CES – Aktuális foglalkoztatási statisztikák) program részletes iparági becsléseket nyújt a nem mezőgazdasági foglalkoztatásról, a munkaórákról, valamint a fizetett munkavállalók bevételéről az Egyesült Államokban.
A US Local Area Unemployment Statistics (Helyi területi munkanélküliségi statisztikák) adatkészletek havi és éves foglalkoztatottsági, munkanélküliségi és munkaerővel kapcsolatos adatokat szolgáltat a népszámlálási régiók és részlegek, államok, megyék, nagyvárosi területek, valamint számos város számára az Egyesült Államokban.
A fogyasztói árindex (CPI) méri a lakosság által megvásárolt áruk, igénybe vett szolgáltatások árának átlagos változását egy meghatározott időintervallumon belül.
Az amerikai lakosság megyénkénti eloszlása nem és faji hovatartozás alapján a 2000-es és a 2010-es tízévenkénti népszámlálás adatai szerint. Az adatkészlet forrása az Egyesült Államok Népszámlálási Hivatala.
Az amerikai lakosság irányítószám szerinti eloszlása nem és faji hovatartozás alapján a 2010-es tízévenkénti népszámlálás adatai szerint. Az adatkészlet forrása az Egyesült Államok Népszámlálási Hivatala.
Ez az adatkészlet a New York városban a 311-es számra érkezett összes bejelentést tartalmazza 2010-től máig. Ez a ™tárolt Parquet formátumban, és naponta frissítve.
Ez az adatkészlet a Dominick OJ adatkészletéből származik, és további szimulált adatokat tartalmaz azzal a céllal, hogy olyan adatkészletet biztosítson, amely megkönnyíti több ezer modell egyidejű betanítása Azure Machine Learning.
A kézzel írt számjegyeket tartalmazó MNIST-adatbázis egy 60 000 példát tartalmazó betanítási készletből és egy 10 000 példát tartalmazó tesztelési készletből áll. A számjegyek egységesített méretűek és az azonos méretű képek közepére vannak rendezve.
A Microsoft News Dataset (MIND) egy nagy méretű adatkészlet a hírajánlások kutatásához. Referenciaadatkészletként szolgál a hírajánlásokhoz, és elősegíti a hírajánlási és ajánlórendszerek kutatását.