Megosztás a következőn keresztül:


Azure Open Datasets

Gépi tanulási modelljeinek pontosságát nyilvánosan elérhető adatkészletekkel javíthatja. Az adatok felderítésével és előkészítésével időt takaríthat meg, ha olyan válogatott adathalmazokat használ, amelyek készen állnak a gépi tanulási projektekre.

Szállítmányozás

Adathalmaz Leírás
TartanAir: AirSim-szimulációs adatkészlet Az Egyidejű honosítás és leképezés (SLAM) megoldásához létrehozott AirSim autonóm járműadatok.
NYC Taxi &Limuzin Bizottság - sárga taxi utazás rekordok A sárga taxiút rekordjai közé tartoznak a pick-up és a legördülő dátumok/időpontok, a pick-up és a legördülő helyek, az utazási távolságok, a tételes viteldíjak, a díjtípusok, a fizetési típusok és a sofőr által jelentett utasok száma.
NYC Taxi &Limuzin Bizottság - zöld taxi utazás rekordok A zöld taxiút rekordjai közé tartoznak a pick-up és a legördülő dátumok/időpontok, a pick-up és a legördülő helyek, az utazási távolságok, a tételes viteldíjak, a díjtípusok, a fizetési típusok és a sofőr által jelentett utasok száma.
NYC Taxi &Limuzin Bizottság - For-Hire Jármű (FHV) utazási rekordok A Bérbevevő jármű utazási nyilvántartása tartalmazza a feladási alaplicenc számát, valamint az átvétel dátumát, időpontját és taxizóna-azonosítóját.

Egészség és genomika

Adathalmaz Leírás
COVID-19 Data Lake A COVID-19 Data Lake gyűjtemény a COVID-19-cel kapcsolatos, különböző forrásokból származó adatokat, többek között a tesztelések és az páciensek eredményeire vonatkozó megfigyelési adatokat, közösségi távolságtartási szabályokat, a kórházak befogadóképességével és a mobilitással kapcsolatos információkat tartalmaz.
COVID-19 Open Research Dataset A COVID-19 és a koronavírussal kapcsolatos tudományos cikkek teljes szöveges és metaadat-adatkészlete, amely gépi olvashatóságra van optimalizálva, és a globális kutatói közösség számára elérhetővé tette.
Genomics Data Lake A Genomics Data Lake ingyenesen elérhető különböző nyilvános adatkészleteket biztosít, amelyek készen állnak a genomikai elemzési munkafolyamatokba és alkalmazásokba való integrálásra. Az adathalmaz genomszekvenciákat, variánsadatokat és alany/minta metaadatokat tartalmaz BAM, FASTA, VCF és CSV fájlformátumokban.

Munka és közgazdaságtan

Adathalmaz Leírás
USA munkaerőpiaci statisztika Az US Labor Force Statistics munkaerő-statisztikákat, munkaerő-részvételi arányokat és a civil, nem intézményes lakosságot biztosít kor, nem, faj és etnikai csoportok szerint a Egyesült Államok.
USA – országos munkaidő- és jövedelemadatok A Current Employment Statistics (CES – Aktuális foglalkoztatási statisztikák) program részletes iparági becsléseket nyújt a nem mezőgazdasági foglalkoztatásról, a munkaórákról, valamint a fizetett munkavállalók bevételéről az Egyesült Államokban.
USA-beli államokra vonatkozó foglalkoztatási munkaidő és keresetek A Current Employment Statistics (CES – Aktuális foglalkoztatási statisztikák) program részletes iparági becsléseket nyújt a nem mezőgazdasági foglalkoztatásról, a munkaórákról, valamint a fizetett munkavállalók bevételéről az Egyesült Államokban.
USA – helyi munkanélküliségi statisztika A US Local Area Unemployment Statistics (Helyi területi munkanélküliségi statisztikák) adatkészletek havi és éves foglalkoztatottsági, munkanélküliségi és munkaerővel kapcsolatos adatokat szolgáltat a népszámlálási régiók és részlegek, államok, megyék, nagyvárosi területek, valamint számos város számára az Egyesült Államokban.
Egyesült Államok fogyasztói árindexe A fogyasztói árindex (CPI) a városi fogyasztók által a fogyasztási cikkek és szolgáltatások piaci kosárjáért fizetett árak időbeli átlagos változását méri.
Egyesült Államok termelői árindex – ipar A termelői árindex (PPI) a hazai termelők által a termelésükhöz kapott eladási árak időbeli átlagos változását méri.
Egyesült Államok termelői árindexe – árucikkek A termelői árindex (PPI) a hazai termelők által az árujukra kapott eladási árak időbeli átlagos változását méri.

Népesség és biztonság

Adathalmaz Leírás
Az Egyesült Államok lakossága megye szerint Az USA népessége nem és faj szerint az EGYES USA-megyékben, forrás: 2000 és 2010 Decennial Népszámlálás. Az adatkészlet forrása az Egyesült Államok Népszámlálási Hivatala.
Az Egyesült Államok lakossága irányítószám szerint Usa népessége nem és faj szerint az egyes USA irányítószám, forrás: 2010 Decennial Népszámlálás. Az adatkészlet forrása az Egyesült Államok Népszámlálási Hivatala.
Boston biztonsági adatai Olvasási adatok a Bostonban bejelentett 311-es hívásokról. Ez az adatkészlet Parquet formátumban van tárolva, és napi frissítéseket kap.
Chicago biztonsági adatai Olvasási adatok a Chicagóban bejelentett 311-es hívásokról. Ez az adatkészlet Parquet formátumban van tárolva, és napi frissítéseket kap.
New York város biztonsági adatai Ez az adatkészlet a New York városban a 311-es számra érkezett összes bejelentést tartalmazza 2010-től máig. Ez az adatkészlet Parquet formátumban van tárolva, és napi frissítéseket kap.
San Francisco biztonsági adatai Tűzoltósági riasztások és 311-es esetek San Franciscóban. Az adatkészlet a 2015-től mostanáig összegyűlt rekordokat tartalmazza.
Seattle biztonsági adatai A Seattle-i tűzoltóság segélyhívásra reagáló intézkedései. Az adatkészlet naponta frissül, és a 2010-től mostanáig összegyűlt rekordokat tartalmazza

Kiegészítő és gyakori adatkészletek

Adathalmaz Leírás
Cukorbetegség A diabétesz adatkészlet 442 mintát tartalmaz 10 jellemzővel, így ideális választás ahhoz, hogy megismerkedjünk a gépi tanulási algoritmusokkal.
HL Értékesítési szimulált adatok Ez az adatkészlet a Dominick OJ-adatkészletéből származik, és extra szimulált adatokat tartalmaz, azzal a céllal, hogy olyan adatkészletet biztosítson, amely megkönnyíti több ezer modell egyidejű betanítása az Azure Machine Learningben.
Kézzel írt számjegyek MNIST-adatbázisa A kézzel írt számjegyeket tartalmazó MNIST-adatbázis egy 60 000 példát tartalmazó betanítási készletből és egy 10 000 példát tartalmazó tesztelési készletből áll. A számjegyek méret-normalizáltak és rögzített méretű kép közepén vannak.
Microsoft News-javaslat adatkészlet A Microsoft News Dataset (MIND) egy nagy méretű adatkészlet a hírjavaslatok kutatásához. Referenciaadatkészletként szolgál a hírek ajánlásához, és elősegíti a hírjavaslatok és ajánlórendszerek kutatását.
Munkaszüneti A PyPI szabadnapos csomagja és a Wikipedia alapján készült nyilvános szabadnapi adatok, 38 országra vagy régióra vonatkozóan, 1970. és 2099 között.
Orosz nyílt beszéd a szöveghez Az Orosz Nyílt STT egy nagy léptékű nyílt beszéd az orosz nyelv szöveges adatkészletének