Azure Open Datasets

A gépi tanulási modellek pontosságának javítása nyilvánosan elérhető adathalmazokkal. Időt takaríthat meg az adatfelderítéssel és -előkészítéssel a gépi tanulási projektekben használatra kész válogatott adathalmazok használatával.

Szállítás

Adathalmaz Description
TartanAir: AirSim-szimulációs adatkészlet Az egyidejű honosítás és leképezés (SLAM) megoldásához létrehozott AirSim autonóm járműadatok.
NYC Taxi & Limousine Bizottság - sárga taxi út nyilvántartások A sárga taxis utazások rekordjai közé tartozik az átvétel és a leadás dátuma/időpontja, az átvétel és a legördülő helyek, az utazási távolságok, a tételes viteldíjak, a díjtípusok, a fizetési típusok és a sofőr által jelentett utasok száma.
NYC Taxi & Limousine Bizottság - zöld taxi út rekordok A zöld taxi út nyilvántartások közé tartozik a pick-up és drop-off dátumok / időpontok, pick-up és legördülő helyek, utazási távolságok, tételes viteldíjak, díjtípusok, fizetési típusok, és a vezető által jelentett utasok száma.
NYC Taxi & Limousine Bizottság - For-Hire Jármű (FHV) utazási nyilvántartások A For-Hire Járműút nyilvántartása tartalmazza a feladó alaplicenc-számát, valamint az átvétel dátumát, időpontját és a taxizóna helyazonosítóját.

Egészség és genomikák

Adathalmaz Description
COVID-19 Data Lake A COVID-19 Data Lake gyűjtemény a COVID-19-cel kapcsolatos, különböző forrásokból származó adatokat, többek között a tesztelések és az páciensek eredményeire vonatkozó megfigyelési adatokat, közösségi távolságtartási szabályokat, a kórházak befogadóképességével és a mobilitással kapcsolatos információkat tartalmaz.
COVID-19 Open Research-adatkészlet A COVID–19-cel és a koronavírussal összefüggő tudományos cikkek teljes szövege és azok metaadatainak adatkészletei optimalizálva vannak gépi olvasásra, és felhasználhatja őket a kutatói közösség világszerte.
Genomics Data Lake A Genomics Data Lake különböző nyilvános adatkészleteket biztosít, amelyek ingyenesen elérhetők, és integrálhatók a Genomics-elemzési munkafolyamatokba és alkalmazásokba. Az adatkészlet genomszekvenciákat, variánsadatokat és alany/minta metaadatokat tartalmaz BAM, FASTA, VCF és CSV fájlformátumokban.

Munka és közgazdaságtan

Adathalmaz Description
USA munkaerőpiaci statisztika A US Labor Force Statistics munkaerő-statisztikákat, munkaerő-foglalkoztatottsági arányokat, valamint a nem intézményi civil lakosság kor, nem, valamint faji és etnikai hovatartozás szerinti adatait tartalmazza. az Egyesült Államokban.
USA országos foglalkoztatási munkaidő és keresetek A Current Employment Statistics (CES – Aktuális foglalkoztatási statisztikák) program részletes iparági becsléseket nyújt a nem mezőgazdasági foglalkoztatásról, a munkaórákról, valamint a fizetett munkavállalók bevételéről az Egyesült Államokban.
USA-beli államokra vonatkozó foglalkoztatási munkaidő és keresetek A Current Employment Statistics (CES – Aktuális foglalkoztatási statisztikák) program részletes iparági becsléseket nyújt a nem mezőgazdasági foglalkoztatásról, a munkaórákról, valamint a fizetett munkavállalók bevételéről az Egyesült Államokban.
USA helyi munkanélküliségi statisztika A US Local Area Unemployment Statistics (Helyi területi munkanélküliségi statisztikák) adatkészletek havi és éves foglalkoztatottsági, munkanélküliségi és munkaerővel kapcsolatos adatokat szolgáltat a népszámlálási régiók és részlegek, államok, megyék, nagyvárosi területek, valamint számos város számára az Egyesült Államokban.
Egyesült Államok fogyasztói árindexe A fogyasztói árindex (CPI) méri a lakosság által megvásárolt áruk, igénybe vett szolgáltatások árának átlagos változását egy meghatározott időintervallumon belül.
Egyesült Államok termelői árindex – ipar A termelői árindex (PPI) méri a belföldi termelők eladási árainak átlagos változását egy meghatározott időintervallumon belül.
Egyesült Államok termelői árindexe – árucikkek A termelői árindex (PPI) méri a belföldi termelők eladási árainak átlagos változását egy meghatározott időintervallumon belül.

Népesség és biztonság

Adathalmaz Description
Az Egyesült Államok lakossága megye szerint Az amerikai lakosság megyénkénti eloszlása nem és faji hovatartozás alapján a 2000-es és a 2010-es tízévenkénti népszámlálás adatai szerint. Az adatkészlet forrása az Egyesült Államok Népszámlálási Hivatala.
Az Egyesült Államok lakossága irányítószám szerint Az amerikai lakosság irányítószám szerinti eloszlása nem és faji hovatartozás alapján a 2010-es tízévenkénti népszámlálás adatai szerint. Az adatkészlet forrása az Egyesült Államok Népszámlálási Hivatala.
Boston biztonsági adatai Olvasási adatok a Bostonban bejelentett 311-es hívásokról. Az adatkészlet Parquet formátumban van tárolva, és naponta frissül.
Chicago biztonsági adatai Olvasási adatok a Chicagóban bejelentett 311-es hívásokról. Az adatkészlet Parquet formátumban van tárolva, és naponta frissül.
New York Város biztonsági adatai Ez az adatkészlet a New York városban a 311-es számra érkezett összes bejelentést tartalmazza 2010-től máig. Ez a ™tárolt Parquet formátumban, és naponta frissítve.
San Francisco biztonsági adatai Tűzoltósági riasztások és 311-es esetek San Franciscóban. Az adatkészlet a 2015-től mostanáig összegyűlt rekordokat tartalmazza.
Seattle biztonsági adatai A Seattle-i tűzoltóság segélyhívásra reagáló intézkedései. Az adatkészlet naponta frissül, és a 2010-től mostanáig összegyűlt rekordokat tartalmazza

Kiegészítő és közös adathalmazok

Adathalmaz Description
Cukorbetegség A diabétesz adatkészlet 442 mintát tartalmaz 10 jellemzővel, így ideális választás ahhoz, hogy megismerkedjünk a gépi tanulási algoritmusokkal.
HL Értékesítési szimulált adatok Ez az adatkészlet a Dominick OJ adatkészletéből származik, és további szimulált adatokat tartalmaz azzal a céllal, hogy olyan adatkészletet biztosítson, amely megkönnyíti több ezer modell egyidejű betanítása Azure Machine Learning.
Kézzel írt számjegyek MNIST-adatbázisa A kézzel írt számjegyeket tartalmazó MNIST-adatbázis egy 60 000 példát tartalmazó betanítási készletből és egy 10 000 példát tartalmazó tesztelési készletből áll. A számjegyek egységesített méretűek és az azonos méretű képek közepére vannak rendezve.
Microsoft News-javaslat adatkészlet A Microsoft News Dataset (MIND) egy nagy méretű adatkészlet a hírajánlások kutatásához. Referenciaadatkészletként szolgál a hírajánlásokhoz, és elősegíti a hírajánlási és ajánlórendszerek kutatását.
Munkaszüneti A PyPI szabadnapos csomagja és a Wikipedia alapján készült nyilvános szabadnapi adatok, 38 országra vagy régióra vonatkozóan, 1970. és 2099 között.
Orosz nyílt beszéd szöveggé alakításához Az Orosz Open STT egy nagy léptékű nyílt beszédfelismerési adatkészlet az orosz nyelvhez