opendatasets Csomag
Az Azure Open Datasets adatkeretként való felhasználására és az ügyféladatok bővítésére szolgáló funkciókat tartalmaz.
Az Azure Open Datasets válogatott nyilvános adatkészletek, amelyekkel forgatókönyvspecifikus funkciókat adhat hozzá a gépi tanulási megoldásokhoz a pontosabb modellek érdekében. Ezeket a nyilvános adatkészleteket Spark- és pandas-adatkeretekké alakíthatja, alkalmazott szűrőkkel. Egyes adathalmazok esetében egy bővítővel csatlakoztathatja a nyilvános adatokat az adataihoz. Az adatokat például hosszúság, szélesség, irányítószám és idő alapján összekapcsolhatja az időjárási adatokkal.
Az Azure Open-adathalmazok közé tartoznak az időjárási, népszámlálási, ünnepnapi, közbiztonsági és helyadatok, amelyek segítenek gépi tanulási modellek betanításában és prediktív megoldások bővítésében. Az open datasets a felhőben található a Microsoft Azure-ban, és integrálva vannak az Azure Machine Learningbe. Az Azure Open Datasets használatával kapcsolatos további információkért lásd: Adathalmazok létrehozása Azure Open-adatkészletekkel.
Az Azure Open Datasets szolgáltatással kapcsolatos általános információkért tekintse meg az Azure Open Datasets dokumentációját.
Csomagok
accessories |
Olyan funkciókat tartalmaz, amelyek segítenek azonosítani az adatok oszloptípusát, például a lat/longot, az irányítószámot és az időt. |
aggregators |
A csatlakoztatott adatok összesítésének meghatározására szolgáló funkciókat tartalmaz. Az összesítők olyan műveleteket határoznak meg, amelyek két adathalmazból származó adatok összekapcsolásának eredményeként végrehajthatók. Ha például az egyik osztályt használja a fájlban enrichers, a művelet részeként megadhat egy összesítőt. Ha nincs szükség összesítésre, használja a következőt AggregatorAll: . |
data |
A publicholidays modul adaterőforrásainak init-fájlja. |
dataaccess |
Blobfájl-hozzáférési módszereket biztosító funkciókat tartalmaz. Ha egy osztályt használ a opendatasets csomagból, például az ChicagoSafety osztályt, a csomagban lévő dataaccess osztályok és függvények belsőleg lesznek használatban. Általában nem kell közvetlenül használnia a dataaccess csomag funkcióit. |
enrichers |
Két adatkészletből származó adatok bővítésére és összekapcsolására szolgáló funkciókat tartalmaz. A gazdagítók általában különböző forrásokból származó adatokat egyesítenek. A bővítők lehetővé teszik az adatok (ügyféladatok) összekapcsolására az Azure Open Datasets vagy más nyilvános adathalmazok adataival. |
granularities |
Olyan funkciókat tartalmaz, amelyek meghatározzák a dúsítók által használt idő- és távolságmérőket. A részletesség az adatok dúsításához (összekapcsolásához) használt enrichers idő vagy távolság mértéke. Vannak időrészletességek, például óránként vagy naponta, és a hely részletessége, például a legközelebbi távolság. |
selectors |
Olyan funkciókat tartalmaz, amelyek segítségével egy ügyféladatkészletből származó adatokat lehet kiválasztani és csatlakoztatni egy nyilvános adatkészletből származó adatokkal. A választók olyan logikát határoznak meg, amely lehetővé teszi az adatok bővítését nyilvános adathalmazokkal idő- és távolságmérők alapján. Egy választóval például megtalálhatja azokat a nyilvános adatokat, amelyeket a legközelebbi hely alapján csatlakoztathat az adataihoz, vagy ugyanarra az időrészletességre kerekíthet. Adja meg a választókat, amikor a csomag egyik osztályával enrichers dolgozik. |
Modulok
environ |
Meghatározza a futtatókörnyezeti környezeti osztályokat, ahol az Azure Open Dataseteket használják. A modul osztályai biztosítják, hogy az Azure Open Datasets funkciói különböző környezetekhez legyenek optimalizálva.
Általában nem kell példányosítania ezeket a környezeti osztályokat, és nem kell aggódnia azok implementációja miatt.
Ehelyett használja a |
Osztályok
BingCOVID19Data |
A Bing COVID-19 adatkészletet jelöli. Ezek az adathalmazok több megbízható, megbízható forrásból származó Bing COVID-19-adatokat tartalmaznak, beleértve az Egészségügyi Világszervezetet (WHO), a Betegségmegelőzési és -megelőzési központokat (CDC), a nemzeti és állami közegészségügyi részlegeket, a BNO Newst, a 24/7 Wall St.-t és a Wikipédiát. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, tekintse meg a Bing COVID-19-adatokat a Microsoft Azure Open Datasets katalógusában. Szűrési mezők inicializálása. |
BostonSafety |
A Boston Safety nyilvános adatkészletét jelöli. Ez az adatkészlet 311 hívást tartalmaz, amely Boston városának van bejelentve. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, olvassa el a Boston Safety Data in the Microsoft Azure Open Datasets katalógusában található Boston Safety Datasets (Boston Safety Datas in the Microsoft Azure Open Datasets catalog) című témakört. Szűrési mezők inicializálása. |
COVID19OpenResearch |
A COVID-19 Open Research-adatkészletet jelöli. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, olvassa el a COVID-19 open research dataset (Covid-19 open research dataset) című témakört a Microsoft Azure Open Datasets katalógusában. |
COVIDTrackingProject |
A COVID Tracking Project adatkészletét jelöli. Ezek az adathalmazok a COVID Tracking Project adatkészletét tartalmazzák, amely a legújabb számokat tartalmazza a tesztekről, a megerősített esetekről, a kórházi kezelésről és a betegek eredményeiről az usa minden államából és területéről. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, olvassa el a COVID Tracking Project-adatkészletet a Microsoft Azure Open Datasets katalógusában. Szűrési mezők inicializálása. |
ChicagoSafety |
A Chicago Safety nyilvános adatkészletét jelöli. Ez az adatkészlet 311 szolgáltatáskérést tartalmaz Chicago városától, beleértve a korábbi higiéniakóddal kapcsolatos panaszokat, a potlyukak jelentett adatait és a közvilágítási problémákat. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, olvassa el a Békéscsabai biztonsági adatok a Microsoft Azure Open Datasets katalógusában című témakört. Szűrési mezők inicializálása. |
CitySafety |
Városbiztonsági osztály – ez egy szülőosztály, amelyet minden egyes város örökölhet. Szűrési mezők inicializálása. |
Diabetes |
A Diabétesz minta nyilvános adatkészletét jelöli. A diabétesz adatkészlet 442 mintát tartalmaz 10 jellemzővel, így ideális választás ahhoz, hogy megismerkedjünk a gépi tanulási algoritmusokkal. További információ erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, lásd : Minta: Cukorbetegség a Microsoft Azure Open Datasets katalógusában. |
EcdcCOVIDCases |
Az Európai Betegségmegelőzési és Járványvédelmi Központ (ECDC) Covid-19-eseteket jelöli. Ezek az adathalmazok az Európai Betegségmegelőzési és Járványvédelmi Központból (ECDC) származnak. Minden sor/bejegyzés tartalmazza a naponta jelentett új esetek számát országonként/régiónként. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait, valamint példákat az Európai Betegségmegelőzési és Járványvédelmi Központ (ECDC) Covid-19-esetek a Microsoft Azure Open Datasets katalógusában talál. Szűrési mezők inicializálása. |
MNIST |
A kézzel írt számjegyek MNIST-adathalmazát jelöli. A kézzel írt számjegyeket tartalmazó MNIST-adatbázis egy 60 000 példát tartalmazó betanítási készletből és egy 10 000 példát tartalmazó tesztelési készletből áll. A számjegyek egységesített méretűek és az azonos méretű képek közepére vannak rendezve. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, tekintse meg a Kézzel írt számjegyek MNIST-adatbázisát a Microsoft Azure Open Datasets katalógusában. Az MNIST-adathalmaz használatára példa: Képbesorolási modellek betanítása MNIST-adatokkal és scikit-learn az Azure Machine Learning használatával. |
NoParameterOpenDatasetBase |
Amerikai munkaügyi alaposztály. Inicializálni. |
NoaaGfsWeather |
A National Oceanic and Atmospheric Administration (NOAA) Global Forecast System (GFS) adatkészletet jelöli. Ez az adatkészlet az USA 15 napos óránkénti időjárás-előrejelzési adatait (például hőmérséklet, csapadék, szél) tartalmazza, amelyeket a National Oceanic and Atmospheric Administration (NOAA) globális előrejelzési rendszere (GFS) állít elő. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, tekintse meg a NOAA globális előrejelzési rendszerét a Microsoft Azure Open Datasets katalógusában. Szűrési mezők inicializálása. |
NoaaIsdWeather |
A National Oceanic and Atmospheric Administration (NOAA) integrated Surface Dataset (ISD) (National Oceanic and Atmospheric Administration, NOAA) integrated Surface Dataset (ISD) (National Oceanic and Atmospheric Administration, NOAA) integrált felszíni adatkészletet jelöli. Ez az adatkészlet a National Oceanic and Atmospheric Administration (NOAA) adataiból származó, világszerte óránkénti időjárási előzményadatokat (például hőmérséklet, csapadék, szél) tartalmaz. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, lásd: NOAA Integrated Surface Data in the Microsoft Azure Open Datasets catalog . Szűrési mezők inicializálása. |
NycSafety |
A New York City Safety nyilvános adatkészletét jelöli. Ez az adatkészlet a New York városban a 311-es számra érkezett összes bejelentést tartalmazza 2010-től máig. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, olvassa el a New York City Safety Data in the Microsoft Azure Open Datasets katalógusában található New York City Safety Datasets (New York City Safety Datasets ) című témakört. Szűrési mezők inicializálása. |
NycTaxiBase |
New York Taxi osztály - ez egy szülőosztály, amely örökölhető. Szűrési mezők inicializálása. |
NycTlcFhv |
Az NYC Taxi & Limousine Commission nyilvános adatkészletét képviseli. Ez az adatkészlet For-Hire Vechicle (FHV) utazási rekordokat tartalmaz, amelyek tartalmazzák a feladó alaplicenc-számát, valamint az átvétel dátumát, időpontját és a taxizóna helyazonosítóját (az alábbi alakzatfájlt). Ezeket a rekordokat a központok készítették az FHV utazás rekordjai alapján. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, lásd: NYC Taxi & Limousine Commission – For-Hire Vehicle (FHV) utazási rekordok a Microsoft Azure Open Datasets katalógusában. Szűrési mezők inicializálása. |
NycTlcGreen |
Képviseli a NYC Taxi & Limousine Bizottság zöld taxi utazás nyilvános adatkészlet. A zöld taxis utazások rekordjai az utasfelvétel és -kiadás dátumát és idejét, a felvétel és -kiadás helyét, az út hosszát, a tételes viteldíjakat, a díjszabás típusát, a fizetési módot, valamint a sofőr által bejelentett utasszámot tartalmazzák. További információ erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat: NYC Taxi & Limousine Commission – zöld taxiútrekordok a Microsoft Azure Open Datasets katalógusában. A NycTlcGreen osztály használatára példa: Az automatizált gépi tanulás használata a taxidíjak előrejelzéséhez. Szűrési mezők inicializálása. |
NycTlcYellow |
Az NYC Taxi & Limousine Bizottság sárga taxiút nyilvános adatkészletét képviseli. A sárga taxis utazások rekordjai az utasfelvétel és -kiadás dátumát és idejét, a felvétel és -kiadás helyét, az út hosszát, a tételes viteldíjakat, a díjszabás típusát, a fizetési módot, valamint a sofőr által bejelentett utasszámot tartalmazzák. További információ erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat: NYC Taxi & Limousine Commission – sárga taxiútrekordok a Microsoft Azure Open Datasets katalógusában. Szűrési mezők inicializálása. |
OjSalesSimulated |
A Sample Orange Juice Sales Simulated adatkészletet jelöli. Az adatkészlettel kapcsolatos további információkért, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, lásd : Minta: HL Értékesítési szimulált adatok a Microsoft Azure Open Datasets katalógusában. |
PublicHolidays |
Az ünnepnapok nyilvános adatkészletét jelöli. Ezek az adatkészletek a PyPI ünnepnapok csomagból és a Wikipédiából származó, 1970 és 2099 közötti 38 országot vagy régiót lefedő, világszerte elérhető ünnepnapok adatait tartalmazzák. Minden sor egy adott dátum és ország vagy régió szabadnapjaira vonatkozó adatait tartalmazza, illetve azt, hogy a legtöbb ember kap-e fizetett szabadságot. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, tekintse meg a nyilvános ünnepnapokat a Microsoft Azure Open Datasets katalógusában. Szűrőmezők inicializálása. |
PublicHolidaysOffline |
Az Offline munkaszüneti napok nyilvános adatkészletét jelöli. A sorok leírását a Nyilvános ünnepek a Microsoft Azure Open Datasets katalógusában tekinti meg. Szűrőmezők inicializálása. |
SampleDatasetBase |
A Mintaadatkészlet alaposztályát jelöli. |
SanFranciscoSafety |
A San Francisco Safety nyilvános adatkészletét jelöli. Ez az adathalmaz a tűzoltók szolgálathoz intézett hívásait és 311 esetet tartalmaz San Francisco-ban. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, olvassa el a San Francisco Biztonsági adatok a Microsoft Azure Open Datasets katalógusában című témakört. Szűrőmezők inicializálása. |
SeattleSafety |
A Seattle Safety nyilvános adatkészletét jelöli. Ez az adatkészlet a Seattle-i Tűzoltóság 911-es diszpécseradatait tartalmazza. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, olvassa el a Seattle Safety Data in the Microsoft Azure Open Datasets katalógusában található Seattle Safety Data (Seattle-beli biztonsági adatok ) című témakört. Szűrőmezők inicializálása. |
UsLaborCPI |
Az USA fogyasztói árindexének nyilvános adatkészletét jelöli. A fogyasztói árindex (CPI) méri a lakosság által megvásárolt áruk, igénybe vett szolgáltatások árának átlagos változását egy meghatározott időintervallumon belül. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, tekintse meg az USA fogyasztói árindexét a Microsoft Azure Open Datasets katalógusában. Inicializálni. |
UsLaborEHENational |
Az Egyesült Államok nemzeti foglalkoztatási óraszámának és bevételeinek nyilvános adathalmazát jelöli. Ez az adatkészlet iparági becsléseket tartalmaz a nemfarm-alapú foglalkoztatásról, a munkaórákról és a munkavállalók bérszámfejtési bevételeiről a Egyesült Államok. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, tekintse meg az USA nemzeti munkaidejének és a Microsoft Azure Open Datasets katalógusának bevételét ismertető cikket. Inicializálni. |
UsLaborEHEState |
Az USA-beli állami foglalkoztatási órák és bevételek nyilvános adatkészletét jelöli. Ez az adatkészlet iparági becsléseket tartalmaz a nemfarm-alapú foglalkoztatásról, a munkaórákról és a munkavállalók bérszámfejtési bevételeiről a Egyesült Államok. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, tekintse meg az USA-beli állami foglalkoztatási órákat és a Microsoft Azure Open Datasets katalógusának bevételét ismertető cikket. Inicializálni. |
UsLaborLAUS |
Az USA helyi munkanélküliségi statisztikáinak nyilvános adatkészletét jelöli. Ez az adatkészlet havi és éves foglalkoztatási, munkanélküliségi és munkaerő-adatokat tartalmaz a Census régióira és körzetekre, államokra, megyékre, nagyvárosi területekre és a Egyesült Államok számos városára vonatkozóan. Az adatkészlettel kapcsolatos további információkért, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, tekintse meg az USA helyi munkanélküliségi statisztikáit a Microsoft Azure Open Datasets katalógusában. Inicializálni. |
UsLaborLFS |
Az USA munkaerő-statisztikáinak nyilvános adatkészletét jelöli. Ez az adatkészlet a Egyesült Államok munkaerővel kapcsolatos adatokat tartalmazza, beleértve a munkaerő részvételi arányát, valamint a civil, nem intézményes népességet kor, nem, faj és etnikai csoportok szerint. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, olvassa el az US Labor Force Statistics (Us Labor Force Statistics ) című témakört a Microsoft Azure Open Datasets katalógusában. Inicializálni. |
UsLaborPPICommodity |
Az USA termelői árindexét (PPI) jelöli – Commodities nyilvános adatkészlet. A termelői árindex (PPI) méri a belföldi termelők eladási árainak átlagos változását egy meghatározott időintervallumon belül. A PPI-ben foglalt árak a megfelelő termékek és szolgáltatások első kereskedelmi tranzakciójára vonatkoznak. Ez az adatkészlet a havonta kiadott egyes termékekhez és termékcsoportokhoz tartozó PPI-ket tartalmaz. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, tekintse meg a Microsoft Azure Open Datasets katalógusában található US Producer Price Index – Commodities (Amerikai termelői árindex – Árucikkek ) című témakört. Inicializálni. |
UsLaborPPIIndustry |
Az USA termelői árindexét (PPI) jelöli – Iparági nyilvános adatkészlet. A termelői árindex (PPI) méri a belföldi termelők eladási árainak átlagos változását egy meghatározott időintervallumon belül. A PPI-ben foglalt árak a megfelelő termékek és szolgáltatások első kereskedelmi tranzakciójára vonatkoznak. Ez az adatkészlet ppi-ket tartalmaz az egyesült államokbeli gazdaság számos iparága számára. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, tekintse meg az USA termelői árindexe – Iparág című témakört a Microsoft Azure Open Datasets katalógusában. Az Azure Open Datasets szolgáltatással kapcsolatos általános információkért tekintse meg az Azure Open Datasets dokumentációját. Inicializálni. |
UsPopulationCounty |
Az USA népességét jelöli megyénkénti nyilvános adatkészlet szerint. Ez az adatkészlet a 2000 és 2010 decenniális népszámlálásból származó egyes egyesült államokbeli megyék nemek és faji hovatartozás szerint tartalmazza az USA lakosságát. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, tekintse meg az USA népessége megyénként című témakört a Microsoft Azure Open Datasets katalógusában. Inicializálni. |
UsPopulationZip |
Az USA népességét jelöli irányítószám szerinti nyilvános adatkészlet szerint. Ez az adatkészlet a 2010. decemberi népszámlálásból származó egyes USA-beli irányítószámokat nem és faj szerint tartalmazza. Erről az adatkészletről, beleértve az oszlopleírásokat, az adathalmaz elérésének különböző módjait és példákat, a Microsoft Azure Open Datasets katalógusának US Population by ZIP Code (Egyesült Államok népessége irányítószám alapján ) című szakaszában talál további információt. Inicializálni. |