NYC Taxi & Limousine Bizottság - For-Hire Jármű (FHV) utazási nyilvántartások
A For-Hire Vehicle („FHV”) utazás rekordjai a központi rendszámot, az utasfelvétel dátumát és idejét, valamint a taxizóna helyazonosítóját tartalmazzák (lásd a lenti fájlt). Ezeket a rekordokat a központok készítették az FHV utazás rekordjai alapján.
Megjegyzés
Microsoft "adott" alapon biztosítja az Azure Open Datasets szolgáltatást. Microsoft nem vállal kifejezett vagy vélelmezett garanciát vagy feltételeket az adathalmazok ön általi használatára vonatkozóan. A helyi jogszabályok által megengedett mértékben a Microsoft kizár minden felelősséget az adathalmazok használatából eredő károkért vagy veszteségekért, beleértve a közvetlen, következményi, különleges, közvetett, járulékos vagy büntető jellegű károkat.
Az adatkészletet a Microsoft forrásadataihoz tartozó eredeti feltételek szerint szolgáltatjuk. A készlet tartalmazhat Microsofttól származó adatokat.
Kötet és megőrzés
Az adatkészlet Parketta formátumban van tárolva. 2018-ig körülbelül 500 M sor (5 GB) van.
Az adatkészlet 2009. és 2018. között összegyűjtött adatokat tartalmaz. Adott időtartomány adatainak beolvasásához az általunk biztosított SDK paraméterbeállításait használhatja.
Tárolási hely
Az adatkészlet tárolási helye a Kelet-USA Azure-régió. Az affinitás érdekében a Kelet-USA régión belüli számítási erőforrások lefoglalását javasoljuk.
További információ
NYC Taxi and Limousine Commission (TLC):
Az adatokat a Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP) keretében engedélyezett technológiai szolgáltatók gyűjtötték és szolgáltatták a NYC Taxi és Limousine Bizottság (TLC) részére. Az utazások adatait nem a TLC hozta létre, amely így nem is vállal felelősséget ezek pontosságáért.
Tekintse meg az eredeti adathalmaz helyét és az eredeti használati feltételeket.
Oszlopok
Name | Adattípus | Egyedi | Értékek (minta) | Leírás |
---|---|---|---|---|
dispatchBaseNum | sztring | 1,144 | B02510 B02764 | Az utazást kiosztó taxiállomás TLC-bázisengedélyszáma |
doLocationId | sztring | 267 | 265 132 | A TLC-taxizóna amelyben az utazás véget ért. |
dropOffDateTime | időbélyeg | 57,110,352 | 2017-07-31 23:59:00 2017-10-15 00:44:34 | A leszállás dátuma és ideje. |
pickupDateTime | időbélyeg | 111,270,396 | 2016-08-16 00:00:00 2016-08-17 00:00:00 | Az utasfelvétel dátuma és ideje. |
puLocationId | sztring | 266 | 79 161 | Az út kiindulópontjának TLC taxizónája. |
puMonth | int | 12 | 1 12 | |
puYear | int | 5 | 2018 2017 | |
srFlag | sztring | 44 | 1 2 | Azt jelzi, hogy az utazás egy nagy volumenű FHV-vállalat által kínált megosztott utazási lánc része volt-e (például Uber Pool, Lyft Line). Megosztott utak esetén az érték 1. Nem megosztott utak esetén ez a mező null. MEGJEGYZÉS: A legtöbb nagy volumenű utazásmegosztó személyszállító szolgáltatás esetében csak az igényelt ÉS az út során egy másik kérelemmel összekötött utak vannak megjelölve. A Lyft azonban (alaprendszámok: B02510 + B02844) azokat az utakat is megjelöli, amelyeknél a megosztott út igénylése megtörtént, de nem sikerült másik utast rendelni hozzá – tehát az említett két rendszámkészletből származó SR_Flag=1 megjelölésű utak VAGY az első utat jelzik egy megosztott láncon belül, VAGY egy igényelt, de másik úttal nem összekötött utat. A felhasználók arra számíthatnak, hogy a rendszer több, Lyft által teljesített megosztott utat jelenít meg. |
Előnézet
dispatchBaseNum | pickupDateTime | dropOffDateTime | puLocationId | doLocationId | srFlag | puYear | puMonth |
---|---|---|---|---|---|---|---|
B03157 | 2019.06.30. 11:59:57 | 2019.07.01. 12:07:21 | 264 | null | null | 2019 | 6 |
B01667 | 2019. 06. 30. 11:59:56 | 2019.07.01. 12:28:06 | 264 | null | null | 2019 | 6 |
B02849 | 2019. 06. 30. 11:59:55 | 2019.07.01. 12:14:10 | 264 | null | null | 2019 | 6 |
B02249 | 2019.06.30. 11:59:53 | 2019.07.01. 12:15:53 | 264 | null | null | 2019 | 6 |
B00887 | 2019.06.30. 11:59:48 | 2019.07.01. 12:29:29 | 264 | null | null | 2019 | 6 |
B01626 | 2019.06.30. 11:59:45 | 2019.07.01. 12:18:20 | 264 | null | null | 2019 | 6 |
B01259 | 2019.06.30. 11:59:44 | 2019.07.01. 12:03:15 | 264 | null | null | 2019 | 6 |
B01145 | 2019.06.30. 11:59:43 | 2019.07.01. 12:11:15 | 264 | null | null | 2019 | 6 |
B00887 | 2019.06.30. 11:59:42 | 2019.07.01. 12:34:21 | 264 | null | null | 2019 | 6 |
B00821 | 2019.06.30. 11:59:40 | 2019.07.01. 12:02:57 | 264 | null | null | 2019 | 6 |
Az adatok elérése
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Következő lépések
Tekintse meg a többi adathalmazt az Open Datasets katalógusban.