NYC Taxi & Limousine Komise - Pronajmutí vozidla (FHV) záznamy jízdy

Záznamy o jízdách pronajatými vozidly obsahují pole zachycující číslo licence dispečinku, datum a čas vyzvednutí a ID oblasti taxi zóny (soubor ve formátu shapefile najdete níže). Tyto záznamy se generují ze záznamů o jízdách pronajatými vozidly odeslaných základnami.

Poznámka:

Microsoft poskytuje datové sady Azure Open Datasets na bázi "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft odmítá veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.

Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.

Objem a uchovávání

Tato datová sada se uchovává ve formátu Parquet. K roku 2018 je přibližně 500M řádků (5 GB).

Tato datová sada obsahuje historické záznamy shromážděné mezi lety 2009 a 2018. Pomocí nastavení parametrů v naší sadě SDK můžete načíst data v určitém časovém rozsahu.

Umístění úložiště

Tato datová sada se uchovává v oblasti Azure Východní USA. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti Východní USA.

Další informace

Newyorská komise pro taxi a limuzíny (TLC):

Data shromáždili a newyorské komisi pro taxi a limuzíny (TLC) je poskytli poskytovatelé technologií autorizovaní v rámci programů TPEP a LPEP (Taxicab Passenger Enhancement Program a Livery Passenger Enhancement Program). Data o jízdách nevytvořila TLC a TLC nečinní žádná prohlášení ohledně přesnosti těchto dat.

Zobrazte původní umístění datové sady a původní podmínky použití.

Sloupce

Name Datový typ Jedinečný Values (sample) Popis
dispatchBaseNum string 1,144 B02510 B02764 Číslo licence základny TLC, která jízdu vypravila
doLocationId string 267 265 132 Taxi zóna TLC, ve které se jízda ukončila
dropOffDateTime časové razítko 57,110,352 2017-07-31 23:59:00 2017-10-15 00:44:34 Datum a čas ukončení jízdy
pickupDateTime časové razítko 111,270,396 2016-08-16 00:00:00 2016-08-17 00:00:00 Datum a čas zahájení jízdy
puLocationId string 266 79 161 Taxi zóna TLC, ve které se jízda zahájila
puMonth int 12 1 12
puYear int 5 2018 2017
srFlag string 44 1 2 Označuje, jestli byla cesta součástí sdíleného řetězu jízdy nabízeného společností High Volume FHV (například Uber Pool, Lyft Line). V případě sdílených jízd je tato hodnota 1. V případě nesdílených jízd má toto pole hodnotu null. POZNÁMKA: U většiny společností FHV s velkým objemem jsou v průběhu cesty označeny pouze sdílené jízdy, které byly požadovány, a spárovány s jinou žádostí o sdílenou jízdu v průběhu cesty. Společnost Lyft (čísla licencí základen B02510 a B02844) však takto označuje i jízdy, u kterých se požádalo o sdílenou jízdu, ale pro které se nepodařilo najít dalšího spolucestujícího. Záznamy o jízdách z těchto dvou základen s příznakem SR_Flag=1 proto můžou značit BUĎ první jízdu v řetězci sdílené jízdy, NEBO jízdu, u které se požádalo o sdílenou jízdu, ale pro kterou se nepodařilo najít odpovídajícího spolucestujícího. Uživatelé by od společnosti Lyft měli očekávat nadměrný počet úspěšně dokončených sdílených jízd.

Náhled

dispatchBaseNum pickupDateTime dropOffDateTime puLocationId doLocationId srFlag puYear puMonth
B03157 30.6.2019 11:59:57 1.7.2019 12:07:21 264 null null 2019 6
B01667 30.6.2019 11:59:56 1. 7. 2019 12:28:06 264 null null 2019 6
B02849 30.6.2019 11:59:55 1.7.2019 12:14:10 264 null null 2019 6
B02249 30.6.2019 11:59:53 1. 7. 2019 12:15:53 264 null null 2019 6
B00887 30.6.2019 11:59:48 1.7.2019 12:29:29 264 null null 2019 6
B01626 30.6.2019 11:59:45 1.7.2019 12:18:20 264 null null 2019 6
B01259 30.6.2019 11:59:44 1.7.2019 12:03:15 264 null null 2019 6
B01145 30.6.2019 11:59:43 1.7.2019 12:11:15 264 null null 2019 6
B00887 30.6.2019 11:59:42 1.7.2019 12:34:21 264 null null 2019 6
B00821 30.6.2019 11:59:40 1.7.2019 12:02:57 264 null null 2019 6

Přístup k datům

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Další kroky

Prohlédněte si zbývající datové sady v katalogu Open Datasets.