NYC Taxi & Limousine Commission - zelená taxi výlet záznamy

Záznamy o cestách zeleným taxíkem obsahují pole zachytávající data a časy vyzvednutí a vysazení, místa vyzvednutí a vysazení, ujeté vzdálenosti, jízdné rozdělené na položky, typy sazeb, typy plateb a počty cestujících nahlášené řidičem.

Poznámka

Microsoft poskytuje otevřené datové sady Azure na základě "tak, jak jsou". Microsoft neposkytuje žádné záruky, výslovné ani předpokládané, záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vašimi místními zákony se Microsoft zříká veškeré odpovědnosti za jakékoli škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo trestních, vyplývajících z vašeho používání datových sad.

Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.

Objem a uchovávání

Tato datová sada se uchovává ve formátu Parquet. K roku 2018 je celkem asi 80m řádků (2 GB).

Tato datová sada obsahuje historické záznamy shromážděné mezi lety 2009 a 2018. Pomocí nastavení parametrů v naší sadě SDK můžete načíst data v určitém časovém rozsahu.

Umístění úložiště

Tato datová sada se uchovává v oblasti Azure Východní USA. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti Východní USA.

Další informace

Newyorská komise pro taxi a limuzíny (TLC):

Údaje byly shromážděny a poskytnuty komisi NYC Taxi and Limousine Commission (TLC) poskytovateli technologií autorizovanými v rámci programu Taxicab & Livery Passenger Enhancement Program (TPEP/LPEP). Data o jízdách nevytvořila TLC a TLC nečinní žádná prohlášení ohledně přesnosti těchto dat.

Zobrazte původní umístění datové sady a původní podmínky použití.

Sloupce

Name Datový typ Jedinečná Hodnoty (ukázka) Description
doLocationId řetězec 264 74 42 doLocationID – Taxi zóna TLC, ve které se vypnul taxametr
dropoffLatitude double 109,721 40.7743034362793 40.77431869506836 Zastaralé od verze 2016.07
dropoffLongitude double 75,502 -73.95272827148438 -73.95274353027344 Zastaralé od verze 2016.07
Extra double 202 0.5 1.0 Ostatní poplatky a přirážky. V současné době to jsou pouze poplatky za jízdu v dopravní špičce a noční jízdu ve výši 0,50 USD a 1 USD.
fareAmount double 10,367 6.0 5.5 Výše jízdného vypočítaná taxametrem na základě času a vzdálenosti
improvementSurcharge řetězec 92 0.3 0 Příplatek 0,30 USD za jízdu z ulice, který se účtuje při nástupu. Tento příplatek se začal vybírat v roce 2015.
lpepDropoffDatetime časové razítko 58,100,713 2016-05-22 00:00:00 2016-05-09 00:00:00 Datum a čas vypnutí taxametru
lpepPickupDatetime časové razítko 58,157,349 2013-10-22 12:40:36 2014-08-09 15:54:25 Datum a čas zapnutí taxametru
mtaTax double 34 0.5 -0.5 Daň MTA ve výši 0,50 USD, která se automaticky připočte na základě naměřené sazby
passengerCount int 10 1 2 Počet cestujících ve vozidle. Tuto hodnotu zadává řidič.
paymentType int 5 2 1 Číselný kód označující způsob, jakým cestující zaplatil za jízdu. 1= Platební karta 2= Hotovost 3 = Bez poplatku 4 = Spor 5 = Neznámý 6 = Neplatný výlet
pickupLatitude double 95,110 40.721351623535156 40.721336364746094 Zastaralé od verze 2016.07
pickupLongitude double 55,722 -73.84429931640625 -73.84429168701172 Zastaralé od verze 2016.07
puLocationId řetězec 264 74 41 Taxi zóna TLC, ve které se zapnul taxametr
Měsíc po měsíci int 12 3 5
v roce 2019 int 14 2015 2016
rateCodeID int 7 1 5 Kód konečné sazby použité na konci jízdy. 1 = Standardní sazba 2 = JFK 3 = Newark 4 = Nassau nebo Westchester 5 = Vyjednané jízdné 6 = Skupinová jízda
storeAndFwdFlag řetězec 2 N Y Tento příznak označuje, jestli byl záznam o jízdě uložen v paměti vozidla před odesláním dodavateli, označovaný také jako "uložit a přeposlat", protože vozidlo nemělo připojení k serveru. Y = store and forward trip N = not a store and forward trip
tipAmount double 6,206 1.0 2.0 Výše spropitného – Do tohoto pole se automaticky doplní spropitné přes platební kartu. Spropitné v hotovosti se nezahrnuje.
tollsAmount double 2,150 5.54 5.76 Celková výše zaplaceného mýtného během jízdy
totalAmount double 20,188 7.8 6.8 Celková částka účtovaná cestujícím. Nezahrnuje spropitné v hotovosti.
tripDistance double 7,060 0.9 1.0 Ujetá vzdálenost v mílích hlášená taxametrem
typ cesty int 3 1 2 Kód, který označuje, jestli se jednalo o jízdu z ulice nebo objednanou jízdu přes dispečink, a který se přiřazuje automaticky na základě naměřené sazby, ale který může řidič upravit. 1= Ulice-krupobití 2 = dispečink
vendorID int 2 2 1 Kód označující poskytovatele LPEP, který je autorem záznamu. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc.

Preview

vendorID lpepPickupDatetime lpepDropoffDatetime passengerCount tripDistance identifikátor puLocationId doLocationId rateCodeID storeAndFwdFlag paymentType fareAmount Extra mtaTax vylepšeníSurcharge tipAmount tollsAmount totalAmount typ cesty v roce 2019 Měsíc po měsíci
2 24. 6. 2081 17:40:37 24. 6. 2081 18:42:47 1 16.95 93 117 1 N 1 52 1 0,5 0.3 0 2.16 55.96 1 2081 6
2 28.11.2030 12:19:29 28.11.2030 0:25:37 1 1.08 42 247 1 N 2 6.5 0 0,5 0.3 0 0 7.3 1 2030 11
2 28.11.2030 0:14:50 28.11.2030 0:14:54 1 0.03 42 42 5 N 2 5 0 0 0 0 0 5 2 2030 11
2 14.11.2020 11:38:07 14.11.2020 11:42:22 1 0.63 129 129 1 N 2 4.5 1 0,5 0.3 0 0 6.3 1 2020 11
2 14.11.2020 9:55:36 14. 11. 2020 10:04:54 1 3.8 82 138 1 N 2 12.5 1 0,5 0.3 0 0 14.3 1 2020 11
2 26. 8. 2019 16:18:37 26. 8. 2019 16:19:35 1 0 264 264 1 N 2 1 0 0,5 0.3 0 0 1.8 1 2019 8
2 1. 7. 2019 8:28:33 1. 7. 2019 8:32:33 1 0.71 7 7 1 N 1 5 0 0,5 0.3 1.74 0 7.54 1 2019 7
2 1. 7. 2019 0:04:53 1.7.2019 0:21:56 1 2.71 223 145 1 N 2 13 0,5 0,5 0.3 0 0 14.3 1 2019 7
2 1. 7. 2019 0:04:11 1. 7. 2019 0:21:15 1 3.14 166 142 1 N 2 14.5 0,5 0,5 0.3 0 0 18.55 1 2019 7
2 1. 7. 2019 0:03:37 1. 7. 2019 0:09:27 1 0,78 74 74 1 N 1 6 0,5 0,5 0.3 1.46 0 8.76 1 2019 7

Přístup k datům

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

# Display data statistic information
display(nyc_tlc_df, summary = True)

Další kroky

Zobrazte zbývající datové sady v katalogu Open Datasets.