NYC Taxi & Limousine Komise - žlutý taxikář záznamy

Záznamy o cestách žlutým taxíkem obsahují pole zachytávající data a časy vyzvednutí a vysazení, místa vyzvednutí a vysazení, ujeté vzdálenosti, jízdné rozdělené na položky, typy sazeb, typy plateb a počty cestujících nahlášené řidičem.

Poznámka:

Microsoft poskytuje datové sady Azure Open Datasets na bázi "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft odmítá veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.

Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.

Objem a uchovávání

Tato datová sada se uchovává ve formátu Parquet. K roku 2018 je celkem přibližně 1,5B řádků (50 GB).

Tato datová sada obsahuje historické záznamy shromážděné mezi lety 2009 a 2018. Pomocí nastavení parametrů v naší sadě SDK můžete načíst data v určitém časovém rozsahu.

Umístění úložiště

Tato datová sada se uchovává v oblasti Azure Východní USA. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti Východní USA.

Další informace

Newyorská komise pro taxi a limuzíny (TLC):

Data shromáždili a newyorské komisi pro taxi a limuzíny (TLC) je poskytli poskytovatelé technologií autorizovaní v rámci programů TPEP a LPEP (Taxicab Passenger Enhancement Program a Livery Passenger Enhancement Program). Data o jízdách nevytvořila TLC a TLC nečinní žádná prohlášení ohledně přesnosti těchto dat.

Zobrazte původní umístění datové sady a původní podmínky použití.

Sloupce

Name Datový typ Jedinečný Values (sample) Popis
doLocationId string 265 161 236 Taxi zóna TLC, ve které se vypnul taxametr
endLat double 961,994 41.366138 40.75
endLon double 1,144,935 -73.137393 -73.9824
Extra double 877 0.5 1.0 Ostatní poplatky a přirážky. V současné době to jsou pouze poplatky za jízdu v dopravní špičce a noční jízdu ve výši 0,50 USD a 1 USD.
fareAmount double 18,935 6.5 4.5 Výše jízdného vypočítaná taxametrem na základě času a vzdálenosti
zlepšení Surcharge string 60 0.3 0 Příplatek 0,30 USD za jízdu z ulice, který se účtuje při nástupu. Tento příplatek se začal vybírat v roce 2015.
mtaTax double 360 0.5 -0.5 Daň MTA ve výši 0,50 USD, která se automaticky připočte na základě naměřené sazby
passengerCount int 64 1 2 Počet cestujících ve vozidle. Tuto hodnotu zadává řidič.
paymentType string 6,282 CSH CRD Číselný kód označující způsob, jakým cestující zaplatil za jízdu. 1 = Platební karta; 2 = Hotovost; 3 = Bez poplatků; 4 = Spor; 5 = Neznámé; 6 = Neplatná cesta.
puLocationId string 266 237 161 Taxi zóna TLC, ve které se zapnul taxametr
puMonth int 12 3 5
puYear int 29 2012 2011
rateCodeId int 56 1 2 Kód konečné sazby použité na konci jízdy. 1= Standardní sazba; 2= JFK; 3= Newark; 4= Nassau nebo Westchester; 5 = vyjednané jízdné; 6 = Skupinová jízda.
startLat double 833,016 41.366138 40.7741
startLon double 957,428 -73.137393 -73.9821
storeAndFwdFlag string 8 N 0 Tento příznak označuje, zda byl záznam o jízdě uložen v paměti vozidla před odesláním dodavateli, označovaný také jako "obchod a přeposlání", protože vozidlo nemělo připojení k serveru. Y = store and forward trip; N= není obchod a přeposlání cesty.
tipAmount double 12,121 1.0 2.0 Do tohoto pole se automaticky doplní spropitné přes platební kartu. Spropitné v hotovosti se nezahrnuje.
tollsAmount double 6,634 5.33 4.8 Celková výše zaplaceného mýtného během jízdy
totalAmount double 39,707 7.0 7.8 Celková částka účtovaná cestujícím. Nezahrnuje spropitné v hotovosti.
tpepDropoffDateTime časové razítko 290,185,010 2010-11-07 01:29:00 2013-11-03 01:22:00 Datum a čas vypnutí taxametru
tpepPickupDateTime časové razítko 289,948,585 2010-11-07 01:00:00 2009-11-01 01:05:00 Datum a čas zapnutí taxametru
tripDistance double 14,003 1.0 0.9 Ujetá vzdálenost v mílích hlášená taxametrem
vendorID string 7 VTS CMT Kód označující poskytovatele TPEP, který je autorem záznamu. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc.
vendorID int 2 2 1 Kód označující poskytovatele LPEP, který je autorem záznamu. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc.

Náhled

vendorID tpepPickupDateTime tpepDropoffDateTime passengerCount tripDistance puLocationId doLocationId rateCodeId storeAndFwdFlag paymentType fareAmount Extra mtaTax zlepšení Surcharge tipAmount tollsAmount totalAmount puYear puMonth
2 24.1.2088 12:25:39 1/24/2088 7:28:25 0 4.05 24 162 0 N 2 14.5 0 0.5 0.3 0 0 15.3 2088 1
2 24.1.2088 12:15:42 24.1.2088 12:19:46 0 0.63 41 166 0 N 2 4.5 0 0.5 0.3 0 0 5.3 2088 1
2 11.4.2084 12:32:24 11.4.2084 12:47:41 0 1.34 238 236 0 N 2 10 0 0.5 0.3 0 0 10.8 2084 11
2 11.4.2084 12:25:53 11.4.2084 12:29:00 0 0.32 238 238 0 N 2 4 0 0.5 0.3 0 0 4.8 2084 11
2 11.4.2084 12:08:33 11.4.2084 12:22:24 0 1.85 236 238 0 N 2 10 0 0.5 0.3 0 0 10.8 2084 11
2 11.4.2084 11:41:35 11.4.2084 11:59:41 0 1.65 68 237 0 N 2 12.5 0 0.5 0.3 0 0 13.3 2084 11
2 11.4.2084 11:27:28 11.4.2084 11:39:52 0 1.07 170 68 0 N 2 9 0 0.5 0.3 0 0 9.8 2084 11
2 11.4.2084 11:19:06 11.4.2084 11:26:44 0 1.3 107 170 0 N 2 7.5 0 0.5 0.3 0 0 8.3 2084 11
2 11.4.2084 11:02:59 11.4.2084 11:15:51 0 1.85 113 137 0 N 2 10 0 0.5 0.3 0 0 10.8 2084 11
2 11.4.2084 10:46:05 11.4.2084 10:50:09 0 0,62 231 231 0 N 2 4.5 0 0.5 0.3 0 0 5.3 2084 11

Přístup k datům

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser

end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Další kroky

Prohlédněte si zbývající datové sady v katalogu Open Datasets.