NYC Taxi & Limousine Commission - žluté taxi výlety záznamy
Záznamy o cestách žlutým taxíkem obsahují pole zachytávající data a časy vyzvednutí a vysazení, místa vyzvednutí a vysazení, ujeté vzdálenosti, jízdné rozdělené na položky, typy sazeb, typy plateb a počty cestujících nahlášené řidičem.
Poznámka
Microsoft poskytuje otevřené datové sady Azure na základě "tak, jak jsou". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané, záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vašimi místními zákony se společnost Microsoft zříká veškeré odpovědnosti za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo trestních, vyplývajících z vašeho používání datových sad.
Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.
Objem a uchovávání
Tato datová sada se uchovává ve formátu Parquet. K roku 2018 je celkem asi 1,5B řádků (50 GB).
Tato datová sada obsahuje historické záznamy shromážděné mezi lety 2009 a 2018. Pomocí nastavení parametrů v naší sadě SDK můžete načíst data v určitém časovém rozsahu.
Umístění úložiště
Tato datová sada se uchovává v oblasti Azure Východní USA. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti Východní USA.
Další informace
Newyorská komise pro taxi a limuzíny (TLC):
Údaje byly shromážděny a poskytnuty komisi NYC Taxi and Limousine Commission (TLC) poskytovateli technologií autorizovanými v rámci programu Taxicab & Livery Passenger Enhancement Program (TPEP/LPEP). Data o jízdách nevytvořila TLC a TLC nečinní žádná prohlášení ohledně přesnosti těchto dat.
Zobrazte původní umístění datové sady a původní podmínky použití.
Sloupce
Name | Datový typ | Jedinečná | Hodnoty (ukázka) | Popis |
---|---|---|---|---|
doLocationId | řetězec | 265 | 161 236 | Taxi zóna TLC, ve které se vypnul taxametr |
endLat | double | 961,994 | 41.366138 40.75 | |
endLon | double | 1,144,935 | -73.137393 -73.9824 | |
Extra | double | 877 | 0.5 1.0 | Ostatní poplatky a přirážky. V současné době to jsou pouze poplatky za jízdu v dopravní špičce a noční jízdu ve výši 0,50 USD a 1 USD. |
fareAmount | double | 18,935 | 6.5 4.5 | Výše jízdného vypočítaná taxametrem na základě času a vzdálenosti |
improvementSurcharge | řetězec | 60 | 0.3 0 | Příplatek 0,30 USD za jízdu z ulice, který se účtuje při nástupu. Tento příplatek se začal vybírat v roce 2015. |
mtaTax | double | 360 | 0.5 -0.5 | Daň MTA ve výši 0,50 USD, která se automaticky připočte na základě naměřené sazby |
passengerCount | int | 64 | 1 2 | Počet cestujících ve vozidle. Tuto hodnotu zadává řidič. |
paymentType | řetězec | 6,282 | CSH CRD | Číselný kód označující způsob, jakým cestující zaplatil za jízdu. 1= Platební karta; 2 = hotovost; 3 = Bez poplatku; 4= Spor; 5= Neznámé; 6 = Neplatná cesta. |
puLocationId | řetězec | 266 | 237 161 | Taxi zóna TLC, ve které se zapnul taxametr |
puMonth | int | 12 | 3 5 | |
PuYear | int | 29 | 2012 2011 | |
rateCodeId | int | 56 | 1 2 | Kód konečné sazby použité na konci jízdy. 1 = standardní sazba; 2= JFK; 3= Newark; 4= Nassau nebo Westchester; 5 = vyjednané jízdné; 6 = Skupinová jízda. |
startLat | double | 833,016 | 41.366138 40.7741 | |
startLon | double | 957,428 | -73.137393 -73.9821 | |
storeAndFwdFlag | řetězec | 8 | N 0 | Tento příznak označuje, jestli byl záznam o jízdě uložen v paměti vozidla před odesláním dodavateli, označovaný také jako "store and forward", protože vozidlo nemělo připojení k serveru. Y = store a forward trip; N = není cesta do obchodu a dopředná cesta. |
tipAmount | double | 12,121 | 1.0 2.0 | Do tohoto pole se automaticky doplní spropitné přes platební kartu. Spropitné v hotovosti se nezahrnuje. |
tollsAmount | double | 6,634 | 5.33 4.8 | Celková výše zaplaceného mýtného během jízdy |
totalAmount | double | 39,707 | 7.0 7.8 | Celková částka účtovaná cestujícím. Nezahrnuje spropitné v hotovosti. |
tpepDropoffDateTime | časové razítko | 290,185,010 | 2010-11-07 01:29:00 2013-11-03 01:22:00 | Datum a čas vypnutí taxametru |
tpepPickupDateTime | časové razítko | 289,948,585 | 2010-11-07 01:00:00 2009-11-01 01:05:00 | Datum a čas zapnutí taxametru |
tripDistance | double | 14,003 | 1.0 0.9 | Ujetá vzdálenost v mílích hlášená taxametrem |
vendorID | řetězec | 7 | VTS CMT | Kód označující poskytovatele TPEP, který je autorem záznamu. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
vendorID | int | 2 | 2 1 | Kód označující poskytovatele LPEP, který je autorem záznamu. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
Preview
vendorID | tpepPickupDateTime | tpepDropoffDateTime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeId | storeAndFwdFlag | paymentType | fareAmount | Extra | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | PuYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 24.1.2088 0:25:39 | 24.1.2088 7:28:25 | 1 | 4.05 | 24 | 162 | 1 | N | 2 | 14.5 | 0 | 0,5 | 0.3 | 0 | 0 | 15.3 | 2088 | 1 |
2 | 24.1.2088 0:15:42 | 24.1.2088 0:19:46 | 1 | 0.63 | 41 | 166 | 1 | N | 2 | 4.5 | 0 | 0,5 | 0.3 | 0 | 0 | 5.3 | 2088 | 1 |
2 | 4.11.2084 12:32:24 | 4.11.2084 12:47:41 | 1 | 1,34 | 238 | 236 | 1 | N | 2 | 10 | 0 | 0,5 | 0.3 | 0 | 0 | 10,8 | 2084 | 11 |
2 | 4.11.2084 12:25:53 | 4.11.2084 12:29:00 | 1 | 0.32 | 238 | 238 | 1 | N | 2 | 4 | 0 | 0,5 | 0.3 | 0 | 0 | 4.8 | 2084 | 11 |
2 | 4.11.2084 12:08:33 | 4.11.2084 12:22:24 | 1 | 1.85 | 236 | 238 | 1 | N | 2 | 10 | 0 | 0,5 | 0.3 | 0 | 0 | 10,8 | 2084 | 11 |
2 | 4.11.2084 11:41:35 | 4.11.2084 11:59:41 | 1 | 1.65 | 68 | 237 | 1 | N | 2 | 12.5 | 0 | 0,5 | 0.3 | 0 | 0 | 13.3 | 2084 | 11 |
2 | 4.11.2084 11:27:28 | 4.11.2084 11:39:52 | 1 | 1.07 | 170 | 68 | 1 | N | 2 | 9 | 0 | 0,5 | 0.3 | 0 | 0 | 9.8 | 2084 | 11 |
2 | 4.11.2084 11:19:06 | 4.11.2084 11:26:44 | 1 | 1.3 | 107 | 170 | 1 | N | 2 | 7,5 | 0 | 0,5 | 0.3 | 0 | 0 | 8.3 | 2084 | 11 |
2 | 4.11.2084 11:02:59 | 4.11.2084 11:15:51 | 1 | 1.85 | 113 | 137 | 1 | N | 2 | 10 | 0 | 0,5 | 0.3 | 0 | 0 | 10,8 | 2084 | 11 |
2 | 4.11.2084 10:46:05 | 4.11.2084 10:50:09 | 1 | 0.62 | 231 | 231 | 1 | N | 2 | 4.5 | 0 | 0,5 | 0.3 | 0 | 0 | 5.3 | 2084 | 11 |
Přístup k datům
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Další kroky
Zobrazte zbývající datové sady v katalogu Open Datasets.