Komisja Nowojorskiej Taksówki & Limuzyny - żółte rekordy przejazdów taksówką

Rekordy dotyczące przejazdów żółtymi taksówkami zawierają pola daty i godziny rozpoczęcia oraz zakończenia kursu, miejsca rozpoczęcia i zakończenia kursu, pokonanej odległości, wyszczególnionych opłat, taryfy, metody płatności oraz liczby pasażerów podanej przez kierowcę.

Uwaga

Firma Microsoft udostępnia zestawy danych Azure Open Datasets w zasadzie "tak jak to jest". Firma Microsoft nie udziela żadnych gwarancji, wyraźnych lub domniemanych, gwarancji ani warunków w odniesieniu do korzystania z zestawów danych. W zakresie dozwolonym na mocy prawa lokalnego firma Microsoft nie ponosi odpowiedzialności za wszelkie szkody lub straty, w tym bezpośrednie, wynikowe, specjalne, pośrednie, przypadkowe lub karne wynikające z korzystania z zestawów danych.

Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.

Wolumin i przechowywanie

Ten zestaw danych jest przechowywany w formacie Parquet. W sumie do 2018 r. istnieje około 1,5B wierszy (50 GB).

Ten zestaw danych zawiera historyczne rekordy z lat 2009–2018. Aby pobrać dane z konkretnego przedziału czasowego, należy użyć ustawień parametrów w zestawie SDK.

Lokalizacja magazynu

Ten zestaw danych jest przechowywany w regionie platformy Azure Wschodnie stany USA. Zalecamy przydzielanie zasobów obliczeniowych w regionie Wschodnie stany USA z uwagi na koligację.

Dodatkowe informacje

Komisja ds. taksówek i limuzyn miasta Nowy Jork (TLC):

Dane zostały zebrane i przekazane komisji nowojorskiej Taxi and Limousine Commission (TLC) przez dostawców technologii autoryzowanych w ramach Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP). Dane dotyczące przejazdów nie zostały utworzone przez TLC i komisja nie gwarantuje rzetelności tych danych.

Wyświetl oryginalną lokalizację zestawu danych i oryginalne warunki użytkowania.

Kolumny

Nazwa Typ danych Unikatowe Wartości (przykład) Opis
doLocationId ciąg 265 161 236 Strefa taksówkowa TLC, w której wyłączono taksometr.
endLat double 961,994 41.366138 40.75
endLon double 1,144,935 -73.137393 -73.9824
Dodatkowych double 877 0.5 1.0 Różne opłaty dodatkowe. Obecnie ta wartość obejmuje tylko opłaty w wysokości 0,50 USD i 1 USD stosowane w godzinach szczytu i w nocy.
fareAmount double 18,935 6.5 4.5 Opłata za czas i odległość według taksometru.
improvementSurcharge ciąg 60 0.3 0 Opłata dodatkowa na fundusz modernizacyjny w wysokości 0,30 USD, naliczana w momencie rozpoczęcia przejazdu. Pobieranie tej opłaty dodatkowej rozpoczęto w roku 2015.
mtaTax double 360 0.5 -0.5 Podatek miejski (MTA) w wysokości 0,50 USD, naliczany automatycznie w zależności od stosowanej taryfy taksometru.
pasażerCount int 64 1 2 Liczba pasażerów w pojeździe. Tę wartość wprowadza kierowca.
typ płatności ciąg 6,282 CSH CRD Kod liczbowy oznaczający metodę płatności za przejazd. 1 = karta kredytowa; 2 = gotówka; 3 = Bez opłat; 4 = Spór; 5 = Nieznany; 6 = Podróż nieważna.
puLocationId ciąg 266 237 161 Strefa taksówkowa TLC, w której włączono taksometr.
puMonth int 12 3 5
okres puYear int 29 2012 2011
rateCodeId int 56 1 2 Kod taryfy stosowanej w momencie zakończenia przejazdu. 1 = stawka standardowa; 2 = JFK; 3 = Newark; 4 = Nassau lub Westchester; 5 = Wynegocjowana taryfa; 6 = Jazda grupowa.
startLat double 833,016 41.366138 40.7741
startLon double 957,428 -73.137393 -73.9821
storeAndFwdFlag ciąg 8 N 0 Ta flaga wskazuje, czy rekord podróży był przechowywany w pamięci pojazdu przed wysłaniem do dostawcy, znany również jako "przechowywanie i przekazywanie", ponieważ pojazd nie miał połączenia z serwerem. Y = przechować i przesyłać dalej; N = nie jest podróżą sklepową i do przodu.
tipAmount double 12,121 1.0 2.0 To pole jest wypełniane automatycznie w przypadku napiwków doliczonych do płatności kartą kredytową. Nie obejmuje napiwków w gotówce.
tollsAmount double 6,634 5.33 4.8 Łączna kwota wszystkich opłat drogowych uiszczonych podczas przejazdu.
totalAmount double 39,707 7.0 7.8 Łączna opłata obciążająca pasażerów. Nie obejmuje napiwków w gotówce.
tpepDropoffDateTime sygnatura czasowa 290,185,010 2010-11-07 01:29:00 2013-11-03 01:22:00 Data i godzina wyłączenia taksometru.
tpepPickupDateTime sygnatura czasowa 289,948,585 2010-11-07 01:00:00 2009-11-01 01:05:00 Data i godzina włączenia taksometru.
tripDistance double 14,003 1.0 0.9 Odległość przejazdu w milach według taksometru.
Vendorid ciąg 7 VTS CMT Kod wskazujący dostawcę danego rekordu w ramach programu TPEP. 1 = Creative Mobile Technologies, LLC; 2 = VeriFone Inc.
Vendorid int 2 2 1 Kod wskazujący dostawcę danego rekordu w ramach programu LPEP. 1 = Creative Mobile Technologies, LLC; 2 = VeriFone Inc.

Wersja zapoznawcza

Vendorid tpepPickupDateTime tpepDropoffDateTime pasażerCount tripDistance puLocationId doLocationId rateCodeId storeAndFwdFlag typ płatności fareAmount Dodatkowych mtaTax improvementSurcharge tipAmount tollsAmount totalAmount okres puYear puMonth
2 24.01.2088 12:25:39 24.01.2088 7:28:25 1 4.05 24 162 1 N 2 14,5 0 0,5 0.3 0 0 15,3 2088 1
2 24.01.2088 12:15:42 24.01.2088 12:19:46 1 0.63 41 166 1 N 2 4.5 0 0,5 0.3 0 0 5.3 2088 1
2 11/4/2084 12:32:24 11.04.2084 12:47:41 1 1,34 238 236 1 N 2 10 0 0,5 0.3 0 0 10,8 2084 11
2 11/4/2084 12:25:53 11/4/2084 12:29:00 1 0.32 238 238 1 N 2 4 0 0,5 0.3 0 0 4.8 2084 11
2 11/4/2084 12:08:33 11/4/2084 12:22:24 PM 1 1.85 236 238 1 N 2 10 0 0,5 0.3 0 0 10,8 2084 11
2 11/4/2084 11:41:35 11/4/2084 11:59:41 AM 1 1.65 68 237 1 N 2 12.5 0 0,5 0.3 0 0 13.3 2084 11
2 11/4/2084 11:27:28 11/4/2084 11:39:52 1 1.07 170 68 1 N 2 9 0 0,5 0.3 0 0 9.8 2084 11
2 11/4/2084 11:19:06 11/4/2084 11:26:44 1 1.3 107 170 1 N 2 7,5 0 0,5 0.3 0 0 8.3 2084 11
2 11/4/2084 11:02:59 11/4/2084 11:15:51 1 1.85 113 137 1 N 2 10 0 0,5 0.3 0 0 10,8 2084 11
2 11/4/2084 10:46:05 11/4/2084 10:50:09 1 0.62 231 231 1 N 2 4.5 0 0,5 0.3 0 0 5.3 2084 11

Dostęp do danych

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser

end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Następne kroki

Wyświetl resztę zestawów danych w katalogu Open Datasets (Otwarte zestawy danych).