NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) rekordy podróży

Rekordy przejazdów pojazdami na wynajem obejmują pola zawierające numer licencji centrali oraz datę i godzinę odebrania pasażera, jak również identyfikator lokalizacji strefy taksówkowej (plik kształtu poniżej). Te rekordy są generowane na podstawie danych przesyłanych do systemu FHV Trip Record przez centrale.

Uwaga

Firma Microsoft udostępnia zestawy danych Platformy Azure open na zasadzie "jak to jest". Firma Microsoft nie udziela żadnych gwarancji, wyraźnych ani domniemanych, gwarancji ani warunków dotyczących korzystania z zestawów danych. W zakresie dozwolonym zgodnie z prawem lokalnym firma Microsoft nie ponosi odpowiedzialności za wszelkie szkody lub straty, w tym bezpośrednie, wynikowe, specjalne, pośrednie, przypadkowe lub karne wynikające z korzystania z zestawów danych.

Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.

Ilość i przechowywanie

Ten zestaw danych jest przechowywany w formacie Parquet. Od 2018 r. istnieje około 500 mln wierszy (5 GB).

Ten zestaw danych zawiera historyczne rekordy z lat 2009–2018. Aby pobrać dane z konkretnego przedziału czasowego, należy użyć ustawień parametrów w zestawie SDK.

Lokalizacja magazynu

Ten zestaw danych jest przechowywany w regionie platformy Azure Wschodnie stany USA. Zalecamy przydzielanie zasobów obliczeniowych w regionie Wschodnie stany USA z uwagi na koligację.

Dodatkowe informacje

Komisja ds. taksówek i limuzyn miasta Nowy Jork (TLC):

Dane zostały zebrane i przekazane Komisji Taksówki i Limuzyny NYC (TLC) przez dostawców technologii upoważnionych w ramach Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP). Dane dotyczące przejazdów nie zostały utworzone przez TLC i komisja nie gwarantuje rzetelności tych danych.

Wyświetl oryginalną lokalizację zestawu danych i oryginalne warunki użytkowania.

Kolumny

Nazwa Typ danych Unikatowe Wartości (przykład) Opis
dispatchBaseNum ciąg 1,144 B02510 B02764 Numer licencji TLC bazy, z której wysłano przejazd
doLocationId ciąg 267 265 132 Strefa taksówkowa TLC, w której zakończył się przejazd.
dropOffDateTime sygnatura czasowa 57,110,352 2017-07-31 23:59:00 2017-10-15 00:44:34 Data i godzina zakończenia przejazdu przez pasażera.
pickupDateTime sygnatura czasowa 111,270,396 2016-08-16 00:00:00 2016-08-17 00:00:00 Data i godzina rozpoczęcia przejazdu przez pasażera.
puLocationId ciąg 266 79 161 Strefa taksówkowa TLC, w której rozpoczął się przejazd.
puMonth int 12 1 12
puYear int 5 2018 2017
srFlag ciąg 44 1 2 Wskazuje, czy podróż była częścią udostępnionego łańcucha przejazdów oferowanego przez firmę High Volume FHV (na przykład Uber Pool, Lyft Line). W przypadku wspólnych przejazdów to pole zawiera wartość 1. W przypadku przejazdów, które nie były wspólne, to pole ma wartość null. UWAGA: W przypadku większości masowych operatorów przewozów pasażerskich oznaczone tą flagą są tylko wspólne przejazdy, które zostały zamówione ORAZ dopasowane do innego zamówienia wspólnego przejazdu w czasie trwania podróży. Jednak firma Lyft (numery licencji bazy: B02510 i B02844) oznacza w ten sposób także zamówione przejazdy wspólne, do których nie udało się dopasować zamówienia innego pasażera — a zatem rekordy przejazdów z oznaczeniem SR_Flag=1 z tych dwóch baz mogą oznaczać pierwszy przejazd w ramach ciągu wspólnych przejazdów LUB przejazd, dla którego zamówiono przejazd wspólny, ale nie dopasowano innego pasażera. Użytkownicy powinni uwzględnić potencjalne przeszacowanie liczby przejazdów wspólnych zrealizowanych przez firmę Lyft.

Wersja zapoznawcza

dispatchBaseNum pickupDateTime dropOffDateTime puLocationId doLocationId srFlag puYear puMonth
B03157 6.30.2019 11:59:57 7/1/2019 12:07:21 264 null null 2019 6
B01667 6.30.2019 11:59:56 7/1/2019 12:28:06 264 null null 2019 6
B02849 6.30.2019 11:59:55 7/1/2019 12:14:10 264 null null 2019 6
B02249 6.30.2019 11:59:53 7/1/2019 12:15:53 264 null null 2019 6
B00887 6.30.2019 11:59:48 7/1/2019 12:29:29 264 null null 2019 6
B01626 6.30.2019 11:59:45 7/1/2019 12:18:20 264 null null 2019 6
B01259 6.30.2019 11:59:44 7/1/2019 12:03:15 264 null null 2019 6
B01145 6.30.2019 11:59:43 7/1/2019 12:11:15 264 null null 2019 6
B00887 30.06.2019 11:59:42 7/1/2019 12:34:21 264 null null 2019 6
B00821 6.30.2019 11:59:40 7/1/2019 12:02:57 264 null null 2019 6

Dostęp do danych

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Następne kroki

Wyświetl resztę zestawów danych w katalogu Open Datasets (Otwarte zestawy danych).