NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) rekordy podróży

Rekordy przejazdów pojazdami na wynajem obejmują pola zawierające numer licencji centrali oraz datę i godzinę odebrania pasażera, jak również identyfikator lokalizacji strefy taksówkowej (plik kształtu poniżej). Te rekordy są generowane na podstawie danych przesyłanych do systemu FHV Trip Record przez centrale.

Uwaga

Firma Microsoft udostępnia zestawy danych Platformy Azure open na zasadzie "tak, jak to jest". Firma Microsoft nie udziela żadnych gwarancji, wyraźnych lub domniemanych, gwarancji ani warunków w odniesieniu do korzystania z zestawów danych. W zakresie dozwolonym zgodnie z prawem lokalnym firma Microsoft nie ponosi odpowiedzialności za wszelkie szkody lub straty, w tym bezpośrednie, wtórne, specjalne, pośrednie, przypadkowe lub karne wynikające z korzystania z zestawów danych.

Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.

Wolumin i przechowywanie

Ten zestaw danych jest przechowywany w formacie Parquet. Od 2018 r. istnieje około 500 mln wierszy (5 GB).

Ten zestaw danych zawiera historyczne rekordy z lat 2009–2018. Aby pobrać dane z konkretnego przedziału czasowego, należy użyć ustawień parametrów w zestawie SDK.

Lokalizacja usługi Storage

Ten zestaw danych jest przechowywany w regionie platformy Azure Wschodnie stany USA. Zalecamy przydzielanie zasobów obliczeniowych w regionie Wschodnie stany USA z uwagi na koligację.

Dodatkowe informacje

Komisja ds. taksówek i limuzyn miasta Nowy Jork (TLC):

Dane zostały zebrane i dostarczone do TLC przez dostawców technologii uczestniczących w programach TPEP/LPEP (Taxicab & Livery Passenger Enhancement Program). Dane dotyczące przejazdów nie zostały utworzone przez TLC i komisja nie gwarantuje rzetelności tych danych.

Wyświetl oryginalną lokalizację zestawu danych i oryginalne warunki użytkowania.

Kolumny

Nazwisko Typ danych Unikatowe Wartości (przykładowe) opis
dispatchBaseNum string 1,144 B02510 B02764 Numer licencji TLC bazy, z której wysłano przejazd
doLocationId string 267 265 132 Strefa taksówkowa TLC, w której zakończył się przejazd.
dropOffDateTime timestamp 57,110,352 2017-07-31 23:59:00 2017-10-15 00:44:34 Data i godzina zakończenia przejazdu przez pasażera.
pickupDateTime timestamp 111,270,396 2016-08-16 00:00:00 2016-08-17 00:00:00 Data i godzina rozpoczęcia przejazdu przez pasażera.
puLocationId string 266 79 161 Strefa taksówkowa TLC, w której rozpoczął się przejazd.
puMonth int 12 1 12
puYear int 5 2018 2017
srFlag string 44 1 2 Wskazuje, czy podróż była częścią udostępnionego łańcucha przejazdów oferowanego przez firmę o dużej wielkości FHV (na przykład Uber Pool, Lyft Line). W przypadku wspólnych przejazdów to pole zawiera wartość 1. W przypadku przejazdów, które nie były wspólne, to pole ma wartość null. UWAGA: W przypadku większości firm o dużej wielkości FHV zażądano tylko przejazdów udostępnionych, które zostały żądane i dopasowane do innego żądania wspólnej jazdy w trakcie podróży są oflagowane. Jednak firma Lyft (numery licencji bazy: B02510 i B02844) oznacza w ten sposób także zamówione przejazdy wspólne, do których nie udało się dopasować zamówienia innego pasażera — a zatem rekordy przejazdów z oznaczeniem SR_Flag=1 z tych dwóch baz mogą oznaczać pierwszy przejazd w ramach ciągu wspólnych przejazdów LUB przejazd, dla którego zamówiono przejazd wspólny, ale nie dopasowano innego pasażera. Użytkownicy powinni uwzględnić potencjalne przeszacowanie liczby przejazdów wspólnych zrealizowanych przez firmę Lyft.

Podgląd

dispatchBaseNum pickupDateTime dropOffDateTime puLocationId doLocationId srFlag puYear puMonth
B03157 30.06.2019 11:59:57 7/1/2019 12:07:21 264 null null 2019 6
B01667 30.06.2019 11:59:56 7/1/2019 12:28:06 264 null null 2019 6
B02849 30.06.2019 11:59:55 7/1/2019 12:14:10 264 null null 2019 6
B02249 30.06.2019 11:59:53 7/1/2019 12:15:53 264 null null 2019 6
B00887 30.06.2019 11:59:48 7/1/2019 12:29:29 AM 264 null null 2019 6
B01626 30.06.2019 11:59:45 7/1/2019 12:18:20 264 null null 2019 6
B01259 30.06.2019 11:59:44 7/1/2019 12:03:15 264 null null 2019 6
B01145 30.06.2019 11:59:43 7/1/2019 12:11:15 264 null null 2019 6
B00887 30.06.2019 11:59:42 7/1/2019 12:34:21 264 null null 2019 6
B00821 30.06.2019 11:59:40 7/1/2019 12:02:57 264 null null 2019 6

Dostęp do danych

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Następne kroki

Wyświetl pozostałe zestawy danych w katalogu Open Datasets (Otwieranie zestawów danych).