NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) reisrecords

De records met FHV-ritten (For-Hire Vehicle) bevatten velden waarin het basislicentienummer van de centrale, de afhaaldatum en -tijd, en de locatie-id van de taxizone worden vastgelegd (vormbestand hieronder). Deze records worden gegenereerd op basis van de door centrales ingediende FHV-ritrecords.

Notitie

Microsoft biedt Azure Open Datasets op basis van 'zoals is'. Microsoft geeft geen garanties, uitdrukkelijk of impliciet, garanties of voorwaarden met betrekking tot uw gebruik van de gegevenssets. Voor zover toegestaan volgens uw lokale wetgeving, wijst Microsoft alle aansprakelijkheid af voor eventuele schade of verliezen, waaronder directe, gevolgschade, speciale, indirecte, incidentele of strafbare gegevenssets, die het gevolg zijn van uw gebruik van de gegevenssets.

Deze gegevensset wordt geleverd onder de oorspronkelijke voorwaarden dat Microsoft de brongegevens heeft ontvangen. De gegevensset kan gegevens bevatten die afkomstig zijn van Microsoft.

Volume en retentie

Deze gegevensset wordt opgeslagen in de Parquet-indeling. Er zijn vanaf 2018 ongeveer 500 miljoen rijen (5 GB).

Deze gegevensset bevat historische records die van 2009 tot en met 2018 heden zijn verzameld. U kunt in onze SDK gebruikmaken van parameterinstellingen om gegevens op te halen binnen een specifiek tijdsbereik.

Opslaglocatie

Deze gegevensset wordt opgeslagen in de Azure-regio US - oost. Het wordt aanbevolen om rekenresources in US - oost toe te wijzen voor affiniteit.

Aanvullende informatie

NYC Taxi and Limousine Commission (TLC):

De gegevens die zijn verzameld en aan de NYC Taxi and Limousine Commission (TLC) zijn gegevens door technologiepartners die bevoegd zijn onder de Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP). De ritgegevens zijn niet door TLC gemaakt en TLC geeft geen verklaring over de nauwkeurigheid van deze gegevens.

Bekijk de oorspronkelijke locatie van de gegevensset en de oorspronkelijke gebruiksvoorwaarden.

Kolommen

Naam Gegevenstype Uniek Waarden (voorbeeld) Beschrijving
dispatchBaseNum tekenreeks 1,144 B02510 B02764 Het TLC-basislicentienummer van de centrale van waaruit de rit is verstuurd
doLocationId tekenreeks 267 265 132 De TLC-taxizone waarin de rit is beƫindigd.
dropOffDateTime timestamp 57,110,352 2017-07-31 23:59:00 2017-10-15 00:44:34 De datum en tijd waarop de reizigers moeten worden afgezet.
pickupDateTime timestamp 111,270,396 2016-08-16 00:00:00 2016-08-17 00:00:00 De datum en tijd waarop de reizigers moeten worden opgehaald.
puLocationId tekenreeks 266 79 161 De TLC-taxizone waarin de rit is gestart.
puMonth int 12 1 12
puYear int 5 2018 2017
srFlag tekenreeks 44 1 2 Geeft aan of de reis deel uitmaakte van een gedeelde ritketen die wordt aangeboden door een high volume FHV-bedrijf (bijvoorbeeld Uber Pool, Lyft Line). Voor carpoolritten is de waarde 1. Voor andere ritten is de waarde in dit veld Null. OPMERKING: Voor de meeste grote VOLUME FHV-bedrijven worden alleen gedeelde ritten gemarkeerd die zijn aangevraagd en overeenkomen met een andere aanvraag voor gedeelde ritten in de loop van de reis. Lyft (basislicentienummers B02510 + B02844) markeert ook ritten waarvoor een carpoolrit is aangevraagd, maar er geen match is gevonden voor een andere passagier om de rit mee te delen. Rittenrecords met SR_Flag=1 van die twee bases kunnen daarom het volgende aangeven: OF een eerste rit in een carpoolrittenketen OF een rit waarvoor een carpoolrit is aangevraagd maar waarvoor nooit een match is gevonden. Gebruikers moeten een te hoge berekening verwachten van geslaagde carpoolritten die door Lyft zijn uitgevoerd.

Preview

dispatchBaseNum pickupDateTime dropOffDateTime puLocationId doLocationId srFlag puYear puMonth
B03157 30-6-2019 11:59:57 pm 1-7-2019 12:07:21 uur 264 Nul Nul 2019 6
B01667 30-6-2019 11:59:56 uur 1-7-2019 12:28:06 uur 264 Nul Nul 2019 6
B02849 30-6-2019 11:59:55 uur 1-7-2019 12:14:10 uur 264 Nul Nul 2019 6
B02249 30-6-2019 11:59:53 pm 1-7-2019 12:15:53 uur 264 Nul Nul 2019 6
B00887 30-6-2019 11:59:48 pm 1-7-2019 12:29:29 uur 264 Nul Nul 2019 6
B01626 30-6-2019 11:59:45 uur 1-7-2019 12:18:20 uur 264 Nul Nul 2019 6
B01259 30-6-2019 11:59:44 uur 1-7-2019 12:03:15 uur 264 Nul Nul 2019 6
B01145 30-6-2019 11:59:43 pm 1-7-2019 12:11:15 uur 264 Nul Nul 2019 6
B00887 30-6-2019 11:59:42 pm 1-7-2019 12:34:21 uur 264 Nul Nul 2019 6
B00821 30-6-2019 11:59:40 uur 1-7-2019 12:02:57 uur 264 Nul Nul 2019 6

Toegang tot gegevens

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Volgende stappen

Bekijk de rest van de gegevenssets in de catalogus Open Datasets.