NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) reisrecords
De records met FHV-ritten (For-Hire Vehicle) bevatten velden waarin het basislicentienummer van de centrale, de afhaaldatum en -tijd, en de locatie-id van de taxizone worden vastgelegd (vormbestand hieronder). Deze records worden gegenereerd op basis van de door centrales ingediende FHV-ritrecords.
Notitie
Microsoft biedt Azure Open Datasets op basis van 'zoals is'. Microsoft geeft geen garanties, uitdrukkelijk of impliciet, garanties of voorwaarden met betrekking tot uw gebruik van de gegevenssets. Voor zover toegestaan volgens uw lokale wetgeving, wijst Microsoft alle aansprakelijkheid af voor eventuele schade of verliezen, waaronder directe, gevolgschade, speciale, indirecte, incidentele of strafbare gegevenssets, die het gevolg zijn van uw gebruik van de gegevenssets.
Deze gegevensset wordt geleverd onder de oorspronkelijke voorwaarden dat Microsoft de brongegevens heeft ontvangen. De gegevensset kan gegevens bevatten die afkomstig zijn van Microsoft.
Volume en retentie
Deze gegevensset wordt opgeslagen in de Parquet-indeling. Er zijn vanaf 2018 ongeveer 500 miljoen rijen (5 GB).
Deze gegevensset bevat historische records die van 2009 tot en met 2018 heden zijn verzameld. U kunt in onze SDK gebruikmaken van parameterinstellingen om gegevens op te halen binnen een specifiek tijdsbereik.
Opslaglocatie
Deze gegevensset wordt opgeslagen in de Azure-regio US - oost. Het wordt aanbevolen om rekenresources in US - oost toe te wijzen voor affiniteit.
Aanvullende informatie
NYC Taxi and Limousine Commission (TLC):
De gegevens die zijn verzameld en aan de NYC Taxi and Limousine Commission (TLC) zijn gegevens door technologiepartners die bevoegd zijn onder de Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP). De ritgegevens zijn niet door TLC gemaakt en TLC geeft geen verklaring over de nauwkeurigheid van deze gegevens.
Bekijk de oorspronkelijke locatie van de gegevensset en de oorspronkelijke gebruiksvoorwaarden.
Kolommen
Naam | Gegevenstype | Uniek | Waarden (voorbeeld) | Beschrijving |
---|---|---|---|---|
dispatchBaseNum | tekenreeks | 1,144 | B02510 B02764 | Het TLC-basislicentienummer van de centrale van waaruit de rit is verstuurd |
doLocationId | tekenreeks | 267 | 265 132 | De TLC-taxizone waarin de rit is beƫindigd. |
dropOffDateTime | timestamp | 57,110,352 | 2017-07-31 23:59:00 2017-10-15 00:44:34 | De datum en tijd waarop de reizigers moeten worden afgezet. |
pickupDateTime | timestamp | 111,270,396 | 2016-08-16 00:00:00 2016-08-17 00:00:00 | De datum en tijd waarop de reizigers moeten worden opgehaald. |
puLocationId | tekenreeks | 266 | 79 161 | De TLC-taxizone waarin de rit is gestart. |
puMonth | int | 12 | 1 12 | |
puYear | int | 5 | 2018 2017 | |
srFlag | tekenreeks | 44 | 1 2 | Geeft aan of de reis deel uitmaakte van een gedeelde ritketen die wordt aangeboden door een high volume FHV-bedrijf (bijvoorbeeld Uber Pool, Lyft Line). Voor carpoolritten is de waarde 1. Voor andere ritten is de waarde in dit veld Null. OPMERKING: Voor de meeste grote VOLUME FHV-bedrijven worden alleen gedeelde ritten gemarkeerd die zijn aangevraagd en overeenkomen met een andere aanvraag voor gedeelde ritten in de loop van de reis. Lyft (basislicentienummers B02510 + B02844) markeert ook ritten waarvoor een carpoolrit is aangevraagd, maar er geen match is gevonden voor een andere passagier om de rit mee te delen. Rittenrecords met SR_Flag=1 van die twee bases kunnen daarom het volgende aangeven: OF een eerste rit in een carpoolrittenketen OF een rit waarvoor een carpoolrit is aangevraagd maar waarvoor nooit een match is gevonden. Gebruikers moeten een te hoge berekening verwachten van geslaagde carpoolritten die door Lyft zijn uitgevoerd. |
Preview uitvoeren
dispatchBaseNum | pickupDateTime | dropOffDateTime | puLocationId | doLocationId | srFlag | puYear | puMonth |
---|---|---|---|---|---|---|---|
B03157 | 30-6-2019 11:59:57 pm | 1-7-2019 12:07:21 uur | 264 | Nul | Nul | 2019 | 6 |
B01667 | 30-6-2019 11:59:56 uur | 1-7-2019 12:28:06 uur | 264 | Nul | Nul | 2019 | 6 |
B02849 | 30-6-2019 11:59:55 uur | 1-7-2019 12:14:10 uur | 264 | Nul | Nul | 2019 | 6 |
B02249 | 30-6-2019 11:59:53 pm | 1-7-2019 12:15:53 uur | 264 | Nul | Nul | 2019 | 6 |
B00887 | 30-6-2019 11:59:48 pm | 1-7-2019 12:29:29 uur | 264 | Nul | Nul | 2019 | 6 |
B01626 | 30-6-2019 11:59:45 uur | 1-7-2019 12:18:20 uur | 264 | Nul | Nul | 2019 | 6 |
B01259 | 30-6-2019 11:59:44 uur | 1-7-2019 12:03:15 uur | 264 | Nul | Nul | 2019 | 6 |
B01145 | 30-6-2019 11:59:43 pm | 1-7-2019 12:11:15 uur | 264 | Nul | Nul | 2019 | 6 |
B00887 | 30-6-2019 11:59:42 pm | 1-7-2019 12:34:21 uur | 264 | Nul | Nul | 2019 | 6 |
B00821 | 30-6-2019 11:59:40 uur | 1-7-2019 12:02:57 uur | 264 | Nul | Nul | 2019 | 6 |
Toegang tot gegevens
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Volgende stappen
Bekijk de rest van de gegevenssets in de catalogus Open Datasets.