Record relativi alle corse di NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV)

I record delle corse FHV (For-Hire Vehicle) includono i campi che indicano il numero di licenza della base che gestisce la chiamata, la data di prelevamento, l'ora e l'ID posizione dell'area taxi (file delle aree disponibili sotto). Questi record sono generati dagli invii dei record delle corse FHV effettuati dalle basi.

Nota

Microsoft fornisce i set di dati aperti di Azure "così come sono". Microsoft non fornisce alcuna garanzia o condizione, espressa o implicita, in merito all'utilizzo dei set di dati. Nella misura massima consentita dalle leggi locali, Microsoft non riconosce alcuna responsabilità relativamente a danni o perdite commerciali, inclusi i danni diretti, consequenziali, speciali, indiretti, incidentali o punitivi derivanti dall'uso dei set di dati da parte dell'utente.

Questo set di dati viene fornito in conformità con le condizioni originali in base alle quali Microsoft ha ricevuto i dati di origine. Il set di dati potrebbe includere dati provenienti da Microsoft.

Volume e conservazione

Il set di dati viene archiviato nel formato Parquet. Ci sono circa 500M righe (5 GB) a partire dal 2018.

Questo set di dati include record cronologici accumulati dal 2009 al 2018. Puoi usare le impostazioni dei parametri nell'SDK per recuperare i dati entro un intervallo di tempo specifico.

Posizione di archiviazione

Questo set di dati è archiviato nell'area Stati Uniti orientali di Azure. L'allocazione delle risorse di calcolo nell'area Stati Uniti orientali è consigliata per motivi di affinità.

Informazioni aggiuntive

NYC Taxi and Limousine Commission (TLC):

I dati sono stati raccolti e forniti a NYC Taxi and Limousine Commission (TLC) da fornitori di soluzioni tecnologiche autorizzati in conformità con i programmi Taxicab e Livery Passenger Enhancement Program (TPEP/LPEP). I dati relativi alle corse non sono stati creati da TLC e TLC non rilascia alcuna dichiarazione relativamente alla correttezza di tali dati.

Vedere il percorso del set di dati originale e le condizioni per l'utilizzo originali.

Colonne

Nome Tipo di dati Unica Valori (esempio) Descrizione
dispatchBaseNum string 1,144 B02510 B02764 Numero di licenza della base TLC che ha gestito la corsa
doLocationId string 267 265 132 Valore di TLC Taxi Zone in cui ha avuto termine la corsa.
dropOffDateTime timestamp 57,110,352 31-07-2017 23:59:00 15-10-2017 00:44:34 Data e ora in cui i passeggeri sono scesi dall'auto ed è terminata la corsa.
pickupDateTime timestamp 111,270,396 16-08-2016 00:00:00 17-08-2016 00:00:00 Data e ora in cui i passeggeri sono saliti in auto ed è stata iniziata la corsa.
puLocationId string 266 79 161 Area taxi TLC in cui ha avuto inizio la corsa.
puMonth int 12 1 12
puYear int 5 2018 2017
srFlag string 44 1 2 Indica se il viaggio faceva parte di una catena di corse condivise offerte da un'azienda di FHV ad alto volume (ad esempio, Uber Pool, Lyft Line). Per le corse condivise, il valore è 1. Per le corse non condivise, questo campo è Null. NOTA: per la maggior parte delle aziende FHV ad alto volume, vengono segnalate solo le corse condivise che sono state richieste E abbinate a un'altra richiesta di corsa condivisa nel corso del viaggio. Tuttavia, Lyft (numeri di licenza delle basi B02510 + B02844) contrassegna anche le corse per cui è stata richiesta una corsa condivisa ma per cui non è stata trovata una corrispondenza con un altro passeggero, di conseguenza i record delle corse con SR_Flag=1 da tali due basi possono indicare una prima corsa in una catena di corse condivise OPPURE una corsa per cui è stata richiesta una corsa condivisa per cui non è stata trovata una corrispondenza. Gli utenti devono prevedere un numero eccessivo di corse condivise completate per Lyft.

Anteprima

dispatchBaseNum pickupDateTime dropOffDateTime puLocationId doLocationId srFlag puYear puMonth
B03157 30/06/2019 23:59:57 01/07/2019 12:07:21 264 Null Null 2019 6
B01667 30/06/2019 23:59:56 01/07/2019 12:28:06 264 Null Null 2019 6
B02849 30/06/2019 23:59:55 01/07/2019 12:14:10 264 Null Null 2019 6
B02249 30/06/2019 23:59:53 01/07/2019 12:15:53 264 Null Null 2019 6
B00887 30/06/2019 23:59:48 01/07/2019 12:29:29 264 Null Null 2019 6
B01626 30/06/2019 23:59:45 01/07/2019 12:18:20 264 Null Null 2019 6
B01259 30/06/2019 23:59:44 01/07/2019 12:03:15 264 Null Null 2019 6
B01145 30/06/2019 23:59:43 01/07/2019 12:11:15 264 Null Null 2019 6
B00887 30/06/2019 23:59:42 01/07/2019 12:34:21 264 Null Null 2019 6
B00821 30/06/2019 23:59:40 01/07/2019 12:02:57 264 Null Null 2019 6

Accesso ai dati

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Passaggi successivi

Visualizzare il resto dei set di dati nel catalogo dei set di dati aperti.