Comisión de taxis y limusinas de Nueva York: registros de carreras de vehículos de alquiler (FHV)

Los registros de carreras de vehículos de alquiler incluyen campos donde se recogen el número de licencia de la central y la fecha, la hora y el identificador de la ubicación de la parada de taxi donde se recoge a los pasajeros (archivo de forma a continuación). Estos registros se generan a partir de los envíos de carreras de vehículos de alquiler que realizan las centrales.

Nota

Microsoft proporciona Azure Open Datasets "tal cual". Microsoft no ofrece ninguna garantía, expresa o implícita, ni condición con respecto al uso que usted haga de los conjuntos de datos. En la medida en la que lo permita su legislación local, Microsoft declina toda responsabilidad por posibles daños o pérdidas, incluidos los daños directos, consecuenciales, especiales, indirectos, incidentales o punitivos, que resulten de su uso de los conjuntos de datos.

Este conjunto de datos se proporciona bajo los términos originales con los que Microsoft recibió los datos de origen. El conjunto de datos puede incluir datos procedentes de Microsoft.

Volumen y retención

Este conjunto de datos se almacena en formato Parquet. Hay alrededor de 500 millones de filas (5 GB) a partir de 2018.

Este conjunto de datos contiene registros históricos acumulados desde 2009 hasta 2018. Puede usar la configuración de parámetros de nuestro SDK para recuperar los datos de un intervalo de tiempo específico.

Ubicación de almacenamiento

Este conjunto de datos se almacena en la región Este de EE. UU. de Azure. Se recomienda asignar recursos de proceso de la misma región por afinidad.

Información adicional

NYC Taxi and Limousine Commission (TLC):

Proveedores de tecnología autorizados por los programas TPEP (Taxicab Passenger Enhancement Program) y LPEP (Livery Passenger Enhancement Program) recopilaron y proporcionaron los datos a NYC Taxi and Limousine Commission (TLC). TLC no creó los datos de las carreras y no hace ninguna declaración respecto a la exactitud de estos datos.

Vea la ubicación original del conjunto de datos y los términos originales de uso.

Columnas

Nombre Tipo de datos Único Valores (ejemplo) Descripción
dispatchBaseNum string 1,144 B02510 B02764 Número de licencia de la central de TLC que gestionó la carrera.
doLocationId string 267 265 132 Parada de taxi de TLC donde termina la carrera.
dropOffDateTime timestamp 57,110,352 2017-07-31 23:59:00 2017-10-15 00:44:34 Fecha y hora a la que se deja a los pasajeros de la carrera.
pickupDateTime timestamp 111,270,396 2016-08-16 00:00:00 2016-08-17 00:00:00 Fecha y hora de la recogida de los pasajeros para iniciar la carrera.
puLocationId string 266 79 161 Parada de taxi de TLC donde comienza la carrera.
puMonth int 12 1 12
puYear int 5 2018 2017
srFlag string 44 1 2 Indica si la carrera formaba parte de una cadena de carreras ofrecidas por una compañía de vehículos de alquiler de gran volumen (como Uber Pool, Lyft Line). Para carreras compartidas, el valor es 1. Para carreras no compartidas, este campo es nulo. NOTA: Para la mayoría de las compañías de vehículos de alquiler de gran volumen, solo se marcan las carreras compartidas que se han solicitado Y se corresponden con otra solicitud de carrera compartida durante el transcurso del viaje. Sin embargo, Lyft (números de licencia base B02510 + B02844) marca también las carreras para las que se ha solicitado una carrera compartida pero no se encontró otro pasajero para compartir la carrera; por tanto, los registros de carreras con SR_Flag=1 de esas dos bases podrían iniciar una primera carrera de una cadena de carreras compartida O una carrera para la que se solicitó una carrera compartida pero no se encontró una correspondencia. Los usuarios deberían prever un recuento excesivo de carreras compartidas llevadas a cabo por Lyft.

Vista previa

dispatchBaseNum pickupDateTime dropOffDateTime puLocationId doLocationId srFlag puYear puMonth
B03157 6/30/2019 11:59:57 PM 7/1/2019 12:07:21 AM 264 null null 2019 6
B01667 6/30/2019 11:59:56 PM 7/1/2019 12:28:06 AM 264 null null 2019 6
B02849 6/30/2019 11:59:55 PM 7/1/2019 12:14:10 AM 264 null null 2019 6
B02249 6/30/2019 11:59:53 PM 7/1/2019 12:15:53 AM 264 null null 2019 6
B00887 6/30/2019 11:59:48 PM 7/1/2019 12:29:29 AM 264 null null 2019 6
B01626 6/30/2019 11:59:45 PM 7/1/2019 12:18:20 AM 264 null null 2019 6
B01259 6/30/2019 11:59:44 PM 7/1/2019 12:03:15 AM 264 null null 2019 6
B01145 6/30/2019 11:59:43 PM 7/1/2019 12:11:15 AM 264 null null 2019 6
B00887 6/30/2019 11:59:42 PM 7/1/2019 12:34:21 AM 264 null null 2019 6
B00821 6/30/2019 11:59:40 PM 7/1/2019 12:02:57 AM 264 null null 2019 6

Acceso a datos

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Pasos siguientes

Consulte el resto de los conjuntos de datos en el catálogo de Open Datasets.