Comissão de dados de Táxis e Limusines de Nova York – Registros de corridas em FHV (veículos para locação)

Os registros de viagem em FHV (veículo para locação) incluem campos que capturam o número da licença de base despachada, a data e hora da retirada e a ID da localização da zona de táxi (arquivo de forma abaixo). Esses registros são gerados com base nos envios de Registro de viagem com FHV feitos pelas bases.

Observação

A Microsoft fornece o Azure Open Datasets no estado em que se encontra. A Microsoft não oferece garantias nem coberturas, expressas ou implícitas, em relação ao uso dos conjuntos de dados. Até o limite permitido pela legislação local, a Microsoft se exime de toda a obrigação por danos ou perdas, inclusive diretos, consequentes, especiais, indiretos, acidentais ou punitivos, resultantes do uso dos conjuntos de dados.

Esse conjunto de dados é fornecido de acordo com os termos originais com que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados originados da Microsoft.

Volume e retenção

Este conjunto de dados está armazenado no formato Parquet. Há cerca de 500 milhões de linhas (5 GB) desde 2018.

Este conjunto de dados contém registros históricos acumulados de 2009 a 2018. Você pode usar as configurações de parâmetro no nosso SDK para buscar dados em um intervalo de tempo específico.

Local de armazenamento

Este conjunto de dados está armazenado na região Leste dos EUA do Azure. É recomendável alocar recursos de computação no Leste dos EUA para afinidade.

Informações adicionais

TLC (Comissão de Táxis e Limusines) de Nova York:

Os dados foram coletados e fornecidos à TLC (Comissão de Táxis e Limusines) de Nova York por provedores de tecnologia autorizados nos TPEP/LPEP (Programas de Melhoria de Táxi e Locação para Passageiros). Os dados de viagem não foram criados pela TLC. A TLC não fornece qualquer garantia quanto à precisão desses dados.

Veja o local original do conjuntos de dados e os termos de uso originais.

Colunas

Nome Tipo de dados Exclusivo Valores (exemplo) Descrição
dispatchBaseNum string 1,144 B02510 B02764 O número da licença da base da TLC que despachou a viagem
doLocationId string 267 265 132 Zona de táxi da TLC em que a viagem terminou.
dropOffDateTime timestamp 57,110,352 2017-07-31 23:59:00 2017-10-15 00:44:34 A data e a hora do término da viagem.
pickupDateTime timestamp 111,270,396 2016-08-16 00:00:00 2016-08-17 00:00:00 A data e a hora do início da viagem.
puLocationId string 266 79 161 Zona de táxi da TLC em que a viagem iniciou.
puMonth INT 12 1 12
puYear INT 5 2018 2017
srFlag string 44 1 2 Indica se a viagem foi parte de uma rede de carona compartilhada oferecida por uma empresa de alto volume de FHV (por exemplo, Uber Pool, Lyft Line, etc.). Para viagens compartilhadas, o valor é 1. Para viagens não compartilhadas, este campo é nulo. OBSERVAÇÃO: Para a maioria das empresas de alto volume de FHV, apenas as viagens compartilhadas que foram solicitadas E que corresponderam a outra solicitação de viagem compartilhada ao longo do percurso são sinalizadas. No entanto, a Lyft (números de licença de base B02510 + B02844) também sinaliza as viagens para as quais foi solicitada uma viagem compartilhada, mas não foi possível encontrar correspondência com outro passageiro para compartilhar a viagem – portanto, as viagens registradas com SR_Flag = 1 nessas duas bases podem indicar OU a primeira viagem em uma rede de viagens compartilhadas OU uma viagem para a qual foi solicitada uma viagem compartilhada, mas nenhuma correspondência foi encontrada. Os usuários devem prever uma grande quantidade de viagens compartilhadas com sucesso por meio da Lyft.

Versão Prévia

dispatchBaseNum pickupDateTime dropOffDateTime puLocationId doLocationId srFlag puYear puMonth
B03157 6/30/2019 11:59:57 PM 7/1/2019 12:07:21 AM 264 nulo nulo 2019 6
B01667 6/30/2019 11:59:56 PM 7/1/2019 12:28:06 AM 264 nulo nulo 2019 6
B02849 6/30/2019 11:59:55 PM 7/1/2019 12:14:10 AM 264 nulo nulo 2019 6
B02249 6/30/2019 11:59:53 PM 7/1/2019 12:15:53 AM 264 nulo nulo 2019 6
B00887 6/30/2019 11:59:48 PM 7/1/2019 12:29:29 AM 264 nulo nulo 2019 6
B01626 6/30/2019 11:59:45 PM 7/1/2019 12:18:20 AM 264 nulo nulo 2019 6
B01259 6/30/2019 11:59:44 PM 7/1/2019 12:03:15 AM 264 nulo nulo 2019 6
B01145 6/30/2019 11:59:43 PM 7/1/2019 12:11:15 AM 264 nulo nulo 2019 6
B00887 6/30/2019 11:59:42 PM 7/1/2019 12:34:21 AM 264 nulo nulo 2019 6
B00821 6/30/2019 11:59:40 PM 7/1/2019 12:02:57 AM 264 nulo nulo 2019 6

Acesso de dados

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Próximas etapas

Exiba o restante dos conjuntos de dados no catálogo do Open Datasets.