Comissão de táxis e limusines de Nova York – registros de corridas de táxis verdes

Os registros de viagem de táxi verde incluem campos que capturam as datas/horas de partida e chegada, os locais de partida e chegada, as distâncias, as tarifas discriminadas, os tipos de taxa, os tipos de pagamento e as contagens de passageiro relatadas pelo motorista.

Observação

A Microsoft fornece o Azure Open Datasets no estado em que se encontra. A Microsoft não oferece garantias nem coberturas, expressas ou implícitas, em relação ao uso dos conjuntos de dados. Até o limite permitido pela legislação local, a Microsoft se exime de toda a obrigação por danos ou perdas, inclusive diretos, consequentes, especiais, indiretos, acidentais ou punitivos, resultantes do uso dos conjuntos de dados.

Esse conjunto de dados é fornecido de acordo com os termos originais com que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados originados da Microsoft.

Volume e retenção

Este conjunto de dados está armazenado no formato Parquet. Existem cerca de 80 milhões de linhas (2 GB) desde 2018.

Este conjunto de dados contém registros históricos acumulados de 2009 a 2018. Você pode usar as configurações de parâmetro no nosso SDK para buscar dados em um intervalo de tempo específico.

Local de armazenamento

Este conjunto de dados está armazenado na região Leste dos EUA do Azure. É recomendável alocar recursos de computação no Leste dos EUA para afinidade.

Informações adicionais

TLC (Comissão de Táxis e Limusines) de Nova York:

Os dados foram coletados e fornecidos à TLC (Comissão de Táxis e Limusines) de Nova York por provedores de tecnologia autorizados nos TPEP/LPEP (Programas de Melhoria de Táxi e Locação para Passageiros). Os dados de viagem não foram criados pela TLC. A TLC não fornece qualquer garantia quanto à precisão desses dados.

Veja o local original do conjuntos de dados e os termos de uso originais.

Colunas

Nome Tipo de dados Exclusivo Valores (exemplo) Descrição
doLocationId string 264 74 42 DOLocationID Zona de táxi da TLC em que o taxímetro foi desativado.
dropoffLatitude double 109,721 40.7743034362793 40.77431869506836 Preterido desde julho de 2016
dropoffLongitude double 75,502 -73.95272827148438 -73.95274353027344 Preterido desde julho de 2016
extra double 202 0.5 1.0 Extras e taxas adicionais diversas. No momento, inclui somente as cobranças de US$ 0,50 e US$ 1,00 na hora do rush e pernoite.
fareAmount double 10,367 6.0 5.5 A taxa de tempo e distância calculada pelo medidor.
improvementSurcharge string 92 0.3 0 Taxa adicional de melhoria de US$ 0,30 avaliada em viagens solicitadas na troca de bandeira. A taxa adicional de melhoria começou a ser cobrada em 2015.
lpepDropoffDatetime timestamp 58,100,713 2016-05-22 00:00:00 2016-05-09 00:00:00 Data e hora em que o medidor foi desativado.
lpepPickupDatetime timestamp 58,157,349 2013-10-22 12:40:36 2014-08-09 15:54:25 Data e hora em que o medidor foi ativado.
mtaTax double 34 0.5 -0.5 Taxa de MTA de US$ 0,50 automaticamente acionada com base na taxa medida em uso.
passengerCount INT 10 1 2 O número de passageiros no veículo. Este é um valor inserido pelo condutor.
paymentType INT 5 2 1 Um código numérico que indica como o passageiro pagou pela viagem. 1= Cartão de crédito 2= Em dinheiro 3= Sem cobrança 4= Disputa 5= Desconhecido 6= Viagem anulada
pickupLatitude double 95,110 40.721351623535156 40.721336364746094 Preterido desde julho de 2016
pickupLongitude double 55,722 -73.84429931640625 -73.84429168701172 Preterido desde julho de 2016
puLocationId string 264 74 41 Zona de Táxi da TLC em que o taxímetro foi ativado.
puMonth INT 12 3 5
puYear INT 14 2015 2016
rateCodeID INT 7 1 5 O código da taxa final em vigor ao final da viagem. 1 = Taxa padrão 2 = JFK 3 = Newark 4 = Nassau ou Westchester 5 = Valor negociado 6 = Corrida de grupo
storeAndFwdFlag string 2 N Y Esse sinalizador indica se o registro da corrida foi mantido na memória do veículo antes de ser enviado ao fornecedor, também conhecido como "armazenar e encaminhar", porque o veículo não tinha uma conexão com o servidor. Y = armazenar e encaminhar corrida N = não armazenar e encaminhar corrida
tipAmount double 6,206 1.0 2.0 Valor da gorjeta – este campo é preenchido automaticamente em caso de gorjetas pagas com cartão de crédito. Gorjetas em dinheiro não são incluídas.
tollsAmount double 2,150 5.54 5.76 Valor total de todos os pedágios pagos na viagem.
totalAmount double 20,188 7.8 6.8 O valor total cobrado aos passageiros. Não inclui gorjetas em dinheiro.
tripDistance double 7,060 0.9 1.0 A distância percorrida na viagem em milhas, informada pelo taxímetro.
tripType INT 3 1 2 Um código que indica se a viagem foi de rua ou de expedição, atribuído automaticamente com base na taxa medida em uso, mas que pode ser alterado pelo motorista. 1= Corrida não agendada 2= Corrida agendada
vendorID INT 2 2 1 Um código que indica o provedor de LPEP que forneceu o registro. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc.

Versão Prévia

vendorID lpepPickupDatetime lpepDropoffDatetime passengerCount tripDistance puLocationId doLocationId rateCodeID storeAndFwdFlag paymentType fareAmount extra mtaTax improvementSurcharge tipAmount tollsAmount totalAmount tripType puYear puMonth
2 6/24/2081 5:40:37 PM 6/24/2081 6:42:47 PM 1 16.95 93 117 1 N 1 52 1 0,5 0.3 0 2.16 55.96 1 2081 6
2 11/28/2030 12:19:29 AM 11/28/2030 12:25:37 AM 1 1.08 42 247 1 N 2 6.5 0 0,5 0.3 0 0 7.3 1 2030 11
2 11/28/2030 12:14:50 AM 11/28/2030 12:14:54 AM 1 0.03 42 42 5 N 2 5 0 0 0 0 0 5 2 2030 11
2 11/14/2020 11:38:07 AM 11/14/2020 11:42:22 AM 1 0.63 129 129 1 N 2 4.5 1 0,5 0.3 0 0 6.3 1 2020 11
2 11/14/2020 9:55:36 AM 11/14/2020 10:04:54 AM 1 3.8 82 138 1 N 2 12.5 1 0,5 0.3 0 0 14,3 1 2020 11
2 8/26/2019 4:18:37 PM 8/26/2019 4:19:35 PM 1 0 264 264 1 N 2 1 0 0,5 0.3 0 0 1.8 1 2019 8
2 7/1/2019 8:28:33 AM 7/1/2019 8:32:33 AM 1 0.71 7 7 1 N 1 5 0 0,5 0.3 1.74 0 7.54 1 2019 7
2 7/1/2019 12:04:53 AM 7/1/2019 12:21:56 AM 1 2.71 223 145 1 N 2 13 0,5 0,5 0.3 0 0 14,3 1 2019 7
2 7/1/2019 12:04:11 AM 7/1/2019 12:21:15 AM 1 3.14 166 142 1 N 2 14,5 0,5 0,5 0.3 0 0 18.55 1 2019 7
2 7/1/2019 12:03:37 AM 7/1/2019 12:09:27 AM 1 0,78 74 74 1 N 1 6 0,5 0,5 0.3 1.46 0 8.76 1 2019 7

Acesso de dados

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

# Display data statistic information
display(nyc_tlc_df, summary = True)

Próximas etapas

Exiba o restante dos conjuntos de dados no catálogo do Open Datasets.