Commission des taxis de New York - Enregistrements des trajets de taxi
Les enregistrements de trajets des VTC (« FHV » en anglais) incluent des champs indiquant le numéro de licence de la base de dispatch et la date de prise en charge, l’heure et l’ID d’emplacement de zone de taxi (fichier de forme ci-dessous). Ces enregistrements sont générés à partir des envois de relevés de trajets VTC présentés par bases.
Notes
Microsoft fournit Azure Open Datasets « en l’état ». Microsoft n’offre aucune garantie, expresse ou implicite, ni de conditions relatives à votre utilisation des jeux de données. Dans la mesure autorisée par votre droit local, Microsoft décline toute responsabilité pour les dommages ou pertes, y compris directs, consécutifs, spéciaux, indirects ou punitifs, résultant de votre utilisation des jeux de données.
Ce jeu de données est fourni selon les conditions initiales par lesquelles Microsoft a reçu les données sources. Le jeu de données peut inclure des données provenant de Microsoft.
Volume et conservation
Ce jeu de données est stocké au format Parquet. Il y a environ 500 millions de lignes (5 Go) en date de 2018.
Ce jeu de données contient les enregistrements historiques accumulés de 2009 à 2018. Vous pouvez utiliser les paramètres de paramétrage de notre SDK pour récupérer les données dans un intervalle de temps spécifique.
Emplacement de stockage
Ce jeu de données est stocké dans la région Azure USA Est. L’allocation de ressources de calcul dans la région USA Est est recommandée à des fins d’affinité.
Informations supplémentaires
Commission des services de taxis et de limousines de la ville de New York (en anglais)
Les données ont été collectées et fournies à la Commission des services de taxis et de limousines de la ville de New York (TLC) par des fournisseurs de technologie agréés dans le cadre du programme d’amélioration du trafic passagers et taxis (TPEP/LPEP). Les données sur les trajets n’ont pas été créées par la TLC et celle-ci ne fait aucune déclaration quant à l’exactitude de ces données.
Affichez l’emplacement du jeu de données d’origine et les conditions d’utilisation d’origine.
Colonnes
Nom | Type de données | Unique | Valeurs (exemple) | Description |
---|---|---|---|---|
dispatchBaseNum | string | 1,144 | B02510 B02764 | Le numéro de licence de base TLC de la base qui a dispatché le trajet |
doLocationId | string | 267 | 265 132 | Zone de taxi TLC où le trajet s’est terminé. |
dropOffDateTime | timestamp | 57,110,352 | 2017-07-31 23:59:00 2017-10-15 00:44:34 | Date et heure de la dépose. |
pickupDateTime | timestamp | 111,270,396 | 2016-08-16 00:00:00 2016-08-17 00:00:00 | Date et heure de la montée dans le véhicule. |
puLocationId | string | 266 | 79 161 | Zone de taxi TLC où le trajet a commencé. |
puMonth | int | 12 | 1 12 | |
puYear | int | 5 | 2018 2017 | |
srFlag | string | 44 | 1 2 | Indique si le trajet faisait partie d’une chaîne de covoiturage proposée par une entreprise de VTC à fort volume (par exemple Uber Pool, Lyft Line). Pour les trajets partagés, la valeur est 1. Pour les trajets non partagés, ce champ est Null. REMARQUE : Pour la plupart des entreprises de VTC à fort volume, seuls les trajets partagés demandés ET correspondant à une autre demande de trajet partagé au cours du trajet sont signalés. Cependant, Lyft (numéros de licence de base B02510 + B02844) signale également les trajets pour lesquels un trajet partagé a été demandé mais où aucun autre passager n’a été trouvé pour partager le trajet. Par conséquent, les enregistrements de trajets avec SR_Flag = 1 de ces deux bases pourraient indiquer SOIT un premier trajet dans une chaîne de trajet partagé OU un trajet pour lequel un trajet partagé a été demandé mais jamais trouvé. Les utilisateurs doivent s’attendre à un nombre excessif de trajets partagés réussis effectués par Lyft. |
Préversion
dispatchBaseNum | pickupDateTime | dropOffDateTime | puLocationId | doLocationId | srFlag | puYear | puMonth |
---|---|---|---|---|---|---|---|
B03157 | 6/30/2019 11:59:57 PM | 7/1/2019 12:07:21 AM | 264 | null | null | 2019 | 6 |
B01667 | 6/30/2019 11:59:56 PM | 7/1/2019 12:28:06 AM | 264 | null | null | 2019 | 6 |
B02849 | 6/30/2019 11:59:55 PM | 7/1/2019 12:14:10 AM | 264 | null | null | 2019 | 6 |
B02249 | 6/30/2019 11:59:53 PM | 7/1/2019 12:15:53 AM | 264 | null | null | 2019 | 6 |
B00887 | 6/30/2019 11:59:48 PM | 7/1/2019 12:29:29 AM | 264 | null | null | 2019 | 6 |
B01626 | 6/30/2019 11:59:45 PM | 7/1/2019 12:18:20 AM | 264 | null | null | 2019 | 6 |
B01259 | 6/30/2019 11:59:44 PM | 7/1/2019 12:03:15 AM | 264 | null | null | 2019 | 6 |
B01145 | 6/30/2019 11:59:43 PM | 7/1/2019 12:11:15 AM | 264 | null | null | 2019 | 6 |
B00887 | 6/30/2019 11:59:42 PM | 7/1/2019 12:34:21 AM | 264 | null | null | 2019 | 6 |
B00821 | 6/30/2019 11:59:40 PM | 7/1/2019 12:02:57 AM | 264 | null | null | 2019 | 6 |
Accès aux données
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Étapes suivantes
Consultez les autres jeux de données du catalogue Open Datasets.