NYC Taxi & Lim Commission - record delle corse dei taxi gialli
I record relativi alle corse dei taxi gialli includono campi contenenti data e ora di partenza e di arrivo, luogo di partenza e di arrivo, distanze delle corse, dettaglio delle tariffe, tipi di tariffa, tipi di pagamento e numero di passeggeri segnalato dal tassista.
Nota
Microsoft fornisce set di dati aperti di Azure su base "così come è". Microsoft non garantisce, esplicitamente o implicitamente, garanzie o condizioni in relazione all'uso dei set di dati. Nella misura consentita dalla legge locale, Microsoft dichiara tutte le responsabilità per eventuali danni o perdite, tra cui diretto, consequenziale, speciale, indiretto, incidentale o incidentale, risultante dall'uso dei set di dati.
Questo set di dati viene fornito in conformità con le condizioni originali in base alle quali Microsoft ha ricevuto i dati di origine. Il set di dati potrebbe includere dati provenienti da Microsoft.
Volume e conservazione
Il set di dati è archiviato nel formato Parquet. Ci sono circa 1,5B righe (50 GB) in totale a partire dal 2018.
Questo set di dati include record cronologici accumulati dal 2009 al 2018. Puoi usare le impostazioni dei parametri nell'SDK per recuperare i dati entro un intervallo di tempo specifico.
Posizione di archiviazione
Questo set di dati è archiviato nell'area Stati Uniti orientali di Azure. L'allocazione delle risorse di calcolo nell'area Stati Uniti orientali è consigliata per motivi di affinità.
Informazioni aggiuntive
NYC Taxi and Limousine Commission (TLC):
I dati sono stati raccolti e forniti al NYC Taxi and Lim Commission (TLC) da fornitori di tecnologia autorizzati ai programmi di miglioramento dei passeggeri (TPEP/LPEP) di Taxicab & Livery Passenger Enhancement Program( TPEP/LPEP). I dati relativi alle corse non sono stati creati da TLC e TLC non rilascia alcuna dichiarazione relativamente alla correttezza di tali dati.
Visualizzare la posizione originale del set di dati e le condizioni per l'utilizzo originali.
Colonne
NOME | Tipo di dati | Univoco | Valori (esempio) | Descrizione |
---|---|---|---|---|
doLocationId | string | 265 | 161 236 | Area taxi TLC in cui è stato disattivato il tassametro. |
endLat | double | 961,994 | 41.366138 40.75 | |
endLon | double | 1,144,935 | -73.137393 -73.9824 | |
extra | double | 877 | 0.5 1.0 | Extra e maggiorazioni vari. Include attualmente solo gli addebiti pari a 0,50 USD e 1 USD per l'ora di punta e per la notte. |
fareAmount | double | 18,935 | 6.5 4.5 | Tariffa in base a durata e distanza calcolata dal tassametro. |
improvementSurcharge | string | 60 | 0.3 0 | Maggiorazione di $ 0,30 per il miglioramento del servizio aggiunta alla tariffa fissa sulle corse dei taxi. La maggiorazione per il miglioramento del servizio viene applicata dal 2015. |
mtaTax | double | 360 | 0.5 -0.5 | Imposta MTA di $ 0,50 automaticamente attivata in base alla tariffa del tassametro in uso. |
passengerCount | INT | 64 | 1 2 | Numero di passeggeri nel veicolo. Si tratta di un valore immesso dall'autista. |
paymentType | string | 6,282 | CSH CRD | Codice numerico che indica il modo in cui il passeggero ha pagato la corsa. 1= Carta di credito; 2= Contanti; 3= Nessun addebito; 4= Controversia; 5= Sconosciuto; 6= Viaggio vuoto. |
puLocationId | string | 266 | 237 161 | Valore TLC Taxi Zone in cui è stato attivato il tassametro. |
puMonth | INT | 12 | 3 5 | |
puYear | INT | 29 | 2012 2011 | |
rateCodeId | INT | 56 | 1 2 | Codice di tariffa finale in vigore alla fine della corsa. 1= Tariffa standard; 2= JFK; 3= Newark; 4= Attestazione o Westchester; 5= Tariffa negoziata; 6= Giro di gruppo. |
startLat | double | 833,016 | 41.366138 40.7741 | |
startLon | double | 957,428 | -73.137393 -73.9821 | |
storeAndFwdFlag | string | 8 | N 0 | Questo flag indica se il record di viaggio è stato mantenuto nella memoria del veicolo prima dell'invio al fornitore, noto anche come "archiviare e inoltrare", perché il veicolo non ha avuto una connessione al server. Y= archiviare e inoltrare il viaggio; N= non un negozio e un viaggio in avanti. |
tipAmount | double | 12,121 | 1.0 2.0 | Questo campo viene popolato automaticamente per le mance tramite carta di credito. Le mance in contanti non sono incluse. |
tollsAmount | double | 6,634 | 5.33 4.8 | Importo totale di tutti i pedaggi pagati durante la corsa. |
totalAmount | double | 39,707 | 7.0 7.8 | Importo totale addebitato ai passeggeri. Non include le mance in contanti. |
tpepDropoffDateTime | timestamp | 290,185,010 | 2010-11-07 01:29:00 2013-11-03 01:22:00 | Data e ora in cui è stato disattivato il tassametro. |
tpepPickupDateTime | timestamp | 289,948,585 | 2010-11-07 01:00:00 2009-11-01 01:05:00 | Data e ora in cui è stato attivato il contatore. |
tripDistance | double | 14,003 | 1.0 0.9 | Distanza percorsa durante la corsa in miglia segnalata dal tassametro. |
vendorID | string | 7 | VTS CMT | Codice che indica il fornitore TPEP che ha fornito il record. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
vendorID | INT | 2 | 2 1 | Codice che indica il fornitore LPEP che ha fornito il record. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
Anteprima
vendorID | tpepPickupDateTime | tpepDropoffDateTime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeId | storeAndFwdFlag | paymentType | fareAmount | extra | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | puYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 1/24/2088 12:25:39 | 1/24/2088 7:28:25 | 1 | 4.05 | 24 | 162 | 1 | N | 2 | 14.5 | 0 | 0.5 | 0,3 | 0 | 0 | 15.3 | 2088 | 1 |
2 | 1/24/2088 12:15:42 AM | 1/24/2088 12:19:46 | 1 | 0.63 | 41 | 166 | 1 | N | 2 | 4.5 | 0 | 0.5 | 0,3 | 0 | 0 | 5.3 | 2088 | 1 |
2 | 11/4/2084 12:32:24 PM | 11/4/2084 12:47:41 PM | 1 | 1.34 | 238 | 236 | 1 | N | 2 | 10 | 0 | 0.5 | 0,3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 11/4/2084 12:25:53 PM | 11/4/2084 12:29:00 | 1 | 0,32 | 238 | 238 | 1 | N | 2 | 4 | 0 | 0.5 | 0,3 | 0 | 0 | 4.8 | 2084 | 11 |
2 | 11/4/2084 12:08:33 PM | 11/4/2084 12:22:24 PM | 1 | 1.85 | 236 | 238 | 1 | N | 2 | 10 | 0 | 0.5 | 0,3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 11/4/2084 11:41:35 AM | 11/4/2084 11:59:41 AM | 1 | 1.65 | 68 | 237 | 1 | N | 2 | 12.5 | 0 | 0.5 | 0,3 | 0 | 0 | 13.3 | 2084 | 11 |
2 | 11/4/2084 11:27:28 AM | 11/4/2084 11:39:52 AM | 1 | 1.07 | 170 | 68 | 1 | N | 2 | 9 | 0 | 0.5 | 0,3 | 0 | 0 | 9.8 | 2084 | 11 |
2 | 11/4/2084 11:19:06 | 11/4/2084 11:26:44 | 1 | 1.3 | 107 | 170 | 1 | N | 2 | 7.5 | 0 | 0.5 | 0,3 | 0 | 0 | 8.3 | 2084 | 11 |
2 | 11/4/2084 11:02:59 | 11/4/2084 11:15:51 | 1 | 1.85 | 113 | 137 | 1 | N | 2 | 10 | 0 | 0.5 | 0,3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 11/4/2084 10:46:05 | 11/4/2084 10:50:09 | 1 | 0.62 | 231 | 231 | 1 | N | 2 | 4.5 | 0 | 0.5 | 0,3 | 0 | 0 | 5.3 | 2084 | 11 |
Accesso ai dati
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Passaggi successivi
Visualizzare il resto dei set di dati nel catalogo Open Datasets.