NYC Taxi & Limousine Commission - Yellow taxi trip records
I record relativi alle corse dei taxi gialli includono campi contenenti data e ora di partenza e di arrivo, luogo di partenza e di arrivo, distanze delle corse, dettaglio delle tariffe, tipi di tariffa, tipi di pagamento e numero di passeggeri segnalato dal tassista.
Nota
Microsoft fornisce i set di dati aperti di Azure così come sono e non fornisce né garanzie, esplicite o implicite, né specifica alcuna condizione in relazione all'uso dei set di dati. Nella misura consentita dalla legge locale, Microsoft declina tutte le responsabilità per eventuali danni o perdite, incluse dirette, consequenziali, speciali, indirette, accidentali o irreversibili, risultanti dall'uso dei set di dati.
Questo set di dati viene fornito in conformità con le condizioni originali in base alle quali Microsoft ha ricevuto i dati di origine. Il set di dati potrebbe includere dati provenienti da Microsoft.
Volume e conservazione
Il set di dati viene archiviato nel formato Parquet. Al 2018 sono presenti in totale circa 1,5 miliardi di righe (50 GB).
Questo set di dati include record cronologici accumulati dal 2009 al 2018. Puoi usare le impostazioni dei parametri nell'SDK per recuperare i dati entro un intervallo di tempo specifico.
Posizione di archiviazione
Questo set di dati è archiviato nell'area Stati Uniti orientali di Azure. L'allocazione delle risorse di calcolo nell'area Stati Uniti orientali è consigliata per motivi di affinità.
Informazioni aggiuntive
NYC Taxi and Limousine Commission (TLC):
I dati sono stati raccolti e forniti a NYC Taxi and Limousine Commission (TLC) da fornitori di soluzioni tecnologiche autorizzati in conformità con i programmi Taxicab e Livery Passenger Enhancement Program (TPEP/LPEP). I dati relativi alle corse non sono stati creati da TLC e TLC non rilascia alcuna dichiarazione relativamente alla correttezza di tali dati.
Vedere il percorso del set di dati originale e le condizioni per l'utilizzo originali.
Colonne
Nome | Tipo di dati | Unica | Valori (esempio) | Descrizione |
---|---|---|---|---|
doLocationId | string | 265 | 161 236 | Area taxi TLC in cui è stato disattivato il tassametro. |
endLat | double | 961,994 | 41.366138 40.75 | |
endLon | double | 1,144,935 | -73.137393 -73.9824 | |
extra | double | 877 | 0.5 1.0 | Extra e maggiorazioni vari. Include attualmente solo gli addebiti pari a 0,50 USD e 1 USD per l'ora di punta e per la notte. |
fareAmount | double | 18,935 | 6.5 4.5 | Tariffa in base a durata e distanza calcolata dal tassametro. |
improvementSurcharge | string | 60 | 0.3 0 | Maggiorazione di $ 0,30 per il miglioramento del servizio aggiunta alla tariffa fissa sulle corse dei taxi. La maggiorazione per il miglioramento del servizio viene applicata dal 2015. |
mtaTax | double | 360 | 0.5 -0.5 | Imposta MTA di $ 0,50 automaticamente attivata in base alla tariffa del tassametro in uso. |
passengerCount | int | 64 | 1 2 | Numero di passeggeri nel veicolo. Si tratta di un valore immesso dall'autista. |
paymentType | string | 6,282 | CSH CRD | Codice numerico che indica il modo in cui il passeggero ha pagato la corsa. 1= Carta di credito; 2= Contanti; 3= Nessun addebito; 4= Controversia; 5= Sconosciuto; 6= Viaggio annullato. |
puLocationId | string | 266 | 237 161 | Valore TLC Taxi Zone in cui è stato attivato il tassametro. |
puMonth | int | 12 | 3 5 | |
puYear | int | 29 | 2012 2011 | |
rateCodeId | int | 56 | 1 2 | Codice di tariffa finale in vigore alla fine della corsa. 1= Tariffa standard; 2= JFK; 3= Newark; 4= Nassau o Westchester; 5= Tariffa negoziata; 6= Corsa di gruppo. |
startLat | double | 833,016 | 41.366138 40.7741 | |
startLon | double | 957,428 | -73.137393 -73.9821 | |
storeAndFwdFlag | string | 8 | N 0 | Questo flag indica se il record della corsa è stato conservato nella memoria del veicolo prima dell'invio al fornitore, noto anche come "archiviazione e inoltro" perché il veicolo non disponeva di una connessione al server. Y= corsa con archiviazione e inoltro; N= non una corsa con archiviazione e inoltro. |
tipAmount | double | 12,121 | 1.0 2.0 | Questo campo viene popolato automaticamente per le mance tramite carta di credito. Le mance in contanti non sono incluse. |
tollsAmount | double | 6,634 | 5.33 4.8 | Importo totale di tutti i pedaggi pagati durante la corsa. |
totalAmount | double | 39,707 | 7.0 7.8 | Importo totale addebitato ai passeggeri. Non include le mance in contanti. |
tpepDropoffDateTime | timestamp | 290,185,010 | 2010-11-07 01:29:00 2013-11-03 01:22:00 | Data e ora in cui è stato disattivato il tassametro. |
tpepPickupDateTime | timestamp | 289,948,585 | 2010-11-07 01:00:00 2009-11-01 01:05:00 | Data e ora in cui è stato attivato il contatore. |
tripDistance | double | 14,003 | 1.0 0.9 | Distanza percorsa durante la corsa in miglia segnalata dal tassametro. |
vendorID | string | 7 | VTS CMT | Codice che indica il fornitore TPEP che ha fornito il record. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
vendorID | int | 2 | 2 1 | Codice che indica il fornitore LPEP che ha fornito il record. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
Anteprima
vendorID | tpepPickupDateTime | tpepDropoffDateTime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeId | storeAndFwdFlag | paymentType | fareAmount | extra | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | puYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 1/24/2088 12:25:39 AM | 1/24/2088 7:28:25 AM | 1 | 4.05 | 24 | 162 | 1 | N | 2 | 14.5 | 0 | 0.5 | 0,3 | 0 | 0 | 15.3 | 2088 | 1 |
2 | 1/24/2088 12:15:42 AM | 1/24/2088 12:19:46 AM | 1 | 0,63 | 41 | 166 | 1 | N | 2 | 4.5 | 0 | 0.5 | 0,3 | 0 | 0 | 5.3 | 2088 | 1 |
2 | 11/4/2084 12:32:24 PM | 11/4/2084 12:47:41 PM | 1 | 1.34 | 238 | 236 | 1 | N | 2 | 10 | 0 | 0.5 | 0,3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 11/4/2084 12:25:53 PM | 11/4/2084 12:29:00 PM | 1 | 0,32 | 238 | 238 | 1 | N | 2 | 4 | 0 | 0.5 | 0,3 | 0 | 0 | 4.8 | 2084 | 11 |
2 | 11/4/2084 12:08:33 PM | 11/4/2084 12:22:24 PM | 1 | 1.85 | 236 | 238 | 1 | N | 2 | 10 | 0 | 0.5 | 0,3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 11/4/2084 11:41:35 AM | 11/4/2084 11:59:41 AM | 1 | 1,65 | 68 | 237 | 1 | N | 2 | 12.5 | 0 | 0.5 | 0,3 | 0 | 0 | 13.3 | 2084 | 11 |
2 | 11/4/2084 11:27:28 AM | 11/4/2084 11:39:52 AM | 1 | 1.07 | 170 | 68 | 1 | N | 2 | 9 | 0 | 0.5 | 0,3 | 0 | 0 | 9.8 | 2084 | 11 |
2 | 11/4/2084 11:19:06 AM | 11/4/2084 11:26:44 AM | 1 | 1.3 | 107 | 170 | 1 | N | 2 | 7.5 | 0 | 0.5 | 0,3 | 0 | 0 | 8.3 | 2084 | 11 |
2 | 11/4/2084 11:02:59 AM | 11/4/2084 11:15:51 AM | 1 | 1.85 | 113 | 137 | 1 | N | 2 | 10 | 0 | 0.5 | 0,3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 11/4/2084 10:46:05 AM | 11/4/2084 10:50:09 AM | 1 | 0,62 | 231 | 231 | 1 | N | 2 | 4.5 | 0 | 0.5 | 0,3 | 0 | 0 | 5.3 | 2084 | 11 |
Accesso ai dati
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Passaggi successivi
Visualizzare il resto dei set di dati nel catalogo dei set di dati aperti.