NYC Taxi & Lim Commission - record di corse in taxi verdi
I record relativi alle corse dei taxi verdi includono campi contenenti data e ora di partenza e di arrivo, luogo di partenza e di arrivo, distanze delle corse, dettaglio delle tariffe, tipi di tariffa, tipi di pagamento e numero di passeggeri segnalato dal tassista.
Nota
Microsoft fornisce set di dati aperti di Azure su base "così come è". Microsoft non garantisce, esplicitamente o implicitamente, garanzie o condizioni in relazione all'uso dei set di dati. Nella misura consentita dalla legge locale, Microsoft dichiara tutte le responsabilità per eventuali danni o perdite, tra cui diretto, consequenziale, speciale, indiretto, incidentale o incidentale, risultante dall'uso dei set di dati.
Questo set di dati viene fornito in conformità con le condizioni originali in base alle quali Microsoft ha ricevuto i dati di origine. Il set di dati potrebbe includere dati provenienti da Microsoft.
Volume e conservazione
Il set di dati è archiviato nel formato Parquet. Ci sono circa 80 milioni di righe (2 GB) in totale a partire dal 2018.
Questo set di dati include record cronologici accumulati dal 2009 al 2018. Puoi usare le impostazioni dei parametri nell'SDK per recuperare i dati entro un intervallo di tempo specifico.
Posizione di archiviazione
Questo set di dati è archiviato nell'area Stati Uniti orientali di Azure. L'allocazione delle risorse di calcolo nell'area Stati Uniti orientali è consigliata per motivi di affinità.
Informazioni aggiuntive
NYC Taxi and Limousine Commission (TLC):
I dati sono stati raccolti e forniti al NYC Taxi and Lim Commission (TLC) da fornitori di tecnologia autorizzati ai programmi di miglioramento dei passeggeri (TPEP/LPEP) di Taxicab & Livery Passenger Enhancement Program( TPEP/LPEP). I dati relativi alle corse non sono stati creati da TLC e TLC non rilascia alcuna dichiarazione relativamente alla correttezza di tali dati.
Visualizzare la posizione originale del set di dati e le condizioni per l'utilizzo originali.
Colonne
Nome | Tipo di dati | Univoco | Valori (esempio) | Descrizione |
---|---|---|---|---|
doLocationId | string | 264 | 74 42 | DOLocationID dell'area taxi TLC in cui è stato attivato il tassametro. |
dropoffLatitude | double | 109,721 | 40.7743034362793 40.77431869506836 | Deprecato a partire da 2016.07 |
dropoffLongitude | double | 75,502 | -73.95272827148438 -73.95274353027344 | Deprecato a partire da 2016.07 |
extra | double | 202 | 0.5 1.0 | Extra e maggiorazioni vari. Include attualmente solo gli addebiti pari a 0,50 USD e 1 USD per l'ora di punta e per la notte. |
fareAmount | double | 10,367 | 6.0 5.5 | Tariffa in base a durata e distanza calcolata dal tassametro. |
improvementSurcharge | string | 92 | 0.3 0 | Maggiorazione di $ 0,30 per il miglioramento del servizio aggiunta alla tariffa fissa sulle corse dei taxi chiamati in strada. La maggiorazione per il miglioramento del servizio viene applicata dal 2015. |
lpepDropoffDatetime | timestamp | 58,100,713 | 2016-05-22 00:00:00 2016-05-09 00:00:00 | Data e ora in cui è stato disattivato il tassametro. |
lpepPickupDatetime | timestamp | 58,157,349 | 2013-10-22 12:40:36 2014-08-09 15:54:25 | Data e ora in cui è stato attivato il contatore. |
mtaTax | double | 34 | 0.5 -0.5 | Imposta MTA di $ 0,50 automaticamente attivata in base alla tariffa del tassametro in uso. |
passengerCount | INT | 10 | 1 2 | Numero di passeggeri nel veicolo. Si tratta di un valore immesso dall'autista. |
paymentType | INT | 5 | 2 1 | Codice numerico che indica il modo in cui il passeggero ha pagato la corsa. 1= Carta di credito 2= Contanti 3= Nessun addebito 4= Controversia 5= Sconosciuto 6= Viaggio annullato |
pickupLatitude | double | 95,110 | 40.721351623535156 40.721336364746094 | Deprecato a partire da 2016.07 |
pickupLongitude | double | 55,722 | -73.84429931640625 -73.84429168701172 | Deprecato a partire da 2016.07 |
puLocationId | string | 264 | 74 41 | Valore TLC Taxi Zone in cui è stato attivato il tassametro. |
puMonth | INT | 12 | 3 5 | |
puYear | INT | 14 | 2015 2016 | |
rateCodeID | INT | 7 | 1 5 | Codice di tariffa finale in vigore alla fine della corsa. 1= Tariffa standard 2= JFK 3= Newark 4= Attestazione o Westchester 5= Tariffa negoziata 6= Giro di gruppo |
storeAndFwdFlag | string | 2 | N Y | Questo flag indica se il record di viaggio è stato mantenuto nella memoria del veicolo prima dell'invio al fornitore, noto anche come "negozio e inoltro", perché il veicolo non ha avuto una connessione al server. Y= store and forward trip N= not a store and forward trip |
tipAmount | double | 6,206 | 1.0 2.0 | Importo delle mance: questo campo viene popolato automaticamente per le mance tramite carta di credito. Le mance in contanti non sono incluse. |
tollsAmount | double | 2,150 | 5.54 5.76 | Importo totale di tutti i pedaggi pagati durante la corsa. |
totalAmount | double | 20,188 | 7.8 6.8 | Importo totale addebitato ai passeggeri. Non include le mance in contanti. |
tripDistance | double | 7,060 | 0.9 1.0 | Distanza percorsa durante la corsa in miglia segnalata dal tassametro. |
tripType | INT | 3 | 1 2 | Codice che indica se la corsa ha avuto inizio con una richiesta a bordo strada o una chiamata ufficiale assegnata automaticamente in base alla tariffa del tassametro in uso ma modificabile dal guidatore. 1= Street-hail 2= Dispatch |
vendorID | INT | 2 | 2 1 | Codice che indica il fornitore LPEP che ha fornito il record. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
Anteprima
vendorID | lpepPickupDatetime | lpepDropoffDatetime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeID | storeAndFwdFlag | paymentType | fareAmount | extra | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | tripType | puYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 24/06/2081 5:40:37 PM | 24/6/2081 6:42:47 PM | 1 | 16.95 | 93 | 117 | 1 | N | 1 | 52 | 1 | 0.5 | 0,3 | 0 | 2.16 | 55.96 | 1 | 2081 | 6 |
2 | 28/11/2030 12:19:29 | 11/28/2030 12:25:37 AM | 1 | 1.08 | 42 | 247 | 1 | N | 2 | 6.5 | 0 | 0.5 | 0,3 | 0 | 0 | 7.3 | 1 | 2030 | 11 |
2 | 11/28/2030 12:14:50 | 11/28/2030 12:14:54 AM | 1 | 0.03 | 42 | 42 | 5 | N | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 5 | 2 | 2030 | 11 |
2 | 11/14/2020 11:38:07 AM | 11/14/2020 11:42:22 AM | 1 | 0.63 | 129 | 129 | 1 | N | 2 | 4.5 | 1 | 0.5 | 0,3 | 0 | 0 | 6.3 | 1 | 2020 | 11 |
2 | 11/14/2020 9:55:36 AM | 11/14/2020 10:04:54 AM | 1 | 3.8 | 82 | 138 | 1 | N | 2 | 12.5 | 1 | 0.5 | 0,3 | 0 | 0 | 14.3 | 1 | 2020 | 11 |
2 | 8/26/2019 4:18:37 PM | 8/26/2019 4:19:35 PM | 1 | 0 | 264 | 264 | 1 | N | 2 | 1 | 0 | 0.5 | 0,3 | 0 | 0 | 1.8 | 1 | 2019 | 8 |
2 | 7/1/2019 8:28:33 | 7/1/2019 8:32:33 AM | 1 | 0.71 | 7 | 7 | 1 | N | 1 | 5 | 0 | 0.5 | 0,3 | 1.74 | 0 | 7.54 | 1 | 2019 | 7 |
2 | 7/1/2019 12:04:53 AM | 7/1/2019 12:21:56 | 1 | 2.71 | 223 | 145 | 1 | N | 2 | 13 | 0.5 | 0.5 | 0,3 | 0 | 0 | 14.3 | 1 | 2019 | 7 |
2 | 7/1/2019 12:04:11 | 7/1/2019 12:21:15 | 1 | 3,14 | 166 | 142 | 1 | N | 2 | 14.5 | 0.5 | 0.5 | 0,3 | 0 | 0 | 18.55 | 1 | 2019 | 7 |
2 | 7/1/2019 12:03:37 AM | 7/1/2019 12:09:27 | 1 | 0,78 | 74 | 74 | 1 | N | 1 | 6 | 0.5 | 0.5 | 0,3 | 1.46 | 0 | 8.76 | 1 | 2019 | 7 |
Accesso ai dati
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
# Display data statistic information
display(nyc_tlc_df, summary = True)
Passaggi successivi
Visualizzare il resto dei set di dati nel catalogo Open Datasets.