NYC Taxi & Limousine Commission - gele taxirit records
De gele taxiritrecords bevatten velden met de datums/tijden waarop passagiers zijn opgehaald en afgezet, locaties voor ophalen en afzetten, ritafstanden, in items verdeelde tarieven, tarieftypen, betalingstypen en door de chauffeur gerapporteerde passagiersaantallen.
Notitie
Microsoft biedt Azure Open Datasets op basis van 'zoals is'. Microsoft geeft geen garanties, uitdrukkelijk of impliciet, garanties of voorwaarden met betrekking tot uw gebruik van de gegevenssets. Voor zover toegestaan volgens uw lokale wetgeving, wijst Microsoft alle aansprakelijkheid af voor eventuele schade of verliezen, waaronder directe, gevolgschade, speciale, indirecte, incidentele of strafbare gegevenssets, die het gevolg zijn van uw gebruik van de gegevenssets.
Deze gegevensset wordt geleverd onder de oorspronkelijke voorwaarden dat Microsoft de brongegevens heeft ontvangen. De gegevensset kan gegevens bevatten die afkomstig zijn van Microsoft.
Volume en retentie
Deze gegevensset wordt opgeslagen in de Parquet-indeling. Er zijn in totaal ongeveer 1,5B rijen (50 GB) vanaf 2018.
Deze gegevensset bevat historische records die van 2009 tot en met 2018 heden zijn verzameld. U kunt in onze SDK gebruikmaken van parameterinstellingen om gegevens op te halen binnen een specifiek tijdsbereik.
Opslaglocatie
Deze gegevensset wordt opgeslagen in de Azure-regio US - oost. Het wordt aanbevolen om rekenresources in US - oost toe te wijzen voor affiniteit.
Aanvullende informatie
NYC Taxi and Limousine Commission (TLC):
De gegevens die zijn verzameld en aan de NYC Taxi and Limousine Commission (TLC) zijn gegevens door technologiepartners die bevoegd zijn onder de Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP). De ritgegevens zijn niet door TLC gemaakt en TLC geeft geen verklaring over de nauwkeurigheid van deze gegevens.
Bekijk de oorspronkelijke locatie van de gegevensset en de oorspronkelijke gebruiksvoorwaarden.
Kolommen
Naam | Gegevenstype | Uniek | Waarden (voorbeeld) | Beschrijving |
---|---|---|---|---|
doLocationId | tekenreeks | 265 | 161 236 | De taxizone voor TLC waarin de taximeter is uitgeschakeld. |
endLat | dubbel | 961,994 | 41.366138 40.75 | |
endLon | dubbel | 1,144,935 | -73.137393 -73.9824 | |
extra | dubbel | 877 | 0.5 1.0 | Diverse extra kosten en toeslagen. Op dit moment bestaat deze lijst alleen uit de extra kosten van USD 0,50 en USD 1,00 voor ritten in de spits en nachtritten. |
fareAmount | dubbel | 18,935 | 6.5 4.5 | Het tarief op basis van tijd en afstand dat door de meter is berekend. |
improvementSurcharge | tekenreeks | 60 | 0.3 0 | Ritten die zijn beoordeeld voor de verhoging van de toeslag met USD 0,30 op het moment van markering. De toeslagen worden vanaf 2015 geheven. |
mtaTax | dubbel | 360 | 0.5 -0.5 | MTA-belasting van USD 0,50 wordt automatisch geactiveerd op basis van het berekende tarief dat wordt gebruikt. |
passengerCount | int | 64 | 1 2 | Het aantal passagiers in het voertuig. Deze waarde wordt door de chauffeur ingevoerd. |
paymentType | tekenreeks | 6,282 | CSH CRD | Een numerieke code waarmee wordt aangeduid hoe de passagier voor de rit heeft betaald. 1 = Creditcard; 2 = Contant; 3 = Geen kosten; 4 = Geschil; 5 = Onbekend; 6 = Ongeldige reis. |
puLocationId | tekenreeks | 266 | 237 161 | De taxizone voor TLC waarin de taximeter is ingeschakeld. |
puMonth | int | 12 | 3 5 | |
puYear | int | 29 | 2012 2011 | |
rateCodeId | int | 56 | 1 2 | De uiteindelijke tariefcode die aan het einde van de reis van toepassing is. 1 = Standaardtarief; 2 = JFK; 3 = Newark; 4= Nassau of Westchester; 5 = Onderhandeld tarief; 6 = Groepsrit. |
startLat | dubbel | 833,016 | 41.366138 40.7741 | |
startLon | dubbel | 957,428 | -73.137393 -73.9821 | |
storeAndFwdFlag | tekenreeks | 8 | N 0 | Met deze vlag wordt aangegeven of de reisrecord in het voertuiggeheugen is opgeslagen voordat deze naar de leverancier werd verzonden, ook wel bekend als 'opslaan en doorsturen', omdat het voertuig geen verbinding met de server had. Y= winkel- en vooruitreis; N= geen winkel- en vooruitreis. |
tipAmount | dubbel | 12,121 | 1.0 2.0 | Dit veld wordt automatisch ingevuld voor fooi die met creditcard wordt betaald. Contante fooi wordt niet meegerekend. |
tollsAmount | dubbel | 6,634 | 5.33 4.8 | Het totale bedrag van alle tolheffingen die tijdens de reis zijn betaald. |
totalAmount | dubbel | 39,707 | 7.0 7.8 | Het totale bedrag dat in rekening is gebracht voor de passagiers. Dit is exclusief fooien in contant geld. |
tpepDropoffDateTime | timestamp | 290,185,010 | 2010-11-07 01:29:00 2013-11-03 01:22:00 | De datum en tijd waarop de meter is uitgeschakeld. |
tpepPickupDateTime | timestamp | 289,948,585 | 2010-11-07 01:00:00 2009-11-01 01:05:00 | De datum en tijd waarop de meter is ingeschakeld. |
tripDistance | dubbel | 14,003 | 1.0 0.9 | De afgelegde afstand van de reis, in mijl, die door de taximeter wordt gemeld. |
vendorID | tekenreeks | 7 | VTS CMT | Een code die aangeeft welke TLPEP-provider het record heeft geleverd. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
vendorID | int | 2 | 2 1 | Een code die aangeeft welke LPEP-provider het record heeft geleverd. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
Preview uitvoeren
vendorID | tpepPickupDateTime | tpepDropoffDateTime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeId | storeAndFwdFlag | paymentType | fareAmount | extra | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | puYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 24-1-2088 12:25:39 uur | 1-24-2088 7:28:25 uur | 1 | 4.05 | 24 | 162 | 1 | N | 2 | 14.5 | 0 | 0,5 | 0,3 | 0 | 0 | 15.3 | 2088 | 1 |
2 | 24-1-2088 12:15:42 | 24-1-2088 12:19:46 uur | 1 | 0.63 | 41 | 166 | 1 | N | 2 | 4.5 | 0 | 0,5 | 0,3 | 0 | 0 | 5.3 | 2088 | 1 |
2 | 11/4/2084 12:32:24 PM | 11/4/2084 12:47:41 PM | 1 | 1.34 | 238 | 236 | 1 | N | 2 | 10 | 0 | 0,5 | 0,3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 11/4/2084 12:25:53 pm | 11/4/2084 12:29:00 pm | 1 | 0.32 | 238 | 238 | 1 | N | 2 | 4 | 0 | 0,5 | 0,3 | 0 | 0 | 4.8 | 2084 | 11 |
2 | 11/4/2084 12:08:33 PM | 11/4/2084 12:22:24 PM | 1 | 1.85 | 236 | 238 | 1 | N | 2 | 10 | 0 | 0,5 | 0,3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 11/4/2084 11:41:35 am | 11/4/2084 11:59:41 am | 1 | 1.65 | 68 | 237 | 1 | N | 2 | 12.5 | 0 | 0,5 | 0,3 | 0 | 0 | 13.3 | 2084 | 11 |
2 | 11/4/2084 11:27:28 am | 11/4/2084 11:39:52 AM | 1 | 1.07 | 170 | 68 | 1 | N | 2 | 9 | 0 | 0,5 | 0,3 | 0 | 0 | 9.8 | 2084 | 11 |
2 | 11-4-2084 11:19:06 uur | 11/4/2084 11:26:44 am | 1 | 1.3 | 107 | 170 | 1 | N | 2 | 7.5 | 0 | 0,5 | 0,3 | 0 | 0 | 8.3 | 2084 | 11 |
2 | 11-4-2084 11:02:59 uur | 11/4/2084 11:15:51 AM | 1 | 1.85 | 113 | 137 | 1 | N | 2 | 10 | 0 | 0,5 | 0,3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 11-4-2084 10:46:05 uur | 11-4-2084 10:50:09 uur | 1 | 0,62 | 231 | 231 | 1 | N | 2 | 4.5 | 0 | 0,5 | 0,3 | 0 | 0 | 5.3 | 2084 | 11 |
Toegang tot gegevens
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Volgende stappen
Bekijk de rest van de gegevenssets in de catalogus Open Datasets.