Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Datensätze zu Fahrten mit gelben Taxis enthalten Felder mit Datum/Uhrzeit für Abholung und Ankunft, Start- und Zielort, Fahrtentfernungen, Einzelkosten, Tarifarten, Zahlungsarten und vom Fahrer gemeldeten Fahrgastzahlen.
Hinweis
Microsoft stellt Datasets der Plattform Azure Open Datasets auf einer „As is“-Basis (d. h. ohne Mängelgewähr) zur Verfügung. Microsoft übernimmt weder ausdrücklich noch stillschweigend die Gewährleistung für Ihre Nutzung der Datasets und sichert keinerlei Garantien oder Bedingungen zu. Soweit nach örtlich anwendbarem Recht zulässig, lehnt Microsoft jegliche Haftung für Schäden oder Verluste ab. Dies schließt direkte, indirekte, besondere oder zufällige Schäden oder Verluste sowie Folge- und Strafschäden und damit verbundene Verluste ein, die sich aus Ihrer Nutzung der Datasets ergeben.
Dieses Dataset wird unter den ursprünglichen Bedingungen bereitgestellt, unter denen Microsoft Quelldaten empfangen hat. Das Dataset kann Daten enthalten, die von Microsoft stammen.
Volume und Aufbewahrung
Dieses Dataset wird im Parquet-Format gespeichert. Aktuell (Stand: 2018) gibt es etwa 1,5 Milliarden Zeilen (50 GB). Ab 2019 werden umfangreiche Reisedatensätze separat aufgezeichnet.
Dieses Dataset enthält historische Datensätze, die von 2009 bis 2025 gesammelt wurden. Verwenden Sie Parametereinstellungen im SDK, um Daten innerhalb eines bestimmten Zeitbereichs abzurufen.
Speicherort
Dieses Dataset wird in der Azure-Region „USA, Osten“ gespeichert. Aus Gründen der Affinität wird die Zuweisung von Computeressourcen in der Region „USA, Osten“ empfohlen.
Zusätzliche Informationen
NYC Taxi and Limousine Commission (TLC):
Die Daten wurden von Technologieanbietern, die im Rahmen des Taxicab Livery Passenger Enhancement Programs (TPEP/LPEP) zugelassen sind, gesammelt und der NYC Taxi and Limousine Commission (TLC) zur Verfügung gestellt. Die Fahrtdaten wurden nicht von der TLC erstellt, und die TLC übernimmt keine Garantie für die Genauigkeit dieser Daten.
Zeigen Sie den ursprünglichen Speicherort des Datasets und die ursprünglichen Nutzungsbedingungen an.
Spalten
| Name | Datentyp | Eindeutig | Werte (Beispiel) | BESCHREIBUNG |
|---|---|---|---|---|
| doLocationId | Zeichenfolge | 265 | 161 236 | TLC-Taxizone, in der das Taxameter abgeschaltet wurde. |
| endLat | double | 961,994 | 41.366138 40.75 | |
| endLon | double | 1,144,935 | -73.137393 -73.9824 | |
| extra | double | 877 | 0,5 1,0 | Verschiedene Extras und Zusatzkosten. Derzeit umfasst dies nur die Berufsverkehrs- und Nachtzuschläge in Höhe von 0,50 USD und 1 USD. |
| fareAmount | double | 18,935 | 6.5 4.5 | Die vom Taxameter anhand der Zeit und Strecke berechneten Kosten. |
| improvementSurcharge | Zeichenfolge | 60 | 0,3 0 | Aufschlag in Höhe von 0,30 USD für kurze Distanzen. Dieser Aufschlag wurde im Jahr 2015 eingeführt. |
| mtaTax | double | 360 | 0,5 -0,5 | MTA-Steuer von 0,50 USD, die automatisch anhand der berechneten Kosten ausgelöst wird. |
| passengerCount | INT | 64 | 1 2 | Die Anzahl der Mitfahrer im Fahrzeug. Dieser Wert wird vom Fahrer eingegeben. |
| paymentType | Zeichenfolge | 6.282 | CSH CRD | Ein numerischer Code, der angibt, wie der Kunde für die Fahrt bezahlt hat. 1 = Kreditkarte; 2 = Bargeld; 3 = Keine Gebühr; 4 = Konflikt; 5 = Unbekannt; 6 = Ungültige Fahrt. |
| puLocationId | Zeichenfolge | 266 | 237 161 | TLC-Taxizone, in der das Taxameter eingeschaltet wurde. |
| puMonth | INT | 12 | 3 5 | |
| puYear | INT | 29 | 2012 2011 | |
| rateCodeId | INT | 56 | 1 2 | Der zuletzt geltende Tarifode am Ende der Fahrt. 1 = Standardpreis; 2 = JFK; 3 = Newark; 4 = Nassau oder Westchester; 5 = Ausgehandelter Fahrpreis; 6 = Gruppenfahrt. |
| startLat | double | 833,016 | 41.366138 40.7741 | |
| startLon | double | 957,428 | -73.137393 -73.9821 | |
| storeAndFwdFlag | Zeichenfolge | 8 | N 0 | Diese Kennzeichnung gibt an, ob der Reisedatensatz im Fahrzeugspeicher gehalten wurde, bevor er an den Lieferanten gesendet wurde, auch bekannt als "Laden und Weiterleiten", da das Fahrzeug keine Verbindung mit dem Server hatte. Y = Fahrt mit Speicherung und Weiterleitung; N = Keine Fahrt mit Speicherung und Weiterleitung. |
| tipAmount | double | 12,121 | 1,0 2,0 | Dieses Feld wird für Trinkgelder per Kreditkarte automatisch aufgefüllt. Trinkgelder in bar sind nicht enthalten. |
| tollsAmount | double | 6,634 | 5.33 4.8 | Summe der gezahlten Mautgebühren für die Fahrt. |
| totalAmount | double | 39,707 | 7.0 7.8 | Der Gesamtbetrag, der Passagieren in Rechnung gestellt wird. Umfasst keine Trinkgelder in bar. |
| tpepDropoffDateTime | timestamp | 290,185,010 | 2010-11-07 01:29:00 2013-11-03 01:22:00 | Datum und Uhrzeit der Abschaltung des Taxameters. |
| tpepPickupDateTime | timestamp | 289,948,585 | 2010-11-07 01:00:00 2009-11-01 01:05:00 | Datum und Uhrzeit der Einschaltung des Taxameters. |
| tripDistance | double | 14,003 | 1.0 0.9 | Die zurückgelegte Strecke in Meilen entsprechend dem Taxameter. |
| vendorID | Zeichenfolge | 7 | VTS CMT | Ein Code, der den TPEP-Anbieter angibt, der den Datensatz bereitgestellt hat. 1 = Creative Mobile Technologies, LLC; 2 = VeriFone Inc. |
| vendorID | INT | 2 | 2 1 | Ein Code, der den LPEP-Anbieter angibt, der den Datensatz bereitgestellt hat. 1 = Creative Mobile Technologies, LLC; 2 = VeriFone Inc. |
Vorschau
| vendorID | tpepPickupDateTime | tpepDropoffDateTime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeId | storeAndFwdFlag | paymentType | fareAmount | extra | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | puYear | puMonth |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2 | 24.01.2088 12:25:39 Uhr | 1/24/2088 7:28:25 Am | 1 | 4.05 | 24 | 162 | 1 | N | 2 | 14.5 | 0 | 0.5 | 0,3 | 0 | 0 | 15,3 | 2088 | 1 |
| 2 | 24.01.2088 12:15:42 Uhr | 24.01.2088 12:19:46 Uhr | 1 | 0,63 | 41 | 166 | 1 | N | 2 | 4,5 | 0 | 0.5 | 0,3 | 0 | 0 | 5.3 | 2088 | 1 |
| 2 | 11.4.2084 12:32:24 Pm | 11/4/2084 12:47:41 PM | 1 | 1.34 | 238 | 236 | 1 | N | 2 | 10 | 0 | 0.5 | 0,3 | 0 | 0 | 10,8 | 2.084 | 11 |
| 2 | 11/4/2084 12:25:53 Pm | 11.4.2084 12:29:00 Uhr | 1 | 0,32 | 238 | 238 | 1 | N | 2 | 4 | 0 | 0.5 | 0,3 | 0 | 0 | 4.8 | 2.084 | 11 |
| 2 | 11/4/2084 12:08:33 Pm | 11/4/2084 12:22:24 Pm | 1 | 1,85 | 236 | 238 | 1 | N | 2 | 10 | 0 | 0.5 | 0,3 | 0 | 0 | 10,8 | 2.084 | 11 |
| 2 | 11.4.2084 11:41:35 Uhr | 11/4/2084 11:59:41 Am | 1 | 1,65 | 68 | 237 | 1 | N | 2 | 12,5 | 0 | 0.5 | 0,3 | 0 | 0 | 13.3 | 2.084 | 11 |
| 2 | 11.4.2084 11:27:28 Uhr | 11.4.2084 11:39:52 Uhr | 1 | 1,07 | 170 | 68 | 1 | N | 2 | 9 | 0 | 0.5 | 0,3 | 0 | 0 | 9,8 | 2.084 | 11 |
| 2 | 11.4.2084 11:19:06 Uhr | 11.4.2084 11:26:44 Uhr | 1 | 1.3 | 107 | 170 | 1 | N | 2 | 7,5 | 0 | 0.5 | 0,3 | 0 | 0 | 8.3 | 2.084 | 11 |
| 2 | 11.4.2084 11:02:59 Uhr | 11/4/2084 11:15:51 Am | 1 | 1,85 | 113 | 137 | 1 | N | 2 | 10 | 0 | 0.5 | 0,3 | 0 | 0 | 10,8 | 2.084 | 11 |
| 2 | 11.4.2084 10:46:05 Uhr | 11.4.2084 10:50:09 Uhr | 1 | 0.62 | 231 | 231 | 1 | N | 2 | 4,5 | 0 | 0.5 | 0,3 | 0 | 0 | 5.3 | 2.084 | 11 |
Datenzugriff
Azure-Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Nächste Schritte
Machen Sie sich mit den restlichen Datasets im Open Datasets-Katalog vertraut.