Komisi Taksi & Limusin NYC - catatan perjalanan taksi kuning
Catatan perjalanan taksi kuning meliputi bidang yang mencatat tanggal/waktu penjemputan dan pengantaran, lokasi penjemputan dan pengantaran, jarak perjalanan, tarif terperinci, jenis tarif, jenis pembayaran, dan jumlah penumpang yang dilaporkan pengemudi.
Catatan
Microsoft menyediakan Azure Open Datasets berdasarkan "apa adanya". Microsoft tidak memberikan jaminan, tersurat maupun tersirat, jaminan atau ketentuan sehubungan dengan penggunaan Anda atas himpunan data. Sejauh diizinkan menurut undang-undang setempat Anda, Microsoft melepaskan semua tanggung jawab atas segala kerusakan atau kerugian, termasuk langsung, konsekuensial, khusus, tidak langsung, insidental, atau hukuman, yang diakibatkan oleh penggunaan Anda atas kumpulan data.
Kumpulan data ini disediakan di bawah ketentuan asli yang diterima Microsoft data sumbernya. Himpunan data mungkin menyertakan data yang bersumber dari Microsoft.
Volume dan retensi
Himpunan data ini disimpan dalam format Parquet. Total terdapat total sekitar 1.5M baris (50 GB) per 2018.
Himpunan data ini berisi catatan historis yang diakumulasi dari 2009 hingga 2018. Anda dapat menggunakan pengaturan parameter di SDK kami untuk mengambil data dalam rentang waktu tertentu.
Lokasi penyimpanan
Himpunan data ini disimpan di wilayah Azure US Timur. Disarankan untuk mengalokasikan sumber daya komputasi di US Timur untuk afinitas.
Informasi Tambahan
Komisi Taksi dan Limousine NYC (TLC):
Data dikumpulkan dan diberikan kepada Komisi Taksi dan Limousine NYC (TLC) oleh penyedia teknologi yang berwenang di bawah Program Peningkatan Penumpang Taksi dan Seragam (TPEP/LPEP). Data perjalanan tidak dibuat oleh TLC, dan TLC tidak membuat representasi tentang keakuratan data ini.
Lihat lokasi set data asli dan ketentuan penggunaan asli.
Kolom
Nama | Jenis data | Unik | Nilai (sampel) | Deskripsi |
---|---|---|---|---|
doLocationId | string | 265 | 161 236 | Zona Taxi TLC tempat argometer dilepaskan. |
endLat | ganda | 961,994 | 41.366138 40.75 | |
endLon | ganda | 1,144,935 | -73.137393 -73.9824 | |
extra | ganda | 877 | 0,5 1,0 | Biaya tambahan dan lain-lain. Saat ini, ini hanya mencakup biaya jam sibuk dan biaya semalam $0,50 dan $1. |
fareAmount | ganda | 18,935 | 6.5 4.5 | Tarif waktu dan jarak dihitung menggunakan meteran. |
improvementSurcharge | string | 60 | 0,3 0 | Biaya tambahan perbaikan sebesar $0,30 dinilai pada perjalanan di tempat penurunan penumpang. Biaya tambahan perbaikan mulai dikenakan pada tahun 2015. |
mtaTax | ganda | 360 | 0,5 -0,5 | Pajak MTA $0,50 yang secara otomatis dipicu berdasarkan tarif meteran yang digunakan. |
passengerCount | int | 64 | 1 2 | Jumlah penumpang di dalam kendaraan. Ini adalah nilai yang dimasukkan oleh pengemudi. |
paymentType | string | 6.282 | CSH CRD | Kode numerik menandakan bagaimana penumpang membayar perjalanan. 1= Kartu kredit; 2= Tunai; 3= Tanpa biaya; 4= Sengketa; 5= Tidak diketahui; 6= Perjalanan dibatalkan. |
puLocationId | string | 266 | 237 161 | TLC Taxi Zone tempat argometer dipasang. |
puMonth | int | 12 | 3 5 | |
puYear | int | 29 | 2012 2011 | |
rateCodeId | int | 56 | 1 2 | Kode tarif akhir berlaku di akhir perjalanan. 1= Tarif standar; 2= JFK; 3= Newark; 4= Nassau atau Westchester; 5= Tarif negosiasi; 6= Penumpang grup. |
startLat | ganda | 833,016 | 41.366138 40.7741 | |
startLon | ganda | 957,428 | -73.137393 -73.9821 | |
storeAndFwdFlag | string | 8 | N 0 | Bendera ini menunjukkan apakah catatan perjalanan disimpan dalam memori kendaraan sebelum dikirim ke vendor, dan juga dikenal sebagai "simpan dan teruskan," karena kendaraan tidak memiliki koneksi ke server. Y= perjalanan simpan dan teruskan; N = bukan perjalanan simpan dan teruskan. |
tipAmount | ganda | 12,121 | 1,0 2,0 | Bidang ini secara otomatis diisi untuk tip kartu kredit. Tip tunai tidak disertakan. |
tollsAmount | ganda | 6,634 | 5.33 4.8 | Jumlah total semua biaya yang dibayarkan selama perjalanan. |
totalAmount | ganda | 39,707 | 7.0 7.8 | Jumlah total yang dibebankan kepada penumpang. Tidak termasuk tip uang tunai. |
tpepDropoffDateTime | rentang waktu | 290,185,010 | 07-11-2010 01:29:00 03-11-2013 01:22:00 | Tanggal dan waktu saat meteran dilepas. |
tpepPickupDateTime | rentang waktu | 289,948,585 | 07-11-2010 01:00:00 01-11-2009 01:05:00 | Tanggal dan waktu saat meteran dipasang. |
tripDistance | ganda | 14,003 | 1.0 0.9 | Jarak perjalanan yang berlalu dalam mil dilaporkan oleh argometer. |
vendorID | string | 7 | VTS CMT | Kode yang menunjukkan penyedia TPEP yang menyediakan catatan. 1= Teknologi Seluler Kreatif, LLC; 2= VeriFone Inc. |
vendorID | int | 2 | 2 1 | Kode yang menunjukkan penyedia LPEP yang menyediakan catatan. 1= Teknologi Seluler Kreatif, LLC; 2= VeriFone Inc. |
Pratinjau
vendorID | tpepPickupDateTime | tpepDropoffDateTime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeId | storeAndFwdFlag | paymentType | fareAmount | extra | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | puYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 24/1/2088 Pukul 00:25:39 | 24/1/2088 Pukul 07:28:25. | 1 | 4.05 | 24 | 162 | 1 | N | 2 | 14,5 | 0 | 0,5 | 0,3 | 0 | 0 | 15.3 | 2088 | 1 |
2 | 24/1/2088 Pukul 00:15:42 | 24/1/2088 Pukul 00:19:46 | 1 | 0,63 | 41 | 166 | 1 | N | 2 | 4.5 | 0 | 0,5 | 0,3 | 0 | 0 | 5.3 | 2088 | 1 |
2 | 4/11/2084 Pukul 12:32:24 | 4/11/2084 Pukul 12:47:41 | 1 | 1.34 | 238 | 236 | 1 | N | 2 | 10 | 0 | 0,5 | 0,3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 4/11/2084 Pukul 13:25:53 | 4/11/2084 Pukul 12:29:00 | 1 | 0,32 | 238 | 238 | 1 | N | 2 | 4 | 0 | 0,5 | 0,3 | 0 | 0 | 4.8 | 2084 | 11 |
2 | 4/11/2084 Pukul 12:08:33 | 4/11/2084 Pukul 12:22:24 | 1 | 1.85 | 236 | 238 | 1 | N | 2 | 10 | 0 | 0,5 | 0,3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 4/11/2084 Pukul 11:41:35 | 4/11/2084 Pukul 11:59:41 | 1 | 1.65 | 68 | 237 | 1 | N | 2 | 12.5 | 0 | 0,5 | 0,3 | 0 | 0 | +13.3 | 2084 | 11 |
2 | 4/11/2084 Pukul 11:27:28 | 4/11/2084 Pukul 11:39:52 | 1 | 1.07 | 170 | 68 | 1 | N | 2 | 9 | 0 | 0,5 | 0,3 | 0 | 0 | 9.8 | 2084 | 11 |
2 | 4/11/2084 Pukul 11:19:06 | 4/11/2084 Pukul 11:26:44 | 1 | 1.3 | 107 | 170 | 1 | N | 2 | 7.5 | 0 | 0,5 | 0,3 | 0 | 0 | 8.3 | 2084 | 11 |
2 | 4/11/2084 Pukul 11:02:59 | 4/11/2084 Pukul 11:15:51 | 1 | 1.85 | 113 | 137 | 1 | N | 2 | 10 | 0 | 0,5 | 0,3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 4/11/2084 Pukul 10:46:05 | 4/11/2084 Pukul 10:50:09 | 1 | 0.62 | 231 | 231 | 1 | N | 2 | 4.5 | 0 | 0,5 | 0,3 | 0 | 0 | 5.3 | 2084 | 11 |
Akses data
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Langkah berikutnya
Lihat himpunan data lainnya di katalog Open Datasets.