Bagikan melalui


Komisi Taksi & Limusin NYC - catatan perjalanan taksi kuning

Catatan perjalanan taksi kuning meliputi bidang yang mencatat tanggal/waktu penjemputan dan pengantaran, lokasi penjemputan dan pengantaran, jarak perjalanan, tarif terperinci, jenis tarif, jenis pembayaran, dan jumlah penumpang yang dilaporkan pengemudi.

Catatan

Microsoft menyediakan Azure Open Datasets berdasarkan "apa adanya". Microsoft tidak memberikan jaminan, tersurat maupun tersirat, jaminan atau ketentuan sehubungan dengan penggunaan Anda atas himpunan data. Sejauh diizinkan menurut undang-undang setempat Anda, Microsoft melepaskan semua tanggung jawab atas segala kerusakan atau kerugian, termasuk langsung, konsekuensial, khusus, tidak langsung, insidental, atau hukuman, yang diakibatkan oleh penggunaan Anda atas kumpulan data.

Kumpulan data ini disediakan di bawah ketentuan asli yang diterima Microsoft data sumbernya. Himpunan data mungkin menyertakan data yang bersumber dari Microsoft.

Volume dan retensi

Himpunan data ini disimpan dalam format Parquet. Total terdapat total sekitar 1.5M baris (50 GB) per 2018.

Himpunan data ini berisi catatan historis yang diakumulasi dari 2009 hingga 2018. Anda dapat menggunakan pengaturan parameter di SDK kami untuk mengambil data dalam rentang waktu tertentu.

Lokasi penyimpanan

Himpunan data ini disimpan di wilayah Azure US Timur. Disarankan untuk mengalokasikan sumber daya komputasi di US Timur untuk afinitas.

Informasi Tambahan

Komisi Taksi dan Limousine NYC (TLC):

Data dikumpulkan dan diberikan kepada Komisi Taksi dan Limousine NYC (TLC) oleh penyedia teknologi yang berwenang di bawah Program Peningkatan Penumpang Taksi dan Seragam (TPEP/LPEP). Data perjalanan tidak dibuat oleh TLC, dan TLC tidak membuat representasi tentang keakuratan data ini.

Lihat lokasi set data asli dan ketentuan penggunaan asli.

Kolom

Nama Jenis data Unik Nilai (sampel) Deskripsi
doLocationId string 265 161 236 Zona Taxi TLC tempat argometer dilepaskan.
endLat ganda 961,994 41.366138 40.75
endLon ganda 1,144,935 -73.137393 -73.9824
extra ganda 877 0,5 1,0 Biaya tambahan dan lain-lain. Saat ini, ini hanya mencakup biaya jam sibuk dan biaya semalam $0,50 dan $1.
fareAmount ganda 18,935 6.5 4.5 Tarif waktu dan jarak dihitung menggunakan meteran.
improvementSurcharge string 60 0,3 0 Biaya tambahan perbaikan sebesar $0,30 dinilai pada perjalanan di tempat penurunan penumpang. Biaya tambahan perbaikan mulai dikenakan pada tahun 2015.
mtaTax ganda 360 0,5 -0,5 Pajak MTA $0,50 yang secara otomatis dipicu berdasarkan tarif meteran yang digunakan.
passengerCount int 64 1 2 Jumlah penumpang di dalam kendaraan. Ini adalah nilai yang dimasukkan oleh pengemudi.
paymentType string 6.282 CSH CRD Kode numerik menandakan bagaimana penumpang membayar perjalanan. 1= Kartu kredit; 2= Tunai; 3= Tanpa biaya; 4= Sengketa; 5= Tidak diketahui; 6= Perjalanan dibatalkan.
puLocationId string 266 237 161 TLC Taxi Zone tempat argometer dipasang.
puMonth int 12 3 5
puYear int 29 2012 2011
rateCodeId int 56 1 2 Kode tarif akhir berlaku di akhir perjalanan. 1= Tarif standar; 2= JFK; 3= Newark; 4= Nassau atau Westchester; 5= Tarif negosiasi; 6= Penumpang grup.
startLat ganda 833,016 41.366138 40.7741
startLon ganda 957,428 -73.137393 -73.9821
storeAndFwdFlag string 8 N 0 Bendera ini menunjukkan apakah catatan perjalanan disimpan dalam memori kendaraan sebelum dikirim ke vendor, dan juga dikenal sebagai "simpan dan teruskan," karena kendaraan tidak memiliki koneksi ke server. Y= perjalanan simpan dan teruskan; N = bukan perjalanan simpan dan teruskan.
tipAmount ganda 12,121 1,0 2,0 Bidang ini secara otomatis diisi untuk tip kartu kredit. Tip tunai tidak disertakan.
tollsAmount ganda 6,634 5.33 4.8 Jumlah total semua biaya yang dibayarkan selama perjalanan.
totalAmount ganda 39,707 7.0 7.8 Jumlah total yang dibebankan kepada penumpang. Tidak termasuk tip uang tunai.
tpepDropoffDateTime rentang waktu 290,185,010 07-11-2010 01:29:00 03-11-2013 01:22:00 Tanggal dan waktu saat meteran dilepas.
tpepPickupDateTime rentang waktu 289,948,585 07-11-2010 01:00:00 01-11-2009 01:05:00 Tanggal dan waktu saat meteran dipasang.
tripDistance ganda 14,003 1.0 0.9 Jarak perjalanan yang berlalu dalam mil dilaporkan oleh argometer.
vendorID string 7 VTS CMT Kode yang menunjukkan penyedia TPEP yang menyediakan catatan. 1= Teknologi Seluler Kreatif, LLC; 2= VeriFone Inc.
vendorID int 2 2 1 Kode yang menunjukkan penyedia LPEP yang menyediakan catatan. 1= Teknologi Seluler Kreatif, LLC; 2= VeriFone Inc.

Pratinjau

vendorID tpepPickupDateTime tpepDropoffDateTime passengerCount tripDistance puLocationId doLocationId rateCodeId storeAndFwdFlag paymentType fareAmount extra mtaTax improvementSurcharge tipAmount tollsAmount totalAmount puYear puMonth
2 24/1/2088 Pukul 00:25:39 24/1/2088 Pukul 07:28:25. 1 4.05 24 162 1 N 2 14,5 0 0,5 0,3 0 0 15.3 2088 1
2 24/1/2088 Pukul 00:15:42 24/1/2088 Pukul 00:19:46 1 0,63 41 166 1 N 2 4.5 0 0,5 0,3 0 0 5.3 2088 1
2 4/11/2084 Pukul 12:32:24 4/11/2084 Pukul 12:47:41 1 1.34 238 236 1 N 2 10 0 0,5 0,3 0 0 10.8 2084 11
2 4/11/2084 Pukul 13:25:53 4/11/2084 Pukul 12:29:00 1 0,32 238 238 1 N 2 4 0 0,5 0,3 0 0 4.8 2084 11
2 4/11/2084 Pukul 12:08:33 4/11/2084 Pukul 12:22:24 1 1.85 236 238 1 N 2 10 0 0,5 0,3 0 0 10.8 2084 11
2 4/11/2084 Pukul 11:41:35 4/11/2084 Pukul 11:59:41 1 1.65 68 237 1 N 2 12.5 0 0,5 0,3 0 0 +13.3 2084 11
2 4/11/2084 Pukul 11:27:28 4/11/2084 Pukul 11:39:52 1 1.07 170 68 1 N 2 9 0 0,5 0,3 0 0 9.8 2084 11
2 4/11/2084 Pukul 11:19:06 4/11/2084 Pukul 11:26:44 1 1.3 107 170 1 N 2 7.5 0 0,5 0,3 0 0 8.3 2084 11
2 4/11/2084 Pukul 11:02:59 4/11/2084 Pukul 11:15:51 1 1.85 113 137 1 N 2 10 0 0,5 0,3 0 0 10.8 2084 11
2 4/11/2084 Pukul 10:46:05 4/11/2084 Pukul 10:50:09 1 0.62 231 231 1 N 2 4.5 0 0,5 0,3 0 0 5.3 2084 11

Akses data

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser

end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Langkah berikutnya

Lihat himpunan data lainnya di katalog Open Datasets.