紐約市計程車和禮車委員會 - 綠色計程車車程記錄
綠色計程車車程記錄包括各種欄位:用以擷取上車和下車日期/時間、上車和下車地點、車程距離、列舉車資、費率類型、付款類型和司機回報的乘客數。
注意
Microsoft 依「現況」提供 Azure 開放資料集。 針對 貴用戶對資料集的使用方式,Microsoft 不提供任何明示或默示的擔保、保證或條件。 在 貴用戶當地法律允許的範圍內,針對因使用資料集而導致的任何直接性、衍生性、特殊性、間接性、附隨性或懲罰性損害或損失,Microsoft 概不承擔任何責任。
此資料集是根據 Microsoft 接收來源資料的原始條款所提供。 資料集可能包含源自 Microsoft 的資料。
資料量與保留期
此資料集以 Parquet 格式儲存, 到 2018 年為止,總共約有 8 千萬個資料列 (2 GB)。
此資料集包含從 2009 年累積到 2018 年的歷程記錄。 在我們的 SDK 中,您可以使用參數設定來擷取特定時間範圍內的資料。
儲存位置
此資料集儲存於美國東部 Azure 區域。 建議您在美國東部配置計算資源,以確保同質性。
其他資訊
紐約市計程車委員會 (TLC):
資料由依計程車與載客量加強計劃 (TPEP/LPEP) 授權的技術提供者收集,並提供給紐約市計程車委員會 (TLC)。 行程資料並非由 TLC 所建立,且 TLC 不保證這些資料的準確性。
資料行
名稱 | 資料類型 | 唯一 | Values (sample) | 描述 |
---|---|---|---|---|
doLocationId | 字串 | 264 | 74 42 | 計程車計費表未涵蓋的 DOLocationID TLC 計程車區域。 |
dropoffLatitude | double | 109,721 | 40.7743034362793 40.77431869506836 | 2016 年 7 月起已淘汰 |
dropoffLongitude | double | 75,502 | -73.95272827148438 -73.95274353027344 | 2016 年 7 月起已淘汰 |
extra | double | 202 | 0.5 1.0 | 其他事項和附加費。 目前僅包括美金 $0.50 元和美金 $1 元的尖峰時段與隔夜費用。 |
fareAmount | double | 10,367 | 6.0 5.5 | 計費表計算的時間和距離票價。 |
improvementSurcharge | 字串 | 92 | 0.3 0 | 叫車行程起跳價另含美金 $0.30 元的改善附加費。 自 2015 年起開始徵收改善附加費。 |
lpepDropoffDatetime | timestamp | 58,100,713 | 2016-05-22 00:00:00 2016-05-09 00:00:00 | 計量分離的日期和時間。 |
lpepPickupDatetime | timestamp | 58,157,349 | 2013-10-22 12:40:36 2014-08-09 15:54:25 | 計費表計費的日期和時間。 |
mtaTax | double | 34 | 0.5 -0.5 | 根據使用中計費率自動觸發的美金 $0.50 元 MTA 稅金。 |
passengerCount | int | 10 | 1 和 2 | 車輛中的乘客數量。 此值由司機輸入。 |
paymentType | int | 5 | 2 1 | 表示旅客應如何支付行程費用的數字代碼。 1= 信用卡 2= 現金 3= 不收費 4= 爭議 5= 未知 6= 無效車程 |
pickupLatitude | double | 95,110 | 40.721351623535156 40.721336364746094 | 2016 年 7 月起已淘汰 |
pickupLongitude | double | 55,722 | -73.84429931640625 -73.84429168701172 | 2016 年 7 月起已淘汰 |
puLocationId | 字串 | 264 | 74 41 | 計程車計費表已涵蓋的 TLC 計程車區域。 |
puMonth | int | 12 | 3 5 | |
puYear | int | 14 | 2015 2016 | |
rateCodeID | int | 7 | 1 5 | 行程結束時生效的最終費率代碼。 1= 標準費率 2= JFK 3= Newark 4= Nassau 或 Westchester 5= 交涉費用 6= 群組車程 |
storeAndFwdFlag | 字串 | 2 | N Y | 此旗標指出由於車輛無法與伺服器連線,在將記錄傳送給廠商之前,行程記錄是否已保存於車輛記憶體內 (也將其稱為「儲存和轉寄」)。 Y= 儲存和轉寄車程 N= 非儲存和轉寄車程 |
tipAmount | double | 6,206 | 1.0 2.0 | 小費金額 – 此欄位會自動填寫信用卡小費。 不含現金小費。 |
tollsAmount | double | 2,150 | 5.54 5.76 | 行程中支付的所有通行費總金額。 |
totalAmount | double | 20,188 | 7.8 6.8 | 向乘客收取的總金額。 不含現金小費。 |
tripDistance | double | 7,060 | 0.9 1.0 | 計程車計費表所報告的經過行程距離 (英哩)。 |
tripType | int | 3 | 1 和 2 | 此代碼指出行程屬於街道叫車或是派遣 (根據使用中的計量費率自動指派,但可以由司機變更)。 1= 路邊叫車 2= 車輛派遣 |
vendorID | int | 2 | 2 1 | 指出提供記錄的 LPEP 提供者代碼。 1= Creative Mobile Technologies, LLC;2= VeriFone Inc. |
預覽
vendorID | lpepPickupDatetime | lpepDropoffDatetime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeID | storeAndFwdFlag | paymentType | fareAmount | extra | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | tripType | puYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 6/24/2081 5:40:37 PM | 6/24/2081 6:42:47 PM | 1 | 16.95 | 93 | 117 | 1 | 否 | 1 | 52 | 1 | 0.5 | 0.3 | 0 | 2.16 | 55.96 | 1 | 2081 | 6 |
2 | 11/28/2030 12:19:29 AM | 11/28/2030 12:25:37 AM | 1 | 1.08 | 42 | 247 | 1 | 否 | 2 | 6.5 | 0 | 0.5 | 0.3 | 0 | 0 | 7.3 | 1 | 2030 | 11 |
2 | 11/28/2030 12:14:50 AM | 11/28/2030 12:14:54 AM | 1 | 0.03 | 42 | 42 | 5 | 否 | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 5 | 2 | 2030 | 11 |
2 | 11/14/2020 11:38:07 AM | 11/14/2020 11:42:22 AM | 1 | 0.63 | 129 | 129 | 1 | 否 | 2 | 4.5 | 1 | 0.5 | 0.3 | 0 | 0 | 6.3 | 1 | 2020 | 11 |
2 | 11/14/2020 9:55:36 AM | 11/14/2020 10:04:54 AM | 1 | 3.8 | 82 | 138 | 1 | 否 | 2 | 12.5 | 1 | 0.5 | 0.3 | 0 | 0 | 14.3 | 1 | 2020 | 11 |
2 | 8/26/2019 4:18:37 PM | 8/26/2019 4:19:35 PM | 1 | 0 | 264 | 264 | 1 | 否 | 2 | 1 | 0 | 0.5 | 0.3 | 0 | 0 | 1.8 | 1 | 2019 | 8 |
2 | 7/1/2019 8:28:33 AM | 7/1/2019 8:32:33 AM | 1 | 0.71 | 7 | 7 | 1 | 否 | 1 | 5 | 0 | 0.5 | 0.3 | 1.74 | 0 | 7.54 | 1 | 2019 | 7 |
2 | 7/1/2019 12:04:53 AM | 7/1/2019 12:21:56 AM | 1 | 2.71 | 223 | 145 | 1 | 否 | 2 | 13 | 0.5 | 0.5 | 0.3 | 0 | 0 | 14.3 | 1 | 2019 | 7 |
2 | 7/1/2019 12:04:11 AM | 7/1/2019 12:21:15 AM | 1 | 3.14 | 166 | 142 | 1 | 否 | 2 | 14.5 | 0.5 | 0.5 | 0.3 | 0 | 0 | 18.55 | 1 | 2019 | 7 |
2 | 7/1/2019 12:03:37 AM | 7/1/2019 12:09:27 AM | 1 | 0.78 | 74 | 74 | 1 | 否 | 1 | 6 | 0.5 | 0.5 | 0.3 | 1.46 | 0 | 8.76 | 1 | 2019 | 7 |
資料存取
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
# Display data statistic information
display(nyc_tlc_df, summary = True)
下一步
檢視開放資料集目錄中的其餘資料集。