共用方式為


紐約市計程車和禮車委員會 - 綠色計程車車程記錄

綠色計程車車程記錄包括各種欄位:用以擷取上車和下車日期/時間、上車和下車地點、車程距離、列舉車資、費率類型、付款類型和司機回報的乘客數。

注意

Microsoft 依「現況」提供 Azure 開放資料集。 針對 貴用戶對資料集的使用方式,Microsoft 不提供任何明示或默示的擔保、保證或條件。 在 貴用戶當地法律允許的範圍內,針對因使用資料集而導致的任何直接性、衍生性、特殊性、間接性、附隨性或懲罰性損害或損失,Microsoft 概不承擔任何責任。

此資料集是根據 Microsoft 接收來源資料的原始條款所提供。 資料集可能包含源自 Microsoft 的資料。

資料量與保留期

此資料集以 Parquet 格式儲存, 到 2018 年為止,總共約有 8 千萬個資料列 (2 GB)。

此資料集包含從 2009 年累積到 2018 年的歷程記錄。 在我們的 SDK 中,您可以使用參數設定來擷取特定時間範圍內的資料。

儲存位置

此資料集儲存於美國東部 Azure 區域。 建議您在美國東部配置計算資源,以確保同質性。

其他資訊

紐約市計程車委員會 (TLC):

資料由依計程車與載客量加強計劃 (TPEP/LPEP) 授權的技術提供者收集,並提供給紐約市計程車委員會 (TLC)。 行程資料並非由 TLC 所建立,且 TLC 不保證這些資料的準確性。

檢視原始資料集位置原始使用規定

資料行

名稱 資料類型 唯一 Values (sample) 描述
doLocationId 字串 264 74 42 計程車計費表未涵蓋的 DOLocationID TLC 計程車區域。
dropoffLatitude double 109,721 40.7743034362793 40.77431869506836 2016 年 7 月起已淘汰
dropoffLongitude double 75,502 -73.95272827148438 -73.95274353027344 2016 年 7 月起已淘汰
extra double 202 0.5 1.0 其他事項和附加費。 目前僅包括美金 $0.50 元和美金 $1 元的尖峰時段與隔夜費用。
fareAmount double 10,367 6.0 5.5 計費表計算的時間和距離票價。
improvementSurcharge 字串 92 0.3 0 叫車行程起跳價另含美金 $0.30 元的改善附加費。 自 2015 年起開始徵收改善附加費。
lpepDropoffDatetime timestamp 58,100,713 2016-05-22 00:00:00 2016-05-09 00:00:00 計量分離的日期和時間。
lpepPickupDatetime timestamp 58,157,349 2013-10-22 12:40:36 2014-08-09 15:54:25 計費表計費的日期和時間。
mtaTax double 34 0.5 -0.5 根據使用中計費率自動觸發的美金 $0.50 元 MTA 稅金。
passengerCount int 10 1 和 2 車輛中的乘客數量。 此值由司機輸入。
paymentType int 5 2 1 表示旅客應如何支付行程費用的數字代碼。 1= 信用卡 2= 現金 3= 不收費 4= 爭議 5= 未知 6= 無效車程
pickupLatitude double 95,110 40.721351623535156 40.721336364746094 2016 年 7 月起已淘汰
pickupLongitude double 55,722 -73.84429931640625 -73.84429168701172 2016 年 7 月起已淘汰
puLocationId 字串 264 74 41 計程車計費表已涵蓋的 TLC 計程車區域。
puMonth int 12 3 5
puYear int 14 2015 2016
rateCodeID int 7 1 5 行程結束時生效的最終費率代碼。 1= 標準費率 2= JFK 3= Newark 4= Nassau 或 Westchester 5= 交涉費用 6= 群組車程
storeAndFwdFlag 字串 2 N Y 此旗標指出由於車輛無法與伺服器連線,在將記錄傳送給廠商之前,行程記錄是否已保存於車輛記憶體內 (也將其稱為「儲存和轉寄」)。 Y= 儲存和轉寄車程 N= 非儲存和轉寄車程
tipAmount double 6,206 1.0 2.0 小費金額 – 此欄位會自動填寫信用卡小費。 不含現金小費。
tollsAmount double 2,150 5.54 5.76 行程中支付的所有通行費總金額。
totalAmount double 20,188 7.8 6.8 向乘客收取的總金額。 不含現金小費。
tripDistance double 7,060 0.9 1.0 計程車計費表所報告的經過行程距離 (英哩)。
tripType int 3 1 和 2 此代碼指出行程屬於街道叫車或是派遣 (根據使用中的計量費率自動指派,但可以由司機變更)。 1= 路邊叫車 2= 車輛派遣
vendorID int 2 2 1 指出提供記錄的 LPEP 提供者代碼。 1= Creative Mobile Technologies, LLC;2= VeriFone Inc.

預覽​​

vendorID lpepPickupDatetime lpepDropoffDatetime passengerCount tripDistance puLocationId doLocationId rateCodeID storeAndFwdFlag paymentType fareAmount extra mtaTax improvementSurcharge tipAmount tollsAmount totalAmount tripType puYear puMonth
2 6/24/2081 5:40:37 PM 6/24/2081 6:42:47 PM 1 16.95 93 117 1 1 52 1 0.5 0.3 0 2.16 55.96 1 2081 6
2 11/28/2030 12:19:29 AM 11/28/2030 12:25:37 AM 1 1.08 42 247 1 2 6.5 0 0.5 0.3 0 0 7.3 1 2030 11
2 11/28/2030 12:14:50 AM 11/28/2030 12:14:54 AM 1 0.03 42 42 5 2 5 0 0 0 0 0 5 2 2030 11
2 11/14/2020 11:38:07 AM 11/14/2020 11:42:22 AM 1 0.63 129 129 1 2 4.5 1 0.5 0.3 0 0 6.3 1 2020 11
2 11/14/2020 9:55:36 AM 11/14/2020 10:04:54 AM 1 3.8 82 138 1 2 12.5 1 0.5 0.3 0 0 14.3 1 2020 11
2 8/26/2019 4:18:37 PM 8/26/2019 4:19:35 PM 1 0 264 264 1 2 1 0 0.5 0.3 0 0 1.8 1 2019 8
2 7/1/2019 8:28:33 AM 7/1/2019 8:32:33 AM 1 0.71 7 7 1 1 5 0 0.5 0.3 1.74 0 7.54 1 2019 7
2 7/1/2019 12:04:53 AM 7/1/2019 12:21:56 AM 1 2.71 223 145 1 2 13 0.5 0.5 0.3 0 0 14.3 1 2019 7
2 7/1/2019 12:04:11 AM 7/1/2019 12:21:15 AM 1 3.14 166 142 1 2 14.5 0.5 0.5 0.3 0 0 18.55 1 2019 7
2 7/1/2019 12:03:37 AM 7/1/2019 12:09:27 AM 1 0.78 74 74 1 1 6 0.5 0.5 0.3 1.46 0 8.76 1 2019 7

資料存取

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

# Display data statistic information
display(nyc_tlc_df, summary = True)

下一步

檢視開放資料集目錄中的其餘資料集。