NYC 計程車和豪華轎車委員會 - 綠色計程車車程記錄

綠色計程車車程記錄包括各種欄位:用以擷取上車和下車日期/時間、上車和下車地點、車程距離、列舉車資、費率類型、付款類型和司機回報的乘客數。

注意

Microsoft 會以「如目前」為基礎提供 Azure 開放數據集。 Microsoft 不會就您使用數據集做出任何明示或默示擔保或條件。 根據當地法律所允許的範圍,Microsoft 會免除因使用數據集而產生的任何損害或損失的所有責任,包括直接、衍生、特殊、間接、附帶或懲罰性。

此資料集是根據 Microsoft 接收來源資料的原始條款所提供。 資料集可能包含源自 Microsoft 的資料。

磁碟區和保留期

此資料集以 Parquet 格式儲存, 截至 2018 年,總共大約有 8000 萬個數據列 (2 GB)。

此資料集包含從 2009 年累積到 2018 年的歷程記錄。 在我們的 SDK 中,您可以使用參數設定來擷取特定時間範圍內的資料。

儲存位置

此資料集儲存於美國東部 Azure 區域。 建議您在美國東部配置計算資源,以確保同質性。

其他資訊

紐約市計程車委員會 (TLC):

資料由依計程車與載客量加強計劃 (TPEP/LPEP) 授權的技術提供者收集,並提供給紐約市計程車委員會 (TLC)。 行程資料並非由 TLC 所建立,且 TLC 不保證這些資料的準確性。

檢視原始數據集位置和原始使用規定。

資料行

名稱 資料類型 唯一 Values (sample) 描述
doLocationId string 264 74 42 計程車計費表未涵蓋的 DOLocationID TLC 計程車區域。
dropoffLatitude double 109,721 40.7743034362793 40.77431869506836 2016 年 7 月起已淘汰
dropoffLongitude double 75,502 -73.95272827148438 -73.95274353027344 2016 年 7 月起已淘汰
額外 double 202 0.5 1.0 其他事項和附加費。 目前僅包括美金 $0.50 元和美金 $1 元的尖峰時段與隔夜費用。
fareAmount double 10,367 6.0 5.5 計費表計算的時間和距離票價。
improvementSurcharge string 92 0.3 0 叫車行程起跳價另含美金 $0.30 元的改善附加費。 自 2015 年起開始徵收改善附加費。
lpepDropoffDatetime timestamp 58,100,713 2016-05-22 00:00:00 2016-05-09 00:00:00 計量分離的日期和時間。
lpepPickupDatetime timestamp 58,157,349 2013-10-22 12:40:36 2014-08-09 15:54:25 計費表計費的日期和時間。
mtaTax double 34 0.5 -0.5 根據使用中計費率自動觸發的美金 $0.50 元 MTA 稅金。
passengerCount int 10 1 2 車輛中的乘客數量。 此值由司機輸入。
paymentType int 5 Z 1 表示旅客應如何支付行程費用的數字代碼。 1= 信用卡 2= 現金 3= 無費用 4= 爭議 5= 未知 6= 無效旅行
pickupLatitude double 95,110 40.721351623535156 40.721336364746094 2016 年 7 月起已淘汰
pickupLongitude double 55,722 -73.84429931640625 -73.84429168701172 2016 年 7 月起已淘汰
puLocationId string 264 74 41 計程車計費表已涵蓋的 TLC 計程車區域。
puMonth int 12 3 5
puYear int 14 2015 2016
rateCodeID int 7 1 5 行程結束時生效的最終費率代碼。 1= 標準費率 2= JFK 3= 紐瓦克 4= 納索或韋斯特切斯特 5= 談判票價 6= 團體車程
storeAndFwdFlag 字串 2 N Y 此旗標指出,在傳送給廠商之前,行程記錄是否保留在車輛記憶體中,也稱為“儲存和轉寄”,因為車輛沒有與伺服器連接。 Y= store and forward trip N= not a store and forward trip
tipAmount double 6,206 1.0 2.0 小費金額 – 此欄位會自動填寫信用卡小費。 不含現金小費。
tollsAmount double 2,150 5.54 5.76 行程中支付的所有通行費總金額。
totalAmount double 20,188 7.8 6.8 向乘客收取的總金額。 不含現金小費。
tripDistance double 7,060 0.9 1.0 計程車計費表所報告的經過行程距離 (英哩)。
tripType int 3 1 2 此代碼指出行程屬於街道叫車或是派遣 (根據使用中的計量費率自動指派,但可以由司機變更)。 1= 街冰 2= 分派
vendorID int 2 Z 1 指出提供記錄的 LPEP 提供者代碼。 1= 創意行動技術,LLC;2= VeriFone Inc.

預覽

vendorID lpepPickupDatetime lpepDropoffDatetime passengerCount tripDistance puLocationId doLocationId rateCodeID storeAndFwdFlag paymentType fareAmount 額外 mtaTax improvementSurcharge tipAmount tollsAmount totalAmount tripType puYear puMonth
2 2081/6/24 下午 5:40:37 2081/6/24 下午 6:42:47 1 16.95 93 117 1 1 52 1 0.5 0.3 0 2.16 55.96 1 2081 6
2 2030/11/28 上午 12:19:29 2030/11/28 上午 12:25:37 1 1.08 42 247 1 2 6.5 0 0.5 0.3 0 0 7.3 1 2030 11
2 2030/11/28 上午 12:14:50 2030/11/28 上午 12:14:54 1 0.03 42 42 5 2 5 0 0 0 0 0 5 2 2030 11
2 2020/11/14 上午 11:38:07 2020/11/14 上午 11:42:22 1 0.63 129 129 1 2 4.5 1 0.5 0.3 0 0 6.3 1 2020 11
2 2020/11/14 上午 9:55:36 2020/11/14 上午 10:04:54 1 3.8 82 138 1 2 12.5 1 0.5 0.3 0 0 14.3 1 2020 11
2 2019/8/26 下午 4:18:37 2019/8/26 下午 4:19:35 1 0 264 264 1 2 1 0 0.5 0.3 0 0 1.8 1 2019 8
2 2019/7/1 上午 8:28:33 2019/7/1 上午 8:32:33 1 0.71 7 7 1 1 5 0 0.5 0.3 1.74 0 7.54 1 2019 7
2 2019/7/1 上午 12:04:53 2019/7/1 上午 12:21:56 1 2.71 223 145 1 2 13 0.5 0.5 0.3 0 0 14.3 1 2019 7
2 2019/7/1 上午 12:04:11 2019/7/1 上午 12:21:15 1 3.14 166 142 1 2 14.5 0.5 0.5 0.3 0 0 18.55 1 2019 7
2 2019/7/1 上午 12:03:37 2019/7/1 上午 12:09:27 1 0.78 74 74 1 1 6 0.5 0.5 0.3 1.46 0 8.76 1 2019 7

資料存取

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

# Display data statistic information
display(nyc_tlc_df, summary = True)

下一步

檢視開放式數據集目錄中的其餘數據集