NYC 計程車和豪華轎車委員會 - 綠色計程車車程記錄
綠色計程車車程記錄包括各種欄位:用以擷取上車和下車日期/時間、上車和下車地點、車程距離、列舉車資、費率類型、付款類型和司機回報的乘客數。
注意
Microsoft 會以「如目前」為基礎提供 Azure 開放數據集。 Microsoft 不會就您使用數據集做出任何明示或默示擔保或條件。 根據當地法律所允許的範圍,Microsoft 會免除因使用數據集而產生的任何損害或損失的所有責任,包括直接、衍生、特殊、間接、附帶或懲罰性。
此資料集是根據 Microsoft 接收來源資料的原始條款所提供。 資料集可能包含源自 Microsoft 的資料。
磁碟區和保留期
此資料集以 Parquet 格式儲存, 截至 2018 年,總共大約有 8000 萬個數據列 (2 GB)。
此資料集包含從 2009 年累積到 2018 年的歷程記錄。 在我們的 SDK 中,您可以使用參數設定來擷取特定時間範圍內的資料。
儲存位置
此資料集儲存於美國東部 Azure 區域。 建議您在美國東部配置計算資源,以確保同質性。
其他資訊
紐約市計程車委員會 (TLC):
資料由依計程車與載客量加強計劃 (TPEP/LPEP) 授權的技術提供者收集,並提供給紐約市計程車委員會 (TLC)。 行程資料並非由 TLC 所建立,且 TLC 不保證這些資料的準確性。
資料行
名稱 | 資料類型 | 唯一 | Values (sample) | 描述 |
---|---|---|---|---|
doLocationId | string | 264 | 74 42 | 計程車計費表未涵蓋的 DOLocationID TLC 計程車區域。 |
dropoffLatitude | double | 109,721 | 40.7743034362793 40.77431869506836 | 2016 年 7 月起已淘汰 |
dropoffLongitude | double | 75,502 | -73.95272827148438 -73.95274353027344 | 2016 年 7 月起已淘汰 |
額外 | double | 202 | 0.5 1.0 | 其他事項和附加費。 目前僅包括美金 $0.50 元和美金 $1 元的尖峰時段與隔夜費用。 |
fareAmount | double | 10,367 | 6.0 5.5 | 計費表計算的時間和距離票價。 |
improvementSurcharge | string | 92 | 0.3 0 | 叫車行程起跳價另含美金 $0.30 元的改善附加費。 自 2015 年起開始徵收改善附加費。 |
lpepDropoffDatetime | timestamp | 58,100,713 | 2016-05-22 00:00:00 2016-05-09 00:00:00 | 計量分離的日期和時間。 |
lpepPickupDatetime | timestamp | 58,157,349 | 2013-10-22 12:40:36 2014-08-09 15:54:25 | 計費表計費的日期和時間。 |
mtaTax | double | 34 | 0.5 -0.5 | 根據使用中計費率自動觸發的美金 $0.50 元 MTA 稅金。 |
passengerCount | int | 10 | 1 2 | 車輛中的乘客數量。 此值由司機輸入。 |
paymentType | int | 5 | Z 1 | 表示旅客應如何支付行程費用的數字代碼。 1= 信用卡 2= 現金 3= 無費用 4= 爭議 5= 未知 6= 無效旅行 |
pickupLatitude | double | 95,110 | 40.721351623535156 40.721336364746094 | 2016 年 7 月起已淘汰 |
pickupLongitude | double | 55,722 | -73.84429931640625 -73.84429168701172 | 2016 年 7 月起已淘汰 |
puLocationId | string | 264 | 74 41 | 計程車計費表已涵蓋的 TLC 計程車區域。 |
puMonth | int | 12 | 3 5 | |
puYear | int | 14 | 2015 2016 | |
rateCodeID | int | 7 | 1 5 | 行程結束時生效的最終費率代碼。 1= 標準費率 2= JFK 3= 紐瓦克 4= 納索或韋斯特切斯特 5= 談判票價 6= 團體車程 |
storeAndFwdFlag | 字串 | 2 | N Y | 此旗標指出,在傳送給廠商之前,行程記錄是否保留在車輛記憶體中,也稱為“儲存和轉寄”,因為車輛沒有與伺服器連接。 Y= store and forward trip N= not a store and forward trip |
tipAmount | double | 6,206 | 1.0 2.0 | 小費金額 – 此欄位會自動填寫信用卡小費。 不含現金小費。 |
tollsAmount | double | 2,150 | 5.54 5.76 | 行程中支付的所有通行費總金額。 |
totalAmount | double | 20,188 | 7.8 6.8 | 向乘客收取的總金額。 不含現金小費。 |
tripDistance | double | 7,060 | 0.9 1.0 | 計程車計費表所報告的經過行程距離 (英哩)。 |
tripType | int | 3 | 1 2 | 此代碼指出行程屬於街道叫車或是派遣 (根據使用中的計量費率自動指派,但可以由司機變更)。 1= 街冰 2= 分派 |
vendorID | int | 2 | Z 1 | 指出提供記錄的 LPEP 提供者代碼。 1= 創意行動技術,LLC;2= VeriFone Inc. |
預覽
vendorID | lpepPickupDatetime | lpepDropoffDatetime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeID | storeAndFwdFlag | paymentType | fareAmount | 額外 | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | tripType | puYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 2081/6/24 下午 5:40:37 | 2081/6/24 下午 6:42:47 | 1 | 16.95 | 93 | 117 | 1 | 否 | 1 | 52 | 1 | 0.5 | 0.3 | 0 | 2.16 | 55.96 | 1 | 2081 | 6 |
2 | 2030/11/28 上午 12:19:29 | 2030/11/28 上午 12:25:37 | 1 | 1.08 | 42 | 247 | 1 | 否 | 2 | 6.5 | 0 | 0.5 | 0.3 | 0 | 0 | 7.3 | 1 | 2030 | 11 |
2 | 2030/11/28 上午 12:14:50 | 2030/11/28 上午 12:14:54 | 1 | 0.03 | 42 | 42 | 5 | 否 | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 5 | 2 | 2030 | 11 |
2 | 2020/11/14 上午 11:38:07 | 2020/11/14 上午 11:42:22 | 1 | 0.63 | 129 | 129 | 1 | 否 | 2 | 4.5 | 1 | 0.5 | 0.3 | 0 | 0 | 6.3 | 1 | 2020 | 11 |
2 | 2020/11/14 上午 9:55:36 | 2020/11/14 上午 10:04:54 | 1 | 3.8 | 82 | 138 | 1 | 否 | 2 | 12.5 | 1 | 0.5 | 0.3 | 0 | 0 | 14.3 | 1 | 2020 | 11 |
2 | 2019/8/26 下午 4:18:37 | 2019/8/26 下午 4:19:35 | 1 | 0 | 264 | 264 | 1 | 否 | 2 | 1 | 0 | 0.5 | 0.3 | 0 | 0 | 1.8 | 1 | 2019 | 8 |
2 | 2019/7/1 上午 8:28:33 | 2019/7/1 上午 8:32:33 | 1 | 0.71 | 7 | 7 | 1 | 否 | 1 | 5 | 0 | 0.5 | 0.3 | 1.74 | 0 | 7.54 | 1 | 2019 | 7 |
2 | 2019/7/1 上午 12:04:53 | 2019/7/1 上午 12:21:56 | 1 | 2.71 | 223 | 145 | 1 | 否 | 2 | 13 | 0.5 | 0.5 | 0.3 | 0 | 0 | 14.3 | 1 | 2019 | 7 |
2 | 2019/7/1 上午 12:04:11 | 2019/7/1 上午 12:21:15 | 1 | 3.14 | 166 | 142 | 1 | 否 | 2 | 14.5 | 0.5 | 0.5 | 0.3 | 0 | 0 | 18.55 | 1 | 2019 | 7 |
2 | 2019/7/1 上午 12:03:37 | 2019/7/1 上午 12:09:27 | 1 | 0.78 | 74 | 74 | 1 | 否 | 1 | 6 | 0.5 | 0.5 | 0.3 | 1.46 | 0 | 8.76 | 1 | 2019 | 7 |
資料存取
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
# Display data statistic information
display(nyc_tlc_df, summary = True)
下一步
檢視開放式數據集目錄中的其餘數據集。