Комиссия по такси и лимузинам Нью-Йорка — зеленые записи о поездках на такси
Необработанные записи поездок в такси включают такие поля, как время или дата посадки и высадки пассажиров, пункты посадки и высадки, дальность поездки, детализированные пассажирские тарифы, виды тарифов, виды оплаты и отчет водителя о количестве пассажиров.
Примечание.
Корпорация Майкрософт предоставляет Открытые наборы данных Azure как есть. Корпорация Майкрософт не предоставляет никаких гарантий (явных или подразумеваемых) и не определяет никаких условий в связи с использованием этих наборов данных. В рамках, допускаемых местным законодательством, корпорация Майкрософт отказывается от ответственности за ущерб и убытки (в том числе прямые, косвенные, специальные, опосредованные, случайные и штрафные), понесенные в результате использования вами этих наборов данных.
Этот набор данных предоставляется на тех же условиях, на которых корпорация Майкрософт получила исходные данные. Этот набор может включать данные, полученные от корпорации Майкрософт.
Объем данных и их хранение
Этот набор данных хранится в формате Parquet. Всего на 2018 год насчитывается около 80 миллионов строк (2 ГБ).
Этот набор данных содержит архивные записи, собранные с 2009 по 2018 гг. Вы можете использовать параметры из нашего пакета SDK, чтобы получить данные за определенный диапазон времени.
Место хранения
Этот набор данных хранится в регионе Azure "Восточная часть США". Для обеспечения приближенности рекомендуется выделять вычислительные ресурсы в регионе "Восточная часть США".
Дополнительная информация:
NYC Taxi and Limousine Commission (TLC).
Данные собраны и предоставлены комиссии NYC Taxi and Limousine Commission (TLC) поставщиками технологий, авторизованными в соответствии с программами Taxicab & Livery Passenger Enhancement (TPEP/LPEP). Данные поездок не создавались TLC, и TLC не несет ответственности за их достоверность.
Просмотрите исходное местоположение набора данных и исходные условия использования.
Столбцы
Имя. | Тип данных | Уникальный | Значения (пример) | Description |
---|---|---|---|---|
doLocationId | строка | 264 | 74 42 | Параметр DOLocationID для зона работы такси TLC, в которой был выключен таксометр. |
dropoffLatitude | двойной точности | 109,721 | 40.7743034362793 40.77431869506836 | Данные считаются устаревшими с июля 2016 года. |
dropoffLongitude | двойной точности | 75,502 | -73.95272827148438 -73.95274353027344 | Данные считаются устаревшими с июля 2016 года. |
extra | двойной точности | 202 | 0.5 1.0 | Прочие начисления и доплаты. Сейчас включает только доплату в размере 0,50 доллара США и 1 доллар США за милю за поездку в час пик и в ночное время. |
fareAmount | двойной точности | 10,367 | 6.0 5.5 | Время и расстояние поездки по таксометру. |
improvementSurcharge | строка | 92 | 0.3 0 | Сбор в размере 0,30 доллара США, если "ловить" такси на улице. Дополнительная плата взимается с 2015 года. |
lpepDropoffDatetime | TIMESTAMP | 58,100,713 | 2016-05-22 00:00:00 2016-05-09 00:00:00 | Дата и время выключения таксометра. |
lpepPickupDatetime | TIMESTAMP | 58,157,349 | 2013-10-22 12:40:36 2014-08-09 15:54:25 | Дата и время включения таксометра. |
mtaTax | двойной точности | 34 | 0.5 -0.5 | Налог MTA в сумме 0,50 доллара США, который автоматически начисляется в зависимости от применяемого тарифа. |
passengerCount | INT | 10 | 1 2 | Количество пассажиров такси. Это значение указывает водитель. |
paymentType | INT | 5 | 2 1 | Код способа оплаты поездки пассажиром. 1 = кредитная карта 2 = наличные 3 = бесплатно 4 = спор 5 = неизвестно 6 = аннулированная поездка |
pickupLatitude | двойной точности | 95,110 | 40.721351623535156 40.721336364746094 | Данные считаются устаревшими с июля 2016 года. |
pickupLongitude | двойной точности | 55,722 | -73.84429931640625 -73.84429168701172 | Данные считаются устаревшими с июля 2016 года. |
puLocationId | строка | 264 | 74 41 | Зона работы такси TLC, в которой был включен таксометр. |
puMonth | INT | 12 | 5 | |
puYear | INT | 14 | 2015 2016 | |
rateCodeID | INT | 7 | 1 5 | Код тарифа окончательного счета, выставляемого в конце поездки. 1 = Стандартный тариф 2 = JFK 3 = Ньюарк 4 = Нассау или Вестчестер 5 = Цена договорная 6 = Групповая поездка |
storeAndFwdFlag | строка | 2 | N Y | Данный флаг указывает на то, хранилась ли запись поездки в памяти транспортного средства перед отправкой поставщику, также известная как «сохранение и пересылка», поскольку у транспортного средства не было соединения с сервером. Y = поездка с сохранением и перемоткой N = не с накоплением и перемоткой вперед |
tipAmount | двойной точности | 6,206 | 1.0 2.0 | Размер чаевых — это поле автоматически заполняется для чаевых, начисляемых с кредитной карты. Чаевые в наличной форме не учитываются. |
tollsAmount | двойной точности | 2150 | 5.54 5.76 | Общая сумма сборов, уплаченных во время поездки. |
totalAmount | двойной точности | 20,188 | 7.8 6.8 | Общая сумма, удержанная с пассажиров. Не включает чаевые в наличной форме. |
tripDistance | двойной точности | 7,060 | 0.9 1.0 | Дальность поездки в милях по таксометру. |
tripType | INT | 3 | 1 2 | Код, указывающий тип поездки: посадка пассажира по дороге и или же его перевозка из заранее оговоренного расположения. Код автоматически назначается на основе рассчитанной платы. Но водитель может изменить его. 1 = Поиск такси 2 = Отправка |
vendorID | INT | 2 | 2 1 | Код, указывающий поставщика услуг LPEP, который предоставил запись. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
Предварительный просмотр
vendorID | lpepPickupDatetime | lpepDropoffDatetime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeID | storeAndFwdFlag | paymentType | fareAmount | extra | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | tripType | puYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 6/24/2081 5:40:37 PM | 6/24/2081 6:42:47 PM | 1 | 16.95 | 93 | 117 | 1 | N | 1 | 52 | 1 | 0,5 | 0,3 | 0 | 2,16 | 55.96 | 1 | 2081 | 6 |
2 | 11/28/2030 12:19:29 AM | 11/28/2030 12:25:37 AM | 1 | 1.08 | 42 | 247 | 1 | N | 2 | 6,5 | 0 | 0,5 | 0,3 | 0 | 0 | 7.3 | 1 | 2030 | 11 |
2 | 11/28/2030 12:14:50 AM | 11/28/2030 12:14:54 AM | 1 | 0,03 | 42 | 42 | 5 | N | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 5 | 2 | 2030 | 11 |
2 | 11/14/2020 11:38:07 AM | 11/14/2020 11:42:22 AM | 1 | 0,63 | 129 | 129 | 1 | N | 2 | 4,5 | 1 | 0,5 | 0,3 | 0 | 0 | 6.3 | 1 | 2020 | 11 |
2 | 11/14/2020 9:55:36 AM | 11/14/2020 10:04:54 AM | 1 | 3,8 | 82 | 138 | 1 | N | 2 | 12.5 | 1 | 0,5 | 0,3 | 0 | 0 | 14.3 | 1 | 2020 | 11 |
2 | 8/26/2019 4:18:37 PM | 8/26/2019 4:19:35 PM | 1 | 0 | 264 | 264 | 1 | N | 2 | 1 | 0 | 0,5 | 0,3 | 0 | 0 | 1.8 | 1 | 2019 | 8 |
2 | 7/1/2019 8:28:33 AM | 7/1/2019 8:32:33 AM | 1 | 0.71 | 7 | 7 | 1 | N | 1 | 5 | 0 | 0,5 | 0,3 | 1.74 | 0 | 7.54 | 1 | 2019 | 7 |
2 | 7/1/2019 12:04:53 AM | 7/1/2019 12:21:56 AM | 1 | 2.71 | 223 | 145 | 1 | N | 2 | 13 | 0,5 | 0,5 | 0,3 | 0 | 0 | 14.3 | 1 | 2019 | 7 |
2 | 7/1/2019 12:04:11 AM | 7/1/2019 12:21:15 AM | 1 | 3,14 | 166 | 142 | 1 | N | 2 | 14,5 | 0,5 | 0,5 | 0,3 | 0 | 0 | 18.55 | 1 | 2019 | 7 |
2 | 7/1/2019 12:03:37 AM | 7/1/2019 12:09:27 AM | 1 | 0,78 | 74 | 74 | 1 | N | 1 | 6 | 0,5 | 0,5 | 0,3 | 1,46 | 0 | 8.76 | 1 | 2019 | 7 |
Доступ к данным
Записные книжки Azure
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
# Display data statistic information
display(nyc_tlc_df, summary = True)
Следующие шаги
Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.