Комиссия по такси и лимузинам Нью-Йорка — желтые записи о поездках на такси

Записи поездок в такси, отмеченные желтым, включают такие поля, как время или дата посадки и высадки пассажиров, пункты посадки и высадки, расстояние поездки, детализированные пассажирские тарифы, виды тарифа, виды оплаты и отчет водителя о количестве пассажиров.

Примечание.

Корпорация Майкрософт предоставляет Открытые наборы данных Azure как есть. Корпорация Майкрософт не предоставляет никаких гарантий (явных или подразумеваемых) и не определяет никаких условий в связи с использованием этих наборов данных. В рамках, допускаемых местным законодательством, корпорация Майкрософт отказывается от ответственности за ущерб и убытки (в том числе прямые, косвенные, специальные, опосредованные, случайные и штрафные), понесенные в результате использования вами этих наборов данных.

Этот набор данных предоставляется на тех же условиях, на которых корпорация Майкрософт получила исходные данные. Этот набор может включать данные, полученные от корпорации Майкрософт.

Объем данных и их хранение

Этот набор данных хранится в формате Parquet. По состоянию на 2018 год он содержит около 1,5 млрд строк (50 ГБ).

Этот набор данных содержит архивные записи, собранные с 2009 по 2018 гг. Вы можете использовать параметры из нашего пакета SDK, чтобы получить данные за определенный диапазон времени.

Расположение хранилища

Этот набор данных хранится в регионе Azure "Восточная часть США". Для обеспечения приближенности рекомендуется выделять вычислительные ресурсы в регионе "Восточная часть США".

Дополнительная информация:

NYC Taxi and Limousine Commission (TLC).

Данные собраны и предоставлены комиссии NYC Taxi and Limousine Commission (TLC) поставщиками технологий, авторизованными в соответствии с программами Taxicab & Livery Passenger Enhancement (TPEP/LPEP). Данные поездок не создавались TLC, и TLC не несет ответственности за их достоверность.

Просмотрите исходное местоположение набора данных и исходные условия использования.

Столбцы

Имя. Тип данных Уникальный Значения (пример) Description
doLocationId строка 265 161 236 Зона работы такси TLC, в которой был выключен таксометр.
endLat двойной точности 961 994 41,366138 40,75
endLon двойной точности 1 144 935 –73,137393 –73,9824
extra двойной точности 877 0.5 1.0 Прочие начисления и доплаты. Сейчас включает только доплату в размере 0,50 доллара США и 1 доллар США за милю за поездку в час пик и в ночное время.
fareAmount двойной точности 18 935 6,5 4,5 Время и расстояние поездки по таксометру.
improvementSurcharge строка 60 0.3 0 Начальная фиксированная плата для поездок, по которым после оценки была начислена дополнительная плата в размере 0,30 доллара США за милю. Дополнительная плата взимается с 2015 года.
mtaTax двойной точности 360 0.5 -0.5 Налог MTA в сумме 0,50 доллара США, который автоматически начисляется в зависимости от применяемого тарифа.
passengerCount INT 64 1 2 Количество пассажиров такси. Это значение указывает водитель.
paymentType строка 6282 CSH CRD Код способа оплаты поездки пассажиром. 1 = кредитная карта; 2 = наличные; 3 = бесплатно; 4 = спор; 5 = неизвестно; 6 = аннулированная поездка.
puLocationId строка 266 237 161 Зона работы такси TLC, в которой был включен таксометр.
puMonth INT 12 5
puYear INT 29 2012 2011
rateCodeId INT 56 1 2 Код тарифа окончательного счета, выставляемого в конце поездки. 1 = стандартный тариф; 2 = аэропорт им. Джона Ф. Кеннеди; 3 = Ньюарк; 4 = Нассау или Вестчестер; 5 = цена договорная; 6 = групповая поездка.
startLat двойной точности 833 016 41,366138 40,7741
startLon двойной точности 957 428 –73,137393 –73,9821
storeAndFwdFlag строка 8 N 0 Данный флаг указывает на то, хранилась ли запись поездки в памяти транспортного средства перед отправкой поставщику, также известная как «сохранение и пересылка», поскольку у транспортного средства не было соединения с сервером. Y = поездка "сохранение и пересылка"; N = не поездка "сохранение и пересылка".
tipAmount двойной точности 12 121 1.0 2.0 Это поле автоматически заполняется для чаевых, оплаченных с помощью кредитной карты. Чаевые в наличной форме не учитываются.
tollsAmount двойной точности 6634 5,33 4,8 Общая сумма сборов, уплаченных во время поездки.
totalAmount двойной точности 39 707 7,0 7,8 Общая сумма, удержанная с пассажиров. Не включает чаевые в наличной форме.
tpepDropoffDateTime TIMESTAMP 290 185 010 07.11.2010 01:29:00 03.11.2013 01:22:00 Дата и время выключения таксометра.
tpepPickupDateTime TIMESTAMP 289 948 585 07.11.2010 01:00:00 01.11.2009 01:05:00 Дата и время включения таксометра.
tripDistance двойной точности 14 003 1,0 0,9 Дальность поездки в милях по таксометру.
vendorID строка 7 VTS CMT Код поставщика TPEP, предоставившего запись. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc.
vendorID INT 2 2 1 Код, указывающий поставщика услуг LPEP, который предоставил запись. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc.

"Предварительная версия"

vendorID tpepPickupDateTime tpepDropoffDateTime passengerCount tripDistance puLocationId doLocationId rateCodeId storeAndFwdFlag paymentType fareAmount extra mtaTax improvementSurcharge tipAmount tollsAmount totalAmount puYear puMonth
2 24.01.2088 00:25:39 24.01.2088 07:28:25 1 4,05 24 162 1 N 2 14,5 0 0,5 0,3 0 0 15,3 2088 1
2 24.01.2088 00:15:42 24.01.2088 00:19:46 1 0,63 41 166 1 N 2 4,5 0 0,5 0,3 0 0 5,3 2088 1
2 04.11.2084 12:32:24 04.11.2084 12:47:41 1 1,34 238 236 1 N 2 10 0 0,5 0,3 0 0 10.8 2084 11
2 04.11.2084 12:25:53 04.11.2084 12:29:00 1 0,32 238 238 1 N 2 4 0 0,5 0,3 0 0 4,8 2084 11
2 04.11.2084 12:08:33 04.11.2084 12:22:24 1 1,85 236 238 1 N 2 10 0 0,5 0,3 0 0 10.8 2084 11
2 04.11.2084 11:41:35 04.11.2084 11:59:41 1 1,65 68 237 1 N 2 12.5 0 0,5 0,3 0 0 13,3 2084 11
2 04.11.2084 11:27:28 04.11.2084 11:39:52 1 1,07 170 68 1 N 2 9 0 0,5 0,3 0 0 9,8 2084 11
2 04.11.2084 11:19:06 04.11.2084 11:26:44 1 1,3 107 170 1 N 2 7.5 0 0,5 0,3 0 0 8.3 2084 11
2 04.11.2084 11:02:59 04.11.2084 11:15:51 1 1,85 113 137 1 N 2 10 0 0,5 0,3 0 0 10.8 2084 11
2 04.11.2084 10:46:05 04.11.2084 10:50:09 1 0,62 231 231 1 N 2 4,5 0 0,5 0,3 0 0 5,3 2084 11

Доступ к данным

Записные книжки Azure

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser

end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Следующие шаги

Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.