Комиссия по такси и лимузинам Нью-Йорка — записи о поездках на прокатном транспорте (служба FHV)

Записи о поездках, предоставленные For-Hire Vehicle (FHV), которые содержат поля с номером лицензии в диспетчерском центре, дату и время посадки пассажиров, а также идентификатор местоположения такси (файл ниже). Эти записи формируются на основе записей о поездках, отправляемых из баз компании FHV.

Примечание.

Корпорация Майкрософт предоставляет Открытые наборы данных Azure как есть. Корпорация Майкрософт не предоставляет никаких гарантий (явных или подразумеваемых) и не определяет никаких условий в связи с использованием этих наборов данных. В рамках, допускаемых местным законодательством, корпорация Майкрософт отказывается от ответственности за ущерб и убытки (в том числе прямые, косвенные, специальные, опосредованные, случайные и штрафные), понесенные в результате использования вами этих наборов данных.

Этот набор данных предоставляется на тех же условиях, на которых корпорация Майкрософт получила исходные данные. Этот набор может включать данные, полученные от корпорации Майкрософт.

Объем данных и их хранение

Этот набор данных хранится в формате Parquet. По состоянию на 2018 г. он включал около 500 млн строк (5 ГБ).

Этот набор данных содержит архивные записи, собранные с 2009 по 2018 гг. Вы можете использовать параметры из нашего пакета SDK, чтобы получить данные за определенный диапазон времени.

Расположение хранилища

Этот набор данных хранится в регионе Azure "Восточная часть США". Для обеспечения приближенности рекомендуется выделять вычислительные ресурсы в регионе "Восточная часть США".

Дополнительная информация:

NYC Taxi and Limousine Commission (TLC).

Данные собраны и предоставлены комиссии NYC Taxi and Limousine Commission (TLC) поставщиками технологий, авторизованными в соответствии с программами Taxicab & Livery Passenger Enhancement (TPEP/LPEP). Данные поездок не создавались TLC, и TLC не несет ответственности за их достоверность.

Просмотрите исходное местоположение набора данных и исходные условия использования.

Столбцы

Имя. Тип данных Уникальный Значения (пример) Description
dispatchBaseNum строка 1144 B02510 B02764 Номер лицензии базы отправки TLC, которая обслуживала поездку
doLocationId строка 267 265 132 Зона работы такси TLC, в которой завершилась поездка.
dropOffDateTime TIMESTAMP 57110352 2017-07-31 23:59:00 2017-10-15 00:44:34 Дата и время высадки пассажира.
pickupDateTime TIMESTAMP 111270396 2016-08-16 00:00:00 2016-08-17 00:00:00 Дата и время посадки пассажиров.
puLocationId строка 266 79 161 Зона работы такси TLC, в которой началась поездка.
puMonth INT 12 1 12
puYear INT 5 2018 2017
srFlag строка 44 1 2 Указывает, была ли поездка частью цепочки совместных поездок, которую предоставляет компания прокатных автомобилей (например, Uber Pool, Lyft Line). Для общих поездок используется значение 1. Для остальных поездок используется значение null. ПРИМЕЧАНИЕ. Для большинства компаний FHV с высоким объемом, только общие поездки, которые были запрошены И соответствуют другому запросу общей поездки в течение путешествия помечаются. Однако Lyft (базовые номера лицензий B02510 + B02844) также отмечает поездки, для которых была запрошена совместная поездка, но не был успешно сопоставлен другой пассажир. Таким образом, записи с параметром SR_Flag=1 от этих двух баз могут указывать ЛИБО первую поездку в цепочке, ЛИБО ту поездку, для которой было запрошено совместное путешествие, но не был найден попутчик. Пользователям следует учитывать, что число совместных поездок, успешно завершенных компанией Lyft, может быть завышено.

"Предварительная версия"

dispatchBaseNum pickupDateTime dropOffDateTime puLocationId doLocationId srFlag puYear puMonth
B03157 6/30/2019 11:59:57 PM 7/1/2019 12:07:21 AM 264 null null 2019 6
B01667 6/30/2019 11:59:56 PM 7/1/2019 12:28:06 AM 264 null null 2019 6
B02849 6/30/2019 11:59:55 PM 7/1/2019 12:14:10 AM 264 null null 2019 6
B02249 6/30/2019 11:59:53 PM 7/1/2019 12:15:53 AM 264 null null 2019 6
B00887 6/30/2019 11:59:48 PM 7/1/2019 12:29:29 AM 264 null null 2019 6
B01626 6/30/2019 11:59:45 PM 7/1/2019 12:18:20 AM 264 null null 2019 6
B01259 6/30/2019 11:59:44 PM 7/1/2019 12:03:15 AM 264 null null 2019 6
B01145 6/30/2019 11:59:43 PM 7/1/2019 12:11:15 AM 264 null null 2019 6
B00887 6/30/2019 11:59:42 PM 7/1/2019 12:34:21 AM 264 null null 2019 6
B00821 6/30/2019 11:59:40 PM 7/1/2019 12:02:57 AM 264 null null 2019 6

Доступ к данным

Записные книжки Azure

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

Следующие шаги

Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.