Поделиться через


NycTlcGreen Класс

Представляет общедоступный набор данных о поездках на такси Нью-Йорка & лимузина Комиссии по зеленым поездкам на такси.

Необработанные записи поездок в такси включают такие поля, как время или дата посадки и высадки пассажиров, пункты посадки и высадки, дальность поездки, детализированные пассажирские тарифы, виды тарифов, виды оплаты и отчет водителя о количестве пассажиров. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в разделе NYC Taxi & Limousine Commission — зеленые записи о поездках на такси в каталоге Открытых наборов данных Microsoft Azure.

Пример использования класса NycTlcGreen см. в руководстве Использование автоматизированного машинного обучения для прогнозирования тарифов на такси.

Инициализация полей фильтрации.

Наследование
azureml.opendatasets._nyc_taxi_base.NycTaxiBase
NycTlcGreen

Конструктор

NycTlcGreen(start_date: datetime = datetime.datetime(2015, 1, 1, 0, 0), end_date: datetime = datetime.datetime(2024, 5, 1, 0, 0), cols: List[str] | None = None, limit: int | None = -1, enable_telemetry: bool = True)

Параметры

Имя Описание
start_date

Дата (включительно) начала загрузки данных. При значении None, используется default_start_date.

значение по умолчанию: 2015-01-01 00:00:00
end_date

Дата окончания загрузки данных (включительно). При значении None, используется default_end_date.

значение по умолчанию: 2024-05-01 00:00:00
cols

Список имен столбцов для загрузки из набора данных. При значении None загружаются все столбцы. Сведения о доступных столбцах в этом наборе данных см. в разделе NYC Taxi & Limousine Commission — зеленые записи о поездках на такси.

значение по умолчанию: None
limit
int

Значение, указывающее количество дней для загрузки данных с to_pandas_dataframe(). Если значение не указано, значение "-1" по умолчанию означает отсутствие ограничения на количество дней загрузки.

значение по умолчанию: -1
enable_telemetry

Указывает, следует ли включить телеметрию для этого набора данных.

значение по умолчанию: True
start_date
Обязательно

Дата начала, которую вы хотите запросить включительно.

end_date
Обязательно

Конечная дата, которую вы хотите запросить включительно.

cols
Обязательно

Список имен столбцов, которые вы хотите получить. По всем столбцам вернется значение None.

limit
Обязательно
int

to_pandas_dataframe() будет загружать только "лимитные" месяцы данных. Значение –1 означает отсутствие ограничений.

enable_telemetry
Обязательно

Указывает, следует ли отправлять данные телеметрии.

Комментарии

В приведенном ниже примере показано, как получить доступ к набору данных.


   from azureml.opendatasets import NycTlcGreen
   from dateutil import parser

   end_date = parser.parse('2018-06-06')
   start_date = parser.parse('2018-05-01')
   nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
   nyc_tlc_df = nyc_tlc.to_pandas_dataframe()