azureml-opendatasets Paquete

Paquetes

opendatasets

Contiene funcionalidad para consumir Azure Open Datasets como tramas de datos y enriquecer los datos del cliente.

Azure Open Datasets son conjuntos de datos públicos mantenidos que puede usar para agregar características de escenarios específicos a soluciones de aprendizaje automático a fin de obtener modelos más precisos. Puede convertir estos conjuntos de datos públicos en tramas de datos de Spark y Pandas con filtros aplicados. Para algunos conjuntos de datos, puede usar un enriquecedor para combinar los datos públicos con sus datos. Por ejemplo, puede combinar los datos con la información meteorológica por longitud y latitud o código postal y hora.

Se incluyen en Azure Open Datasets datos de dominio público para la meteorología, el censo, los días festivos, la seguridad pública y la ubicación que le ayudan a entrenar modelos de aprendizaje automático y enriquecer soluciones predictivas. Las instancias de Azure Open Datasets se encuentran en la nube en Microsoft Azure y se integran en Azure Machine Learning. Para más información sobre cómo trabajar con Azure Open Datasets, consulte Creación de conjuntos de datos con Azure Open Datasets.

Para información general sobre Azure Open Datasets, consulte Documentación de Azure Open Datasets.

Módulos

country_or_region_time_customer_data

Los datos del cliente con columnas de ubicación y hora deben encapsularse con esta clase.

country_or_region_time_public_data

Los datos públicos con columnas country_or_region y de tiempo se pueden encapsular con esta clase.

country_region_data

Contiene funcionalidad para trabajar con datos de ubicación, con clases de columna admitidas.

customer_data

Contiene la clase base de todos los datos del cliente.

location_data

Contiene funcionalidad para trabajar con datos de ubicación, con clases de columna admitidas.

location_time_customer_data

Contiene funcionalidad para encapsular los datos del cliente con columnas de ubicación y hora.

location_time_public_data

Contiene funcionalidad para encapsular los datos públicos con columnas de ubicación y hora.

open_dataset_base

Clase base para conjuntos de datos tabulares abiertos.

public_data

Contiene la clase base de datos pública.

time_data

Contiene funcionalidad para representar datos de hora y operaciones relacionadas en opendatasets.

aggregator

Define la clase base para todos los agregadores.

aggregator_all

Contiene el agregador para incluir todas las columnas, es decir, cuando no se realiza ninguna agregación.

aggregator_avg

Contiene la clase media del agregador.

aggregator_max

Contiene la clase max del agregador.

aggregator_min

Contiene la clase min del agregador.

aggregator_top

Contiene la clase top del agregador.

base_blob_info

Contiene la clase base de información de blob.

blob_parquet_descriptor

Contiene el descriptor de blob Parquet.

dataset_partition_prep

Contiene funcionalidad para especificar la preparación de la partición del conjunto de datos.

La preparación de la partición se produce automáticamente cuando se usa una clase opendatasets que requiere una partición de datos, como la clase NycTlcGreen.

pandas_data_load_limit

Contiene funcionalidad para controlar cómo se cargan los datos de pandas limitados cuando los archivos Parquet son grandes.

Con la funcionalidad de este módulo, puede especificar cómo limitar la carga de datos de Pandas cuando los archivos parquet son demasiado grandes para cargarse.

common_weather_enricher

Contiene funcionalidad para enriquecer datos personalizados con datos públicos meteorológicos.

enricher

Define la clase de enriquecimiento genérico para combinar datos con diferentes agregadores y granularidad.

Este módulo contiene sobrecargas de función estática: get_max_date_by_granularity(max_date, granularity) donde la granularidad es una de MonthGranularity, DayGranularity o HourGranularity. Estos métodos estáticos devuelven los datos máximos en función de la granularidad especificada.

holiday_enricher

Contiene funcionalidad para enriquecer datos personalizados con datos públicos de vacaciones.

environ

Define las clases de entorno en tiempo de ejecución donde usan conjuntos de datos de Azure Open Datasets.

Las clases de este módulo garantizan que la funcionalidad de Azure Open Datasets está optimizada para distintos entornos. En general, no es necesario crear instancias de estas clases de entorno ni preocuparse por su implementación. En su lugar, use la función de módulo get_environ para devolver el entorno.

granularity

Contiene definiciones de granularidad para la hora y la ubicación.

Las granularidades se organizan de la siguiente manera:

Para trabajar con una granularidad, es posible especificarla en una función de enriquecimiento. Por ejemplo, al usar los métodos de clase HolidayEnricher para enriquecer datos, especifique TimeGranularity como parámetro de entrada para el método.

country_region_selector

Contiene la clase de selector de región de país.

enricher_selector

Contiene las clases base para los selectores de ubicación y hora.

Hay dos subclases de EnricherSelector:

EnricherSelector es la clase raíz de LocationClosestSelector y TimeNearestSelector.

location_closest_selector

Contiene la clase de selector de ubicación más cercana.

time_nearest_selector

Contiene la clase de selector de hora más cercana.