azureml-opendatasets Paquete

Referencia

Paquetes

Contiene funcionalidad para consumir Azure Open Datasets como tramas de datos y enriquecer los datos del cliente.

Azure Open Datasets son conjuntos de datos públicos mantenidos que puede usar para agregar características de escenarios específicos a soluciones de aprendizaje automático a fin de obtener modelos más precisos. Puede convertir estos conjuntos de datos públicos en tramas de datos de Spark y Pandas con filtros aplicados. Para algunos conjuntos de datos, puede usar un enriquecedor para combinar los datos públicos con sus datos. Por ejemplo, puede combinar los datos con la información meteorológica por longitud y latitud o código postal y hora.

Se incluyen en Azure Open Datasets datos de dominio público para la meteorología, el censo, los días festivos, la seguridad pública y la ubicación que le ayudan a entrenar modelos de aprendizaje automático y enriquecer soluciones predictivas. Las instancias de Azure Open Datasets se encuentran en la nube en Microsoft Azure y se integran en Azure Machine Learning. Para más información sobre cómo trabajar con Azure Open Datasets, consulte Creación de conjuntos de datos con Azure Open Datasets.

Para información general sobre Azure Open Datasets, consulte Documentación de Azure Open Datasets.

Módulos

country_or_region_time_customer_data	Los datos del cliente con columnas de ubicación y hora deben encapsularse con esta clase.
country_or_region_time_public_data	Los datos públicos con columnas country_or_region y de tiempo se pueden encapsular con esta clase.
country_region_data	Contiene funcionalidad para trabajar con datos de ubicación, con clases de columna admitidas.
customer_data	Contiene la clase base de todos los datos del cliente.
location_data	Contiene funcionalidad para trabajar con datos de ubicación, con clases de columna admitidas.
location_time_customer_data	Contiene funcionalidad para encapsular los datos del cliente con columnas de ubicación y hora.
location_time_public_data	Contiene funcionalidad para encapsular los datos públicos con columnas de ubicación y hora.
open_dataset_base	Clase base para conjuntos de datos tabulares abiertos.
public_data	Contiene la clase base de datos pública.
time_data	Contiene funcionalidad para representar datos de hora y operaciones relacionadas en opendatasets.
aggregator	Define la clase base para todos los agregadores.
aggregator_all	Contiene el agregador para incluir todas las columnas, es decir, cuando no se realiza ninguna agregación.
aggregator_avg	Contiene la clase media del agregador.
aggregator_max	Contiene la clase max del agregador.
aggregator_min	Contiene la clase min del agregador.
aggregator_top	Contiene la clase top del agregador.
base_blob_info	Contiene la clase base de información de blob.
blob_parquet_descriptor	Contiene el descriptor de blob Parquet.
dataset_partition_prep	Contiene funcionalidad para especificar la preparación de la partición del conjunto de datos. La preparación de la partición se produce automáticamente cuando se usa una clase opendatasets que requiere una partición de datos, como la clase NycTlcGreen.
pandas_data_load_limit	Contiene funcionalidad para controlar cómo se cargan los datos de pandas limitados cuando los archivos Parquet son grandes. Con la funcionalidad de este módulo, puede especificar cómo limitar la carga de datos de Pandas cuando los archivos parquet son demasiado grandes para cargarse.
common_weather_enricher	Contiene funcionalidad para enriquecer datos personalizados con datos públicos meteorológicos.
enricher	Define la clase de enriquecimiento genérico para combinar datos con diferentes agregadores y granularidad. Este módulo contiene sobrecargas de función estática: `get_max_date_by_granularity(max_date, granularity)` donde la granularidad es una de MonthGranularity, DayGranularity o HourGranularity. Estos métodos estáticos devuelven los datos máximos en función de la granularidad especificada.
holiday_enricher	Contiene funcionalidad para enriquecer datos personalizados con datos públicos de vacaciones.
environ	Define las clases de entorno en tiempo de ejecución donde usan conjuntos de datos de Azure Open Datasets. Las clases de este módulo garantizan que la funcionalidad de Azure Open Datasets está optimizada para distintos entornos. En general, no es necesario crear instancias de estas clases de entorno ni preocuparse por su implementación. En su lugar, use la función de módulo `get_environ` para devolver el entorno.
granularity	Contiene definiciones de granularidad para la hora y la ubicación. Las granularidades se organizan de la siguiente manera: LocationGranularity LocationClosestGranularity TimeGranularity HourGranularity DayGranularity MonthGranularity Para trabajar con una granularidad, es posible especificarla en una función de enriquecimiento. Por ejemplo, al usar los métodos de clase HolidayEnricher para enriquecer datos, especifique TimeGranularity como parámetro de entrada para el método.
country_region_selector	Contiene la clase de selector de región de país.
enricher_selector	Contiene las clases base para los selectores de ubicación y hora. Hay dos subclases de EnricherSelector: EnricherLocationSelector: proporciona cálculos básicos de la distancia esférica. EnricherTimeSelector: proporciona funciones de contenedor `round_to`. EnricherSelector es la clase raíz de LocationClosestSelector y TimeNearestSelector.
location_closest_selector	Contiene la clase de selector de ubicación más cercana.
time_nearest_selector	Contiene la clase de selector de hora más cercana.

azureml-opendatasets Paquete

Paquetes

Módulos

Comentarios

Comentarios

Recursos adicionales