azureml-opendatasets Pacote

Pacotes

opendatasets

Contém funcionalidade para consumir o Azure Open Datasets como dataframes e para enriquecer os dados do cliente.

Os Conjuntos de dados abertos do Azure são conjuntos de dados públicos coletados que você pode usar para adicionar recursos específicos do cenário para soluções de aprendizado de máquina para obter modelos mais precisos. Você pode converter esses conjuntos de dados públicos em dataframes Spark e pandas com filtros aplicados. Para alguns conjuntos de dados, você pode usar um aprimorador para unir dados públicos aos seus dados. Por exemplo, você pode unir seus dados a dados meteorológicos de longitude e latitude ou código postal e hora.

Incluídos no Azure Open Datasets estão dados de domínio público para clima, censo, feriados, segurança pública e localização que ajudam a treinar modelos de machine learning e enriquecer soluções preditivas. O Open Datasets está na nuvem no Microsoft Azure e integrado ao Azure Machine Learning. Para obter mais informações sobre como trabalhar com o Azure Open Datasets, consulte Criar conjuntos de dados com o Azure Open Datasets.

Para obter informações gerais sobre o Azure Open Datasets, consulte a Documentação do Azure Open Datasets.

Módulos

country_or_region_time_customer_data

Os dados do cliente com as colunas de localização e hora devem ser encapsulados usando essa classe.

country_or_region_time_public_data

Os dados públicos com colunas country_or_region e time podem ser encapsulados com essa classe.

country_region_data

Contém funcionalidade para trabalhar com dados de localização, com classes de coluna compatíveis.

customer_data

Contém a classe base de todos os dados do cliente.

location_data

Contém a funcionalidade para trabalhar com dados de localização, com classes de coluna compatíveis.

location_time_customer_data

Contém funcionalidade para agrupar dados do cliente com colunas de local e hora.

location_time_public_data

Contém a funcionalidade para agrupar os dados públicos com colunas de local e hora.

open_dataset_base

Classe base para conjuntos de dados tabulares em aberto.

public_data

Contém a classe base de dados públicos.

time_data

Contém a funcionalidade para representar dados temporais e operações relacionadas em conjuntos de dados em aberto.

aggregator

Define a classe base para todos os agregadores.

aggregator_all

Contém o agregador para incluir todas as colunas, ou seja, quando nenhuma agregação é executada.

aggregator_avg

Contém a classe média do agregador.

aggregator_max

Contém a classe máxima do agregador.

aggregator_min

Contém a classe mínima do agregador.

aggregator_top

Contém a classe superior do agregador.

base_blob_info

Contém a classe base de informações de blob.

blob_parquet_descriptor

Contém o descritor do parquet de blob.

dataset_partition_prep

Contém a funcionalidade para especificar a preparação da partição do conjuntos de dados.

A preparação da partição ocorre automaticamente quando você usa uma classe opendatasets que requer uma partição de dados, como a classe NycTlcGreen.

pandas_data_load_limit

Contém a funcionalidade para controlar como limitar o carregamento de dados do pandas quando os arquivos parquet são grandes.

Com a funcionalidade desse módulo, você pode especificar como limitar o carregamento dos dados do pandas quando os arquivos parquet são muito grandes para serem carregados.

common_weather_enricher

Contém a funcionalidade para enriquecer dados personalizados com dados públicos meteorológicos.

enricher

Define a classe genérica do aprimorador para unir dados com diferentes granularidades e agregadores.

Este módulo contém sobrecargas de funções estáticas: get_max_date_by_granularity(max_date, granularity), em que a granularidade é uma das seguintes: MonthGranularity, DayGranularity ou HourGranularity. Esses métodos estáticos retornam os dados máximos com base na granularidade especificada.

holiday_enricher

Contém a funcionalidade para enriquecer dados personalizados com dados públicos de feriados.

environ

Define as classes de ambiente de runtime em que o Azure Open Datasets é usado.

As classes nesse módulo garantem que a funcionalidade do Azure Open Datasets seja otimizada para diferentes ambientes. Em geral, não é necessário criar uma instância dessas classes de ambiente nem se preocupar com a implementação. Em vez disso, use a função do módulo get_environ para retornar o ambiente.

granularity

Contém definições de granularidade para hora e local.

As granularidades são organizadas da seguinte forma:

Você trabalha com uma granularidade especificando-a em uma função enriquecedora. Por exemplo, ao usar os métodos da classe HolidayEnricher para enriquecer dados, especifique o TimeGranularity como um parâmetro de entrada para o método.

country_region_selector

Contém a classe de seletor de região do país.

enricher_selector

Contém as classes base para seletores de local e hora.

Há duas subclasses de EnricherSelector:

O EnricherSelector é a classe raiz de LocationClosestSelector e TimeNearestSelector.

location_closest_selector

Contém a classe do seletor de local mais próximo.

time_nearest_selector

Contém a classe de seletor de hora mais próxima.