azureml-opendatasets Pacote
Pacotes
opendatasets |
Contém funcionalidade para consumir o Azure Open Datasets como dataframes e para enriquecer os dados do cliente. Os Conjuntos de dados abertos do Azure são conjuntos de dados públicos coletados que você pode usar para adicionar recursos específicos do cenário para soluções de aprendizado de máquina para obter modelos mais precisos. Você pode converter esses conjuntos de dados públicos em dataframes Spark e pandas com filtros aplicados. Para alguns conjuntos de dados, você pode usar um aprimorador para unir dados públicos aos seus dados. Por exemplo, você pode unir seus dados a dados meteorológicos de longitude e latitude ou código postal e hora. Incluídos no Azure Open Datasets estão dados de domínio público para clima, censo, feriados, segurança pública e localização que ajudam a treinar modelos de machine learning e enriquecer soluções preditivas. O Open Datasets está na nuvem no Microsoft Azure e integrado ao Azure Machine Learning. Para obter mais informações sobre como trabalhar com o Azure Open Datasets, consulte Criar conjuntos de dados com o Azure Open Datasets. Para obter informações gerais sobre o Azure Open Datasets, consulte a Documentação do Azure Open Datasets. |
Módulos
country_or_region_time_customer_data |
Os dados do cliente com as colunas de localização e hora devem ser encapsulados usando essa classe. |
country_or_region_time_public_data |
Os dados públicos com colunas country_or_region e time podem ser encapsulados com essa classe. |
country_region_data |
Contém funcionalidade para trabalhar com dados de localização, com classes de coluna compatíveis. |
customer_data |
Contém a classe base de todos os dados do cliente. |
location_data |
Contém a funcionalidade para trabalhar com dados de localização, com classes de coluna compatíveis. |
location_time_customer_data |
Contém funcionalidade para agrupar dados do cliente com colunas de local e hora. |
location_time_public_data |
Contém a funcionalidade para agrupar os dados públicos com colunas de local e hora. |
open_dataset_base |
Classe base para conjuntos de dados tabulares em aberto. |
public_data |
Contém a classe base de dados públicos. |
time_data |
Contém a funcionalidade para representar dados temporais e operações relacionadas em conjuntos de dados em aberto. |
aggregator |
Define a classe base para todos os agregadores. |
aggregator_all |
Contém o agregador para incluir todas as colunas, ou seja, quando nenhuma agregação é executada. |
aggregator_avg |
Contém a classe média do agregador. |
aggregator_max |
Contém a classe máxima do agregador. |
aggregator_min |
Contém a classe mínima do agregador. |
aggregator_top |
Contém a classe superior do agregador. |
base_blob_info |
Contém a classe base de informações de blob. |
blob_parquet_descriptor |
Contém o descritor do parquet de blob. |
dataset_partition_prep |
Contém a funcionalidade para especificar a preparação da partição do conjuntos de dados. A preparação da partição ocorre automaticamente quando você usa uma classe opendatasets que requer uma partição de dados, como a classe NycTlcGreen. |
pandas_data_load_limit |
Contém a funcionalidade para controlar como limitar o carregamento de dados do pandas quando os arquivos parquet são grandes. Com a funcionalidade desse módulo, você pode especificar como limitar o carregamento dos dados do pandas quando os arquivos parquet são muito grandes para serem carregados. |
common_weather_enricher |
Contém a funcionalidade para enriquecer dados personalizados com dados públicos meteorológicos. |
enricher |
Define a classe genérica do aprimorador para unir dados com diferentes granularidades e agregadores. Este módulo contém sobrecargas de funções estáticas: |
holiday_enricher |
Contém a funcionalidade para enriquecer dados personalizados com dados públicos de feriados. |
environ |
Define as classes de ambiente de runtime em que o Azure Open Datasets é usado. As classes nesse módulo garantem que a funcionalidade do Azure Open Datasets seja otimizada para diferentes ambientes.
Em geral, não é necessário criar uma instância dessas classes de ambiente nem se preocupar com a implementação.
Em vez disso, use a função do módulo |
granularity |
Contém definições de granularidade para hora e local. As granularidades são organizadas da seguinte forma: Você trabalha com uma granularidade especificando-a em uma função enriquecedora. Por exemplo, ao usar os métodos da classe HolidayEnricher para enriquecer dados, especifique o TimeGranularity como um parâmetro de entrada para o método. |
country_region_selector |
Contém a classe de seletor de região do país. |
enricher_selector |
Contém as classes base para seletores de local e hora. Há duas subclasses de EnricherSelector:
O EnricherSelector é a classe raiz de LocationClosestSelector e TimeNearestSelector. |
location_closest_selector |
Contém a classe do seletor de local mais próximo. |
time_nearest_selector |
Contém a classe de seletor de hora mais próxima. |
Comentários
https://aka.ms/ContentUserFeedback.
Em breve: Ao longo de 2024, eliminaremos os problemas do GitHub como o mecanismo de comentários para conteúdo e o substituiremos por um novo sistema de comentários. Para obter mais informações, consulteEnviar e exibir comentários de