Compartilhar via


opendatasets Pacote

Contém funcionalidade para consumir o Azure Open Datasets como dataframes e para enriquecer os dados do cliente.

Os Conjuntos de dados abertos do Azure são conjuntos de dados públicos coletados que você pode usar para adicionar recursos específicos do cenário para soluções de aprendizado de máquina para obter modelos mais precisos. Você pode converter esses conjuntos de dados públicos em dataframes Spark e pandas com filtros aplicados. Para alguns conjuntos de dados, você pode usar um aprimorador para unir dados públicos aos seus dados. Por exemplo, você pode unir seus dados a dados meteorológicos de longitude e latitude ou código postal e hora.

Incluídos no Azure Open Datasets estão dados de domínio público para clima, censo, feriados, segurança pública e localização que ajudam a treinar modelos de machine learning e enriquecer soluções preditivas. O Open Datasets está na nuvem no Microsoft Azure e integrado ao Azure Machine Learning. Para obter mais informações sobre como trabalhar com o Azure Open Datasets, consulte Criar conjuntos de dados com o Azure Open Datasets.

Para obter informações gerais sobre o Azure Open Datasets, consulte a Documentação do Azure Open Datasets.

Pacotes

accessories

Contém a funcionalidade que ajuda a identificar tipos de coluna nos dados, incluindo lat/long, CEP e hora.

aggregators

Contém a funcionalidade para definir como os dados unidos são agregados.

Os agregadores definem as operações que podem ser executadas no resultado da junção de dados de dois conjuntos de dados. Por exemplo, ao usar uma das classes no enrichers, você pode especificar um agregador como parte da operação. Se nenhuma agregação for necessária, use AggregatorAll.

data

Contém o arquivo de inicialização para recursos de dados no módulo publicholidays.

dataaccess

Contém a funcionalidade que fornece métodos de acesso ao arquivo de blob.

Quando você usa uma classe do pacote opendatasets, como a classe ChicagoSafety, as classes e funções de DataAccess nesse pacote são usadas internamente. Em geral, você não precisará usar a funcionalidade no pacote DataAccess diretamente.

enrichers

Contém a funcionalidade para enriquecer e unir dados de dois conjuntos.

Em geral, os aprimoramentos unem dados de fontes diferentes. Especificamente, os aprimoramentos permitem que você una seus dados (dados do cliente) a dados do Azure Open Datasets ou outros conjuntos de dados públicos.

granularities

Contém a funcionalidade que define as medidas de tempo e distância usadas pelos aprimoramentos.

Granularidades são medidas de tempo ou distância usadas por enrichers ao enriquecer (unir) dados. Há granularidades de tempo, como a cada hora ou dia, e a granularidade do local, como a distância mais próxima.

selectors

Contém a funcionalidade para selecionar e unir dados de um conjunto de dados de cliente com dados de um conjunto de dados público.

Os seletores definem a lógica que permite enriquecer seus dados com conjuntos de dados públicos com base em medidas de tempo e distância. Por exemplo, com um seletor, você pode encontrar dados públicos para unir seus dados com base em um local mais próximo ou arredondando para a mesma granularidade de tempo.

Especifique seletores ao trabalhar com uma das classes no pacote enrichers.

Módulos

environ

Define as classes de ambiente de runtime em que o Azure Open Datasets é usado.

As classes nesse módulo garantem que a funcionalidade do Azure Open Datasets seja otimizada para diferentes ambientes. Em geral, não é necessário criar uma instância dessas classes de ambiente nem se preocupar com a implementação. Em vez disso, use a função do módulo get_environ para retornar o ambiente.

Classes

BingCOVID19Data

Representa o conjunto de dados da COVID-19 do Bing.

Esse conjunto de dados contém os dados sobre a COVID-19 do Bing coletados de diversas fontes seguras e confiáveis, incluindo a OMS (Organização Mundial da Saúde), o CDC (Centros de Controle e Prevenção de Doenças), departamentos estaduais e nacionais de saúde dos EUA, o BNO News, o 24/7 Wall St. e a Wikipedia. Para obter mais informações sobre o conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, consulte Dados da COVID-19 do Bing no catálogo do Microsoft Azure Open Datasets.

Inicializar campos de filtragem.

BostonSafety

Representa o conjunto de dados públicos de Segurança de Boston.

Esse conjunto de dados contém as chamadas ao número 311 relatadas na cidade de Boston. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, consulte Dados de Segurança de Boston no catálogo do Microsoft Azure Open Datasets.

Inicializar campos de filtragem.

COVID19OpenResearch

Representa o Conjunto de Dados de Pesquisa Aberta sobre a COVID-19.

Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, confira Conjunto de Dados de Pesquisa Aberta sobre a COVID-19 no catálogo do Microsoft Azure Open Datasets.

COVIDTrackingProject

Representa o conjunto de dados do Projeto de Rastreamento da COVID.

Esses conjuntos de dados contêm o conjunto de dados do Projeto de Rastreamento da COVID, fornecendo os números mais recentes sobre testes, casos confirmados, hospitalizações e resultados de pacientes de todos os estados e territórios dos EUA. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, consulte Conjunto de dados do Projeto de Rastreamento da COVID no catálogo do Microsoft Azure Open Datasets.

Inicializar campos de filtragem.

ChicagoSafety

Representa o conjunto de dados públicos de Segurança de Chicago.

Este conjunto de dados contém as solicitações de serviço ao 311 da cidade de Chicago, incluindo reclamações históricas sobre o código de saneamento, buracos relatados e problemas com a iluminação das ruas. Para obter mais informações sobre esse conjunto de dados, como descrições de coluna, diferentes maneiras de acessá-lo e exemplos, consulte Dados de Segurança de Chicago no catálogo do Microsoft Azure Open Datasets.

Inicializar campos de filtragem.

CitySafety

Classe de segurança de cidade – Essa é uma classe pai que pode ser herdada por cada cidade individual.

Inicializar campos de filtragem.

Diabetes

Representa o conjunto de dados públicos de amostra Diabetes.

O conjunto de dados Diabetes tem 442 amostras com dez recursos, tornando-o ideal para começar a usar algoritmos de aprendizado de máquina. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, confira Exemplo: Diabetes no catálogo do Microsoft Azure Open Datasets.

EcdcCOVIDCases

Representa casos de Covid-19 do ECDC (Centro Europeu de Prevenção e Controle de Doenças).

Esses conjunto de data contém dados do ECDC (Centro Europeu de Prevenção e Controle de Doenças). Cada linha/entrada contém o número de novos casos relatados por dia e por país/região. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, confira Casos de Covid-19 do ECDC (Centro Europeu para Prevenção e Controle de Doenças) no catálogo do Microsoft Azure Open Datasets.

Inicializar campos de filtragem.

MNIST

Representa o conjunto de dados do MNIST de dígitos manuscritos.

O banco de dados MNIST de dígitos manuscritos tem um conjunto de treinamento com 60.000 exemplos e um conjunto de teste com 10.000 exemplos. Os dígitos foram normalizados em termos de tamanho e centralizados em uma imagem de tamanho fixo. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, consulte O banco de dados MNIST de dígitos manuscritos no catálogo do Microsoft Azure Open Datasets.

Para obter um exemplo de como usar o conjunto de dados do MNIST, consulte o tutorial Treinar modelos de classificação de imagem usando dados MNIST e scikit-learn com o Azure Machine Learning.

NoParameterOpenDatasetBase

Classe base de trabalho dos EUA.

Inicializar.

NoaaGfsWeather

Representa o conjunto de dados de GFS (Sistema de Previsão Global) da NOAA (Administração Oceânica e Atmosférica Nacional).

Esse conjunto de dados contém dados de previsão meteorológica por hora dos EUA de 15 dias (exemplo, temperatura, precipitação, vento) produzidos pelo GFS (Sistema de Previsão Global) da NOAA (Administração Oceânica e Atmosférica Nacional). Para obter informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, confira Sistema de Previsão Global da NOAA no catálogo do Microsoft Azure Open Datasets.

Inicializar campos de filtragem.

NoaaIsdWeather

Representa o ISD (Conjunto de Dados de Superfície Integrado) da NOAA (Administração Nacional Oceânica e Atmosférica).

Esse conjunto de dados contém os dados mundiais de histórico meteorológico por hora (por exemplo, temperatura, precipitação, vento) provenientes da NOAA (Administração Oceânica e Atmosférica Nacional). Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, consulte Dados de Superfície Integrados da NOAA no catálogo do Microsoft Azure Open Datasets.

Inicializar campos de filtragem.

NycSafety

Representa o conjunto de dados públicos de Segurança da cidade de Nova York.

Este conjunto de dados contém todas as solicitações de serviço ao número 311 da cidade de Nova York de 2010 até agora. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, consulte Dados de Segurança da cidade de Nova York no catálogo do Microsoft Azure Open Datasets.

Inicializar campos de filtragem.

NycTaxiBase

Classe de táxi de Nova York − Essa é uma classe pai que pode ser herdada.

Inicializar campos de filtragem.

NycTlcFhv

Representa o conjunto de dados público da Comissão de Táxis & Limusines de Nova York.

Esse conjunto de dados contém os registros de viagem de FHV (veículo alugado), que incluem os campos que capturam o número da licença de base de despacho e a data de coleta, a hora e a ID de localização da zona de táxi (arquivo de forma abaixo). Esses registros são gerados com base nos envios de Registro de viagem com FHV feitos pelas bases. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Nyc Taxi & Limídice Commission - registros de viagem do veículo For-Hire (FHV) no catálogo do Microsoft Azure Open Datasets.

Inicializar campos de filtragem.

NycTlcGreen

Representa o conjunto de dados públicos de corrida de táxi verde da Comissão de Táxis & Limusines de NYC.

Os registros de viagem de táxi verde incluem campos que capturam as datas/horas de partida e chegada, os locais de partida e chegada, as distâncias, as tarifas discriminadas, os tipos de taxa, os tipos de pagamento e as contagens de passageiro relatadas pelo motorista. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Nyc Taxi & Limídice Commission - registros de corrida de táxi verde no catálogo do Microsoft Azure Open Datasets.

Para obter um exemplo de uso da classe NycTlcGreen, consulte o tutorial Usar o machine learning automatizado para prever tarifas de táxi.

Inicializar campos de filtragem.

NycTlcYellow

Representa o conjunto de dados públicos de corrida de táxi amarelo da Comissão de Táxi & Limusine de NYC.

Os registros de viagem de táxi amarelo incluem campos que capturam as datas/horas de partida e chegada, os locais de partida e chegada, as distâncias, as tarifas discriminadas, os tipos de taxa, os tipos de pagamento e as contagens de passageiro relatadas pelo motorista. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Nyc Taxi & Limídice Commission – registros de corrida de táxi amarelo no catálogo do Microsoft Azure Open Datasets.

Inicializar campos de filtragem.

OjSalesSimulated

Representa o conjunto de dados simulado de amostra de Vendas de Suco de Laranja.

Para obter mais informações sobre esse conjunto de dados, incluindo descrições de colunas, diferentes maneiras de acessá-lo e exemplos, confira Exemplo: Dados simulados de Vendas de Suco de Laranja no catálogo do Microsoft Azure Open Datasets.

PublicHolidays

Representa o conjunto de dados públicos de Feriados Públicos.

Esses conjuntos de dados contêm dados de feriados mundiais provenientes do pacote de feriados PyPI e da Wikipedia, cobrindo 38 países ou regiões de 1970 a 2099. Cada linha indica as informações de feriado para uma região, país ou data específica e se a maioria das pessoas tem folga remunerada. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, confira Feriados Públicos no catálogo do Microsoft Azure Open Datasets.

Inicializar campos de filtragem.

PublicHolidaysOffline

Representa o conjunto de dados públicos offline de Feriados Públicos.

Para obter uma descrição das linhas, consulte Feriados Públicos no catálogo do Microsoft Azure Open Datasets.

Inicializar campos de filtragem.

SampleDatasetBase

Representa a classe base do conjunto de dados de exemplo.

SanFranciscoSafety

Representa o conjunto de dados público de segurança de São Francisco.

Esse conjunto de dados contém chamadas de serviço ao corpo de bombeiros e casos do 311 em São Francisco. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, consulte Dados de Segurança de São Francisco no catálogo do Microsoft Azure Open Datasets.

Inicializar campos de filtragem.

SeattleSafety

Representa o conjunto de dados públicos de Segurança de Seattle.

Esse conjunto de dados contém dados de expedição do corpo de bombeiros de Seattle 911. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, consulte Dados de Segurança de Seattle no catálogo do Microsoft Azure Open Datasets.

Inicializar campos de filtragem.

UsLaborCPI

Representa o conjunto de dados público de Índice de Preços ao Consumidor dos EUA.

O CPI (Índice de Preços ao Consumidor) é a medida da média de alteração ao longo do tempo dos preços pagos por consumidores urbanos por uma cesta básica de bens e serviços. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de colunas, diferentes maneiras de acessá-lo e exemplos, consulte Índice de Preços ao Consumidor dos EUA no catálogo do Microsoft Azure Open Datasets.

Inicializar.

UsLaborEHENational

Representa o conjunto de dados públicos de Emprego, Horas e Ganhos Nacionais nos EUA.

Esse conjunto de dados contém estimativas do setor de trabalho não farm, horas e ganhos de trabalhadores em folhas de pagamento no Estados Unidos. Para saber mais sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, consulte Emprego, Horas e Ganhos Nacionais nos EUA no catálogo do Microsoft Azure Open Datasets.

Inicializar.

UsLaborEHEState

Representa o conjunto de dados públicos de Emprego, Horas e Ganhos Estaduais nos EUA.

Esse conjunto de dados contém estimativas do setor de trabalho não farm, horas e ganhos de trabalhadores em folhas de pagamento no Estados Unidos. Para saber mais sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, confira Emprego, Horas e Ganhos Estaduais nos EUA no catálogo do Microsoft Azure Open Datasets.

Inicializar.

UsLaborLAUS

Representa o conjunto de dados públicos das Estatísticas de Desemprego por Local nos EUA.

Esse conjunto de dados contém os dados mensais e anuais de emprego, desemprego e da força de trabalho nas regiões e divisões do Censo, Estados, condados, áreas metropolitanas e nas muitas cidades nos Estados Unidos. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, consulte Estatísticas de Desemprego por Local nos EUA no catálogo do Microsoft Azure Open Datasets.

Inicializar.

UsLaborLFS

Representa o conjunto de dados públicos das Estatísticas da Força de Trabalho nos EUA.

Esse conjunto de dados contém dados sobre a força de trabalho nos Estados Unidos, incluindo taxas de participação na força de trabalho e a população civil não institucional por idade, sexo, raça e grupos étnicos. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, consulte Estatísticas da Força de Trabalho nos EUA no catálogo do Microsoft Azure Open Datasets.

Inicializar.

UsLaborPPICommodity

Representa o conjunto de dados públicos do PPI (Índice de Preços ao Produtor dos EUA) – Commodities.

O PPI (Índice de Preços ao Produtor) é uma medida da média de alterações ao longo do tempo nos preços de venda recebidos por produtores domésticos por sua produção. Os preços do PPI são da primeira transação comercial de produtos e serviços cobertos. Este conjunto de dados contém PPIs para produtos individuais e grupos de produtos lançados mensalmente. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, confira Índice de Preços ao Produtor dos EUA – Commodities no catálogo do Microsoft Azure Open Datasets.

Inicializar.

UsLaborPPIIndustry

Representa o conjunto de dados públicos de PPI (Índice de Preços ao Produtor) dos EUA – Setor.

O PPI (Índice de Preços ao Produtor) é uma medida da média de alterações ao longo do tempo nos preços de venda recebidos por produtores domésticos por sua produção. Os preços do PPI são da primeira transação comercial de produtos e serviços cobertos. Esse conjunto de dados contém PPIs para uma ampla gama de setores da economia dos EUA. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, confira Índice de Preços ao Produtor dos EUA – Setor no catálogo do Microsoft Azure Open Datasets.

Para obter informações gerais sobre o Azure Open Datasets, consulte a Documentação do Azure Open Datasets.

Inicializar.

UsPopulationCounty

Representa o conjunto de dados públicos da População dos EUA por Município.

Este conjunto de dados contém a população dos EUA por gênero e raça para cada município dos EUA com origem no censo decenal de 2000 e 2010. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, consulte População dos EUA por Município no catálogo do Microsoft Azure Open Datasets.

Inicializar.

UsPopulationZip

Representa o conjunto de dados públicos da População dos EUA por CEP.

Este conjunto de dados contém a população dos EUA por gênero e raça para cada CEP dos EUA com origem no censo decenal de 2010. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessá-lo e exemplos, consulte População dos EUA por CEP no catálogo do Microsoft Azure Open Datasets.

Inicializar.