opendatasets Pacote
Contém funcionalidade para consumir Conjuntos de Dados Abertos do Azure como dataframes e para enriquecer dados do cliente.
Os Conjuntos de Dados Abertos do Azure são conjuntos de dados públicos selecionados que você pode usar para adicionar recursos específicos do cenário a soluções de aprendizado de máquina para modelos mais precisos. Você pode converter esses conjuntos de dados públicos em dataframes Spark e pandas com filtros aplicados. Para alguns conjuntos de dados, você pode usar um enriquecimento para unir os dados públicos com seus dados. Por exemplo, pode juntar os seus dados com dados meteorológicos por longitude e latitude ou código postal e hora.
Incluídos nos Conjuntos de Dados Abertos do Azure estão dados de domínio público sobre meteorologia, censos, feriados, segurança pública e localização que o ajudam a treinar modelos de aprendizagem automática e a enriquecer as soluções preditivas. Os conjuntos de dados abertos estão na nuvem no Microsoft Azure e estão integrados no Azure Machine Learning. Para obter mais informações sobre como trabalhar com conjuntos de dados abertos do Azure, consulte Criar conjuntos de dados com conjuntos de dados abertos do Azure.
Para obter informações gerais sobre os Conjuntos de Dados Abertos do Azure, consulte Documentação de Conjuntos de Dados Abertos do Azure.
Pacote
accessories |
Contém funcionalidade que ajuda a identificar tipos de coluna nos dados, incluindo lat/long, CEP e hora. |
aggregators |
Contém funcionalidade para definir como os dados associados são agregados. Os agregadores definem operações que podem ser executadas no resultado da junção de dados de dois conjuntos de dados. Por exemplo, quando você usa uma das classes no enrichers, você pode especificar um agregador como parte da operação. Se nenhuma agregação for necessária, use AggregatorAll. |
data |
Contém o arquivo init para recursos de dados no módulo publicholidays. |
dataaccess |
Contém funcionalidade que fornece métodos de acesso a arquivos blob. Quando você usa uma classe do opendatasets pacote como a ChicagoSafety classe, as classes e funções de acesso a dados neste pacote são usadas internamente. Em geral, você não precisará usar a funcionalidade no pacote de acesso a dados diretamente. |
enrichers |
Contém funcionalidade para enriquecer e unir dados de dois conjuntos de dados. Geralmente, os enriquecedores reúnem dados de diferentes fontes. Especificamente, os enriquecedores permitem que você junte seus dados (dados do cliente) com dados de conjuntos de dados abertos do Azure ou outros conjuntos de dados públicos. |
granularities |
Contém funcionalidades que definem medidas de tempo e distância usadas por enriquecedores. As granularidades são medidas de tempo ou distância usadas ao enrichers enriquecer (juntar) dados. Há granularidades de tempo, como horária ou diária, e granularidade de localização, como distância mais próxima. |
selectors |
Contém funcionalidade para selecionar e unir dados de um conjunto de dados de cliente com dados de um conjunto de dados público. Os seletores definem a lógica que permite enriquecer seus dados com conjuntos de dados públicos com base em medidas de tempo e distância. Por exemplo, com um seletor, você pode encontrar dados públicos para unir seus dados com base no local mais próximo ou arredondando para a mesma granularidade de tempo. Especifique seletores ao trabalhar com uma das classes no enrichers pacote. |
Módulos
environ |
Define classes de ambiente de tempo de execução onde os conjuntos de dados abertos do Azure são usados. As classes neste módulo garantem que a funcionalidade do Azure Open Datasets seja otimizada para diferentes ambientes.
Em geral, você não precisa instanciar essas classes de ambiente ou se preocupar com sua implementação.
Em vez disso, use a |
Classes
BingCOVID19Data |
Representa o conjunto de dados do Bing COVID-19. Este conjunto de dados contém dados do Bing COVID-19 de várias fontes confiáveis e confiáveis, incluindo a Organização Mundial da Saúde (OMS), Centros de Controle e Prevenção de Doenças (CDC), departamentos de saúde pública nacionais e estaduais, BNO News, Wall St. 24/7 e Wikipedia. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Dados do Bing COVID-19 no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar campos de filtragem. |
BostonSafety |
Representa o conjunto de dados público da Segurança de Boston. Este conjunto de dados contém 311 chamadas reportadas para a cidade de Boston. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Dados de segurança de Boston no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar campos de filtragem. |
COVID19OpenResearch |
Representa o conjunto de dados de pesquisa aberta COVID-19. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Conjunto de dados de pesquisa aberta COVID-19 no catálogo de conjuntos de dados abertos do Microsoft Azure. |
COVIDTrackingProject |
Representa o conjunto de dados do COVID Tracking Project. Este conjunto de dados contém o conjunto de dados do COVID Tracking Project fornecendo os números mais recentes sobre testes, casos confirmados, hospitalizações e resultados de pacientes de todos os estados e territórios dos EUA. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Conjunto de dados do Projeto de Rastreamento COVID no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar campos de filtragem. |
ChicagoSafety |
Representa o conjunto de dados público da Segurança de Chicago. Este conjunto de dados contém 311 solicitações de serviço da cidade de Chicago, incluindo reclamações históricas de código de saneamento, buracos relatados e problemas de iluminação pública. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Dados de segurança de Chicago no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar campos de filtragem. |
CitySafety |
Classe de segurança da cidade - esta é uma classe pai que pode ser herdada por cada cidade individualmente. Inicializar campos de filtragem. |
Diabetes |
Representa o conjunto de dados público Diabetes de amostra. O conjunto de dados Diabetes tem 442 amostras com 10 funcionalidades, o que faz com que seja ideal para começar a trabalhar com algoritmos de aprendizagem automática. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Exemplo: Diabetes no catálogo de conjuntos de dados abertos do Microsoft Azure. |
EcdcCOVIDCases |
Representa os casos de Covid-19 do Centro Europeu de Prevenção e Controlo das Doenças (ECDC). Estes conjuntos de dados são fornecidos pelo Centro Europeu de Prevenção e Controlo das Doenças (ECDC). Cada linha/entrada contém o número de novos casos notificados por dia e por país/região. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de colunas, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Casos de Covid-19 do Centro Europeu de Prevenção e Controle de Doenças (ECDC) no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar campos de filtragem. |
MNIST |
Representa o conjunto de dados MNIST de dígitos manuscritos. A base de dados MNIST de dígitos manuscritos tem um conjunto de preparação com 60 000 exemplos e um conjunto de testes com 10 000 exemplos. Os dígitos foram normalizados em tamanho e centralizados em uma imagem de tamanho fixo. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte O banco de dados MNIST de dígitos manuscritos no catálogo de conjuntos de dados abertos do Microsoft Azure. Para obter um exemplo de como usar o conjunto de dados MNIST, consulte o tutorial Treinar modelos de classificação de imagem com dados MNIST e scikit-learn usando o Azure Machine Learning. |
NoParameterOpenDatasetBase |
Classe de base laboral dos EUA. Inicializar. |
NoaaGfsWeather |
Representa o conjunto de dados do Sistema de Previsão Global (GFS) da Administração Nacional Oceânica e Atmosférica (NOAA). Este conjunto de dados contém dados de previsão meteorológica horária de 15 dias nos EUA (por exemplo: temperatura, precipitação, vento) produzidos pelo Global Forecast System (GFS) da Administração Nacional Oceânica e Atmosférica (NOAA). Para obter informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte NOAA Global Forecast System no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar campos de filtragem. |
NoaaIsdWeather |
Representa o Conjunto de Dados de Superfície Integrado (ISD) da Administração Nacional Oceânica e Atmosférica (NOAA). Este conjunto de dados contém dados históricos meteorológicos por hora em todo o mundo (por exemplo: temperatura, precipitação, vento) provenientes da Administração Nacional Oceânica e Atmosférica (NOAA). Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Dados de superfície integrados da NOAA no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar campos de filtragem. |
NycSafety |
Representa o conjunto de dados público de Segurança da Cidade de Nova York. Este conjunto de dados contém todos os pedidos de emergência de 311 de Nova Iorque desde 2010 até hoje. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Dados de segurança da cidade de Nova York no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar campos de filtragem. |
NycTaxiBase |
Classe de táxi de Nova York - esta é uma classe pai que pode ser herdada. Inicializar campos de filtragem. |
NycTlcFhv |
Representa o conjunto de dados público da NYC Taxi & Limousine Commission. Este conjunto de dados contém For-Hire registros de viagem da Vechicle (FHV), que incluem campos que capturam o número da licença base de despacho e a data, hora e ID de localização da zona de táxi (arquivo de forma abaixo). Esses registros são gerados a partir dos envios do FHV Trip Record feitos pelas bases. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de colunas, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) registros de viagem no catálogo do Microsoft Azure Open Datasets. Inicializar campos de filtragem. |
NycTlcGreen |
Representa o conjunto de dados público da viagem de táxi verde da NYC Taxi & Limousine Commission. Os registros verdes de viagem de táxi incluem campos que capturam datas/horários de embarque e desembarque, locais de embarque e desembarque, distâncias da viagem, tarifas discriminadas, tipos de tarifa, tipos de pagamento e contagens de passageiros relatados pelo motorista. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte NYC Taxi & Limousine Commission - registros de viagem de táxi verde no catálogo de conjuntos de dados abertos do Microsoft Azure. Para obter um exemplo de como usar a classe NycTlcGreen, consulte o tutorial Usar aprendizado de máquina automatizado para prever tarifas de táxi. Inicializar campos de filtragem. |
NycTlcYellow |
Representa o conjunto de dados público de viagem de táxi amarelo NYC Taxi & Limousine Commission. Os registros amarelos de viagem de táxi incluem campos que capturam datas/horários de embarque e desembarque, locais de embarque e desembarque, distâncias da viagem, tarifas discriminadas, tipos de tarifa, tipos de pagamento e contagens de passageiros relatados pelo motorista. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de colunas, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte NYC Taxi & Limousine Commission - yellow taxi trip records no catálogo do Microsoft Azure Open Datasets. Inicializar campos de filtragem. |
OjSalesSimulated |
Representa o conjunto de dados Amostra de Vendas de Suco de Laranja Simulado. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Exemplo: dados simulados de vendas do JO no catálogo de conjuntos de dados abertos do Microsoft Azure. |
PublicHolidays |
Representa o conjunto de dados público de feriados. Estes conjuntos de dados contêm dados de feriados mundiais provenientes do pacote de férias PyPI e da Wikipédia, cobrindo 38 países ou regiões de 1970 a 2099. Cada linha indica as informações de feriado de uma data, país ou região específica e se a maioria das pessoas pagou folga. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Feriados públicos no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar campos de filtragem. |
PublicHolidaysOffline |
Representa o conjunto de dados público Feriados Públicos Offline. Para obter uma descrição das linhas, consulte os feriados no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar campos de filtragem. |
SampleDatasetBase |
Representa a classe Base do Conjunto de Dados de Exemplo. |
SanFranciscoSafety |
Representa o conjunto de dados público da Segurança de São Francisco. Este conjunto de dados contém chamadas do corpo de bombeiros para atendimento e 311 casos em São Francisco. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Dados de segurança de São Francisco no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar campos de filtragem. |
SeattleSafety |
Representa o conjunto de dados público de Segurança de Seattle. Este conjunto de dados contém dados de despacho 911 do Corpo de Bombeiros de Seattle. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Dados de segurança de Seattle no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar campos de filtragem. |
UsLaborCPI |
Representa o conjunto de dados público do Índice de Preços ao Consumidor dos EUA. O Índice de Preços no Consumidor (IPC) mede a variação média ao longo do tempo dos preços pagos pelos consumidores urbanos por um cabaz de bens de consumo e serviços do mercado. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Índice de preços ao consumidor dos EUA no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar. |
UsLaborEHENational |
Representa o conjunto de dados público de Horas e Ganhos Nacionais de Emprego dos EUA. Este conjunto de dados contém estimativas do setor de emprego, horas e ganhos não agrícolas dos trabalhadores em folhas de pagamento nos Estados Unidos. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte US National Employment Hours and Earning no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar. |
UsLaborEHEState |
Representa o conjunto de dados público Horas de Emprego e Ganhos do Estado dos EUA. Este conjunto de dados contém estimativas do setor de emprego, horas e ganhos não agrícolas dos trabalhadores em folhas de pagamento nos Estados Unidos. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte US State Employment Hours and Earning no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar. |
UsLaborLAUS |
Representa o conjunto de dados público de Estatísticas de Desemprego da Área Local dos EUA. Este conjunto de dados contém dados mensais e anuais de emprego, desemprego e força de trabalho para regiões e divisões do Censo, Estados, condados, áreas metropolitanas e muitas cidades nos Estados Unidos. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Estatísticas de desemprego local dos EUA no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar. |
UsLaborLFS |
Representa o conjunto de dados público das Estatísticas da Força de Trabalho dos EUA. Este conjunto de dados contém dados sobre a força de trabalho nos Estados Unidos, incluindo as taxas de participação na força de trabalho e a população civil não institucional por idade, sexo, raça e grupos étnicos. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Estatísticas da força de trabalho dos EUA no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar. |
UsLaborPPICommodity |
Representa o Índice de Preços ao Produtor dos EUA (PPI) - Conjunto de dados público de commodities. O Índice de Preços ao Produtor (IPP) é uma medida da variação média ao longo do tempo dos preços de venda recebidos pelos produtores nacionais pela sua produção. Os preços incluídos no PPI são da primeira transação comercial de produtos e serviços abrangidos. Este conjunto de dados contém PPIs para produtos individuais e grupos de produtos lançados mensalmente. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte Índice de preços ao produtor dos EUA - Commodities no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar. |
UsLaborPPIIndustry |
Representa o Índice de Preços ao Produtor dos EUA (PPI) - Conjunto de dados públicos da indústria. O Índice de Preços ao Produtor (IPP) é uma medida da variação média ao longo do tempo dos preços de venda recebidos pelos produtores nacionais pela sua produção. Os preços incluídos no PPI são da primeira transação comercial de produtos e serviços abrangidos. Este conjunto de dados contém PPIs para uma ampla gama de setores da indústria da economia dos EUA. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte US Producer Price Index - Industry no catálogo de conjuntos de dados abertos do Microsoft Azure. Para obter informações gerais sobre os Conjuntos de Dados Abertos do Azure, consulte Documentação de Conjuntos de Dados Abertos do Azure. Inicializar. |
UsPopulationCounty |
Representa a população dos EUA por conjunto de dados públicos do condado. Este conjunto de dados contém a população dos EUA por sexo e raça para cada condado dos EUA proveniente do Censo Decenal de 2000 e 2010. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte População dos EUA por condado no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar. |
UsPopulationZip |
Representa a população dos EUA por conjunto de dados público de código postal. Este conjunto de dados contém a população dos EUA por sexo e raça para cada código postal dos EUA proveniente do Censo Decenal de 2010. Para obter mais informações sobre esse conjunto de dados, incluindo descrições de coluna, diferentes maneiras de acessar o conjunto de dados e exemplos, consulte População dos EUA por CEP no catálogo de conjuntos de dados abertos do Microsoft Azure. Inicializar. |