Azure Open Datasets

2024-09-01

Melhorar a precisão dos seus modelos de machine learning com conjuntos de dados disponíveis publicamente. Para economizar tempo na descoberta e preparação de dados, use conjuntos de dados selecionados que estão prontos para projetos de aprendizado de máquina.

Transportes

Conjunto de dados	Description
TartanAir: Conjunto de dados de simulação AirSim	Dados do veículo autônomo AirSim gerados para resolver Localização e Mapeamento Simultâneos (SLAM).
NYC Taxi & Limousine Commission - registros amarelos de viagem de táxi	Os registros de viagem de táxi amarelo incluem datas/horários de embarque e desembarque, locais de embarque e desembarque, distâncias da viagem, tarifas discriminadas, tipos de tarifa, tipos de pagamento e contagens de passageiros relatadas pelo motorista.
NYC Taxi & Limousine Commission - registros de viagem de táxi verde	Os registros de viagem de táxi verde incluem datas/horários de embarque e desembarque, locais de embarque e desembarque, distâncias da viagem, tarifas discriminadas, tipos de tarifa, tipos de pagamento e contagens de passageiros relatadas pelo motorista.
NYC Taxi & Limousine Commission - Registros de viagem do For-Hire Vehicle (FHV)	Os registos de viagem do Veículo de Aluguer incluem o número da licença base de expedição e a data, hora e ID da zona de táxi de recolha.

Saúde e genómica

Conjunto de dados	Description
COVID-19 Data Lake	A coleção do Data Lake relacionada com a COVID-19 é uma coleção de conjuntos de dados relacionados com a COVID-19 provenientes de diversas origens, que abrangem dados de teste e rastreio de resultados de pacientes, política de distanciamento social, capacidade dos hospitais, mobilidade, etc.

Trabalho e economia

Conjunto de dados	Description
US Labor Force Statistics (Estatísticas da Mão-de-Obra dos E.U.A.)	As Estatísticas da Força de Trabalho dos EUA fornecem Estatísticas da Força de Trabalho, taxas de participação da força de trabalho e a população civil não institucional por idade, sexo, raça e grupos étnicos nos Estados Unidos.
US National Employment Hours and Earnings (Salários e Horários de Emprego a Nível Nacional nos E.U.A.)	O programa Current Employment Statistics (CES, Estatísticas de Emprego Atuais) produz estimativas detalhadas dos vários setores de atividade, excluindo trabalhadores agrícolas, empregados de organizações sem fins lucrativos e trabalhadores domésticos, relativas a emprego, horário e rendimentos dos trabalhadores por conta de outrem nos Estados Unidos.
Salários e Horários de Emprego a Nível Estadual nos E.U.A.	O programa Current Employment Statistics (CES, Estatísticas de Emprego Atuais) produz estimativas detalhadas dos vários setores de atividade, excluindo trabalhadores agrícolas, empregados de organizações sem fins lucrativos e trabalhadores domésticos, relativas a emprego, horário e rendimentos dos trabalhadores por conta de outrem nos Estados Unidos.
US Local Area Unemployment Statistics (Estatísticas de Desemprego a Nível Local nos E.U.A.)	Os conjuntos de dados do programa US Local Area Unemployment Statistics fornecem dados mensais e anuais relativos a emprego, desemprego e mão-de-obra para regiões e divisões do Census, estados, condados, áreas metropolitanas e muitas cidades dos Estados Unidos.
US Consumer Price Index (Índice de Preço do Consumidor dos EUA)	O Índice de Preços no Consumidor (IPC) mede a variação média ao longo do tempo dos preços pagos pelos consumidores urbanos por um cabaz de bens de consumo e serviços do mercado.
US Producer Price Index - Industry (Índice de Preços do Produtor dos EUA - Indústria)	O Índice de Preços ao Produtor (IPP) mede a variação média, ao longo do tempo, dos preços de venda recebidos pelos produtores nacionais pela sua produção.
US Producer Price Index - Commodities (Índice de Preços do Produtor dos EUA - Matérias-primas)	O Índice de Preços ao Produtor (IPP) mede a variação média, ao longo do tempo, dos preços de venda recebidos pelos produtores nacionais por suas commodities.

População e segurança

Conjunto de dados	Description
População dos EUA por Condado	População dos EUA por sexo e raça para cada condado dos EUA, com base no Censo Decenal de 2000 e 2010. Este conjunto de dados provém da Divisão do Censo dos Estados Unidos.
População dos EUA por Código Postal	População dos EUA por sexo e raça para cada CEP dos EUA, proveniente do Censo Decenal de 2010. Este conjunto de dados provém da Divisão do Censo dos Estados Unidos.
Dados de segurança de Boston	Ler dados relativos a chamadas ao 311 reportadas à cidade de Boston. Este conjunto de dados é armazenado em formato Parquet e recebe atualizações diárias.
Dados de segurança de Chicago	Ler dados relativos a chamadas ao 311 reportadas à cidade de Chicago. Este conjunto de dados é armazenado em formato Parquet e recebe atualizações diárias.
Dados de segurança da cidade de Nova Iorque	Este conjunto de dados contém todos os pedidos de emergência de 311 de Nova Iorque desde 2010 até hoje. Este conjunto de dados é armazenado em formato Parquet e recebe atualizações diárias.
Dados de segurança de São Francisco	Chamadas para os Bombeiros para emergências e incidentes de 311 em São Francisco. Este conjunto de dados contém registos históricos acumulados desde 2015 até ao presente.
Dados de segurança de Seattle	Despachos do 112 dos Bombeiros de Seattle. Este conjunto de dados é atualizado diariamente e contém registos históricos acumulados desde 2010 até ao presente

Conjuntos de dados suplementares e comuns

Conjunto de dados	Description
Diabetes	O conjunto de dados Diabetes tem 442 amostras com 10 funcionalidades, o que faz com que seja ideal para começar a trabalhar com algoritmos de aprendizagem automática.
Dados simulados de vendas do JO	Esse conjunto de dados é derivado do conjunto de dados OJ da Dominick e inclui dados simulados extras, com o objetivo de fornecer um conjunto de dados que facilite o treinamento simultâneo de milhares de modelos no Azure Machine Learning.
Base de dados MNIST de dígitos manuscritos	A base de dados MNIST de dígitos manuscritos tem um conjunto de preparação com 60 000 exemplos e um conjunto de testes com 10 000 exemplos. Os dígitos são normalizados por tamanho e centralizados em uma imagem de tamanho fixo.
Conjunto de dados de recomendação do Microsoft News	O Microsoft News Dataset (MIND) é um conjunto de dados em grande escala para pesquisa de recomendações de notícias. Ele serve como um conjunto de dados de referência para recomendação de notícias e facilita a pesquisa em sistemas de recomendação e recomendação de notícias.
Feriados	Dados de feriados nacionais de todo o mundo obtidos com base nos pacotes de férias PyPI e na Wikipedia, abrangendo 38 países ou regiões de 1970 a 2099.
Discurso aberto russo ao texto	Russian Open STT é um conjunto de dados de fala aberta em grande escala para texto para a língua russa