Partilhar via


O que são Conjuntos de Dados Abertos do Azure e como você pode usá-los?

Os Conjuntos de Dados Abertos do Azure são conjuntos de dados públicos selecionados que você pode usar para adicionar recursos específicos do cenário a soluções de aprendizado de máquina para modelos mais precisos. Os conjuntos de dados abertos estão na nuvem no Microsoft Azure e estão integrados no Azure Machine Learning e prontamente disponíveis para o Azure Databricks e o Machine Learning Studio (clássico). Você também pode acessar os conjuntos de dados por meio de APIs e usá-los em outros produtos, como o Power BI e o Azure Data Factory.

Os conjuntos de dados incluem dados de domínio público para meteorologia, censos, feriados, segurança pública e localização que ajudam a treinar modelos de aprendizado de máquina e enriquecer soluções preditivas. Você também pode compartilhar seus conjuntos de dados públicos em Conjuntos de Dados Abertos do Azure.

Componentes do Azure Open Datasets

Conjuntos de dados preparados e com curadoria

Os conjuntos de dados públicos abertos com curadoria nos Conjuntos de Dados Abertos do Azure são otimizados para consumo em fluxos de trabalho de aprendizado de máquina.

Para ver todos os conjuntos de dados disponíveis, vá para o Catálogo de Conjuntos de Dados Abertos do Azure.

Os cientistas de dados geralmente passam a maior parte do tempo limpando e preparando dados para análises avançadas. Os conjuntos de dados abertos são copiados para a nuvem do Azure e pré-processados para poupar tempo. Em intervalos regulares, os dados são extraídos das fontes, como por uma conexão FTP com a Administração Nacional Oceânica e Atmosférica (NOAA). Em seguida, os dados são analisados em um formato estruturado e, em seguida, enriquecidos conforme apropriado com recursos como CEP ou localização da estação meteorológica mais próxima.

Os conjuntos de dados são cohospedados com a computação em nuvem no Azure, facilitando o acesso e a manipulação.

Seguem-se exemplos de conjuntos de dados disponíveis.

Dados meteorológicos

Conjunto de dados Notebooks Description
Dados de superfície integrados (ISD) da NOAA Azure Notebooks
Azure Databricks
Dados meteorológicos por hora em todo o mundo da NOAA com a melhor cobertura espacial na América do Norte, Europa, Austrália e partes da Ásia. Atualizado diariamente.
Sistema de Previsão Global (GFS) da NOAA Azure Notebooks
Azure Databricks
Dados de previsão do tempo por hora para 15 dias nos EUA da NOAA. Atualizado diariamente.

Dados do calendário

Conjunto de dados Notebooks Description
Feriados Azure Notebooks
Azure Databricks
Dados de feriados em todo o mundo, abrangendo 41 países ou regiões de 1970 a 2099. Inclui o país/região e se a maioria das pessoas tem folgas remuneradas.

Acesso aos conjuntos de dados

Com uma conta do Azure, pode aceder a conjuntos de dados abertos com um código ou através da interface de serviço do Azure. Os dados estão colocalizados com os recursos de computação na cloud do Azure para utilizar na sua solução de aprendizagem automática.

O Open Datasets está disponível através da IU e do SDK do Azure Machine Learning. O Open Datasets também disponibiliza o Azure Notebooks e os blocos de notas do Azure Databricks que pode utilizar para ligar dados ao Azure Machine Learning e ao Azure Databricks. Os conjuntos de dados também podem ser acedidos através de um SDK do Python.

No entanto, não precisa de uma conta do Azure para aceder ao Open Datasets; pode aceder a partir de qualquer ambiente Python com ou sem o Apache Spark.

Solicitar ou contribuir com conjuntos de dados

Se não conseguir encontrar os dados que pretende, envie-nos um e-mail para solicitar um conjunto de dados ou contribuir com um conjunto de dados.

Próximos passos