O que são Conjuntos de Dados Abertos do Azure e como você pode usá-los?
Os Conjuntos de Dados Abertos do Azure são conjuntos de dados públicos selecionados que você pode usar para adicionar recursos específicos do cenário a soluções de aprendizado de máquina para modelos mais precisos. Os conjuntos de dados abertos estão na nuvem no Microsoft Azure e estão integrados no Azure Machine Learning e prontamente disponíveis para o Azure Databricks e o Machine Learning Studio (clássico). Você também pode acessar os conjuntos de dados por meio de APIs e usá-los em outros produtos, como o Power BI e o Azure Data Factory.
Os conjuntos de dados incluem dados de domínio público para meteorologia, censos, feriados, segurança pública e localização que ajudam a treinar modelos de aprendizado de máquina e enriquecer soluções preditivas. Você também pode compartilhar seus conjuntos de dados públicos em Conjuntos de Dados Abertos do Azure.
Conjuntos de dados preparados e com curadoria
Os conjuntos de dados públicos abertos com curadoria nos Conjuntos de Dados Abertos do Azure são otimizados para consumo em fluxos de trabalho de aprendizado de máquina.
Para ver todos os conjuntos de dados disponíveis, vá para o Catálogo de Conjuntos de Dados Abertos do Azure.
Os cientistas de dados geralmente passam a maior parte do tempo limpando e preparando dados para análises avançadas. Os conjuntos de dados abertos são copiados para a nuvem do Azure e pré-processados para poupar tempo. Em intervalos regulares, os dados são extraídos das fontes, como por uma conexão FTP com a Administração Nacional Oceânica e Atmosférica (NOAA). Em seguida, os dados são analisados em um formato estruturado e, em seguida, enriquecidos conforme apropriado com recursos como CEP ou localização da estação meteorológica mais próxima.
Os conjuntos de dados são cohospedados com a computação em nuvem no Azure, facilitando o acesso e a manipulação.
Seguem-se exemplos de conjuntos de dados disponíveis.
Dados meteorológicos
Conjunto de dados | Notebooks | Description |
---|---|---|
Dados de superfície integrados (ISD) da NOAA | Azure Notebooks Azure Databricks |
Dados meteorológicos por hora em todo o mundo da NOAA com a melhor cobertura espacial na América do Norte, Europa, Austrália e partes da Ásia. Atualizado diariamente. |
Sistema de Previsão Global (GFS) da NOAA | Azure Notebooks Azure Databricks |
Dados de previsão do tempo por hora para 15 dias nos EUA da NOAA. Atualizado diariamente. |
Dados do calendário
Conjunto de dados | Notebooks | Description |
---|---|---|
Feriados | Azure Notebooks Azure Databricks |
Dados de feriados em todo o mundo, abrangendo 41 países ou regiões de 1970 a 2099. Inclui o país/região e se a maioria das pessoas tem folgas remuneradas. |
Acesso aos conjuntos de dados
Com uma conta do Azure, pode aceder a conjuntos de dados abertos com um código ou através da interface de serviço do Azure. Os dados estão colocalizados com os recursos de computação na cloud do Azure para utilizar na sua solução de aprendizagem automática.
O Open Datasets está disponível através da IU e do SDK do Azure Machine Learning. O Open Datasets também disponibiliza o Azure Notebooks e os blocos de notas do Azure Databricks que pode utilizar para ligar dados ao Azure Machine Learning e ao Azure Databricks. Os conjuntos de dados também podem ser acedidos através de um SDK do Python.
No entanto, não precisa de uma conta do Azure para aceder ao Open Datasets; pode aceder a partir de qualquer ambiente Python com ou sem o Apache Spark.
Solicitar ou contribuir com conjuntos de dados
Se não conseguir encontrar os dados que pretende, envie-nos um e-mail para solicitar um conjunto de dados ou contribuir com um conjunto de dados.
Próximos passos
Comentários
https://aka.ms/ContentUserFeedback.
Brevemente: Ao longo de 2024, vamos descontinuar progressivamente o GitHub Issues como mecanismo de feedback para conteúdos e substituí-lo por um novo sistema de feedback. Para obter mais informações, veja:Submeter e ver comentários