Partilhar via


O que são Conjuntos de Dados Abertos do Azure e como você pode usá-los?

Os Conjuntos de Dados Abertos do Azure são conjuntos de dados públicos selecionados que você pode adicionar a recursos específicos de cenários para soluções de aprendizado de máquina, para modelos mais precisos. Os conjuntos de dados abertos estão disponíveis na nuvem, no Microsoft Azure. Eles estão integrados ao Azure Machine Learning e prontamente disponíveis para o Azure Databricks. Você também pode acessar os conjuntos de dados por meio de APIs e usá-los em outros produtos, como o Power BI e o Azure Data Factory.

Os conjuntos de dados incluem dados de domínio público para meteorologia, censos, feriados, segurança pública e localização que ajudam a treinar modelos de aprendizado de máquina e enriquecer soluções preditivas. Também pode partilhar os seus conjuntos de dados públicos através dos Conjuntos de Dados Abertos do Azure.

Diagrama que mostra os blocos de construção do serviço Azure Open Datasets.

Conjuntos de dados preparados e com curadoria

Os conjuntos de dados públicos abertos com curadoria nos Conjuntos de Dados Abertos do Azure são otimizados para consumo em fluxos de trabalho de aprendizado de máquina.

Para obter mais informações sobre os conjuntos de dados disponíveis, visite o recurso Catálogo de Conjuntos de Dados Abertos do Azure.

Os cientistas de dados geralmente gastam a maior parte do tempo limpando e preparando dados para análises avançadas. Para poupar tempo, os conjuntos de dados abertos são copiados para a nuvem do Azure e, em seguida, pré-processados. Em intervalos regulares, os dados são extraídos das fontes - por exemplo, por uma conexão FTP com a Administração Nacional Oceânica e Atmosférica (NOAA). Em seguida, os dados são analisados em um formato estruturado e, em seguida, enriquecidos conforme necessário, com recursos como CEP ou os locais das estações meteorológicas mais próximas.

Os conjuntos de dados são cohospedados com a computação em nuvem no Azure, para facilitar o acesso e a manipulação.

Eis alguns exemplos de conjuntos de dados disponíveis:

Transportes

Conjunto de dados Description
NYC Taxi & Limousine Commission - registos de viagens de táxi amarelo Os registros de viagem de táxi amarelo incluem datas/horários de embarque e desembarque, locais de embarque e desembarque, distâncias da viagem, tarifas discriminadas, tipos de tarifa, tipos de pagamento e contagens de passageiros relatadas pelo motorista.
NYC Taxi & Limousine Commission - registros de viagem de táxi verde Os registros de viagem de táxi verde incluem datas/horários de embarque e desembarque, locais de embarque e desembarque, distâncias da viagem, tarifas discriminadas, tipos de tarifa, tipos de pagamento e contagens de passageiros relatadas pelo motorista.

Trabalho e economia

Conjunto de dados Description
Estatísticas da força de trabalho dos EUA As Estatísticas da Força de Trabalho dos EUA fornecem Estatísticas da Força de Trabalho, taxas de participação da força de trabalho e a população civil não institucional por idade, sexo, raça e grupos étnicos nos Estados Unidos.
Horas de Emprego e Ganhos Nacionais dos EUA O programa Current Employment Statistics (CES) produz estimativas detalhadas do setor de emprego, horas e ganhos não agrícolas dos trabalhadores em folhas de pagamento nos Estados Unidos.

Acesso aos conjuntos de dados

Com uma conta do Azure, você pode acessar conjuntos de dados abertos por meio de código ou por meio da interface de serviço do Azure. Os dados são colocalizados com recursos de computação em nuvem do Azure para uso em suas soluções de aprendizado de máquina.

O Open Datasets está disponível através da IU e do SDK do Azure Machine Learning. Os conjuntos de dados abertos também fornecem blocos de anotações do Azure e do Azure Databricks que podem conectar dados ao Azure Machine Learning e ao Azure Databricks. Os conjuntos de dados também podem ser acedidos através de um SDK do Python.

No entanto, não precisa de uma conta do Azure para aceder ao Open Datasets; pode aceder a partir de qualquer ambiente Python com ou sem o Apache Spark.

Solicitar ou contribuir com conjuntos de dados

Se não conseguir encontrar os dados que pretende, envie-nos um e-mail para solicitar um conjunto de dados ou contribuir com um conjunto de dados.

Próximos passos