Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Os Conjuntos de Dados Abertos do Azure são conjuntos de dados públicos selecionados que você pode adicionar a recursos específicos de cenários para soluções de aprendizado de máquina, para modelos mais precisos. Os conjuntos de dados abertos estão disponíveis na nuvem, no Microsoft Azure. Eles estão integrados ao Azure Machine Learning e prontamente disponíveis para o Azure Databricks. Você também pode acessar os conjuntos de dados por meio de APIs e usá-los em outros produtos, como o Power BI e o Azure Data Factory.
Os conjuntos de dados incluem dados de domínio público para meteorologia, censos, feriados, segurança pública e localização que ajudam a treinar modelos de aprendizado de máquina e enriquecer soluções preditivas. Também pode partilhar os seus conjuntos de dados públicos através dos Conjuntos de Dados Abertos do Azure.
Conjuntos de dados preparados e com curadoria
Os conjuntos de dados públicos abertos com curadoria nos Conjuntos de Dados Abertos do Azure são otimizados para consumo em fluxos de trabalho de aprendizado de máquina.
Para obter mais informações sobre os conjuntos de dados disponíveis, visite o recurso Catálogo de Conjuntos de Dados Abertos do Azure.
Os cientistas de dados geralmente gastam a maior parte do tempo limpando e preparando dados para análises avançadas. Para poupar tempo, os conjuntos de dados abertos são copiados para a nuvem do Azure e, em seguida, pré-processados. Em intervalos regulares, os dados são extraídos das fontes - por exemplo, por uma conexão FTP com a Administração Nacional Oceânica e Atmosférica (NOAA). Em seguida, os dados são analisados em um formato estruturado e, em seguida, enriquecidos conforme necessário, com recursos como CEP ou os locais das estações meteorológicas mais próximas.
Os conjuntos de dados são cohospedados com a computação em nuvem no Azure, para facilitar o acesso e a manipulação.
Eis alguns exemplos de conjuntos de dados disponíveis:
Transportes
| Conjunto de dados | Description |
|---|---|
| NYC Taxi & Limousine Commission - registos de viagens de táxi amarelo | Os registros de viagem de táxi amarelo incluem datas/horários de embarque e desembarque, locais de embarque e desembarque, distâncias da viagem, tarifas discriminadas, tipos de tarifa, tipos de pagamento e contagens de passageiros relatadas pelo motorista. |
| NYC Taxi & Limousine Commission - registros de viagem de táxi verde | Os registros de viagem de táxi verde incluem datas/horários de embarque e desembarque, locais de embarque e desembarque, distâncias da viagem, tarifas discriminadas, tipos de tarifa, tipos de pagamento e contagens de passageiros relatadas pelo motorista. |
Trabalho e economia
| Conjunto de dados | Description |
|---|---|
| Estatísticas da força de trabalho dos EUA | As Estatísticas da Força de Trabalho dos EUA fornecem Estatísticas da Força de Trabalho, taxas de participação da força de trabalho e a população civil não institucional por idade, sexo, raça e grupos étnicos nos Estados Unidos. |
| Horas de Emprego e Ganhos Nacionais dos EUA | O programa Current Employment Statistics (CES) produz estimativas detalhadas do setor de emprego, horas e ganhos não agrícolas dos trabalhadores em folhas de pagamento nos Estados Unidos. |
Acesso aos conjuntos de dados
Com uma conta do Azure, você pode acessar conjuntos de dados abertos por meio de código ou por meio da interface de serviço do Azure. Os dados são colocalizados com recursos de computação em nuvem do Azure para uso em suas soluções de aprendizado de máquina.
O Open Datasets está disponível através da IU e do SDK do Azure Machine Learning. Os conjuntos de dados abertos também fornecem blocos de anotações do Azure e do Azure Databricks que podem conectar dados ao Azure Machine Learning e ao Azure Databricks. Os conjuntos de dados também podem ser acedidos através de um SDK do Python.
No entanto, não precisa de uma conta do Azure para aceder ao Open Datasets; pode aceder a partir de qualquer ambiente Python com ou sem o Apache Spark.
Solicitar ou contribuir com conjuntos de dados
Se não conseguir encontrar os dados que pretende, envie-nos um e-mail para solicitar um conjunto de dados ou contribuir com um conjunto de dados.