Guia de Arquitetura de Dados do Azure
Este guia apresenta uma abordagem estruturada para a criação de soluções centradas em dados no Microsoft Azure. Ele se baseia em práticas comprovadas obtidas em engajamentos com clientes.
Observação
Saiba mais sobre como adotar seus sistemas para governança de dados, análise e gerenciamento de dados em Adoção de nuvem para gerenciamento de dados.
Introdução
A nuvem está mudando a maneira como os aplicativos são criados, incluindo como os dados são processados e armazenados. Em vez de um único banco de dados de uso geral que manipula todos os dados da solução, as soluções de persistência poliglota usam vários armazenamentos de dados especializados, cada um otimizado para fornecer funcionalidades específicas. A perspectiva sobre os dados na solução muda como resultado disso. Não existem mais várias camadas de lógica de negócios que leem e gravam em uma única camada de dados. Em vez disso, as soluções são projetadas em torno de um pipeline de dados que descreve como os dados fluem por uma solução, o local em que são processados, o local em que são armazenados e como eles são consumidos pelo próximo componente do pipeline.
Como este guia é estruturado
Este guia é estruturado em torno de duas categorias gerais de solução de dados, cargas de trabalho do RDBMS tradicional e soluções de Big Data.
Cargas de trabalho do RDBMS tradicional. Essas cargas de trabalho incluem o OLTP (processamento de transações online) e o OLAP (processamento analítico online). Os dados em sistemas OLTP geralmente são relacionais, com um esquema predefinido e um conjunto de restrições para manter a integridade referencial. Muitas vezes, dados de várias fontes na organização podem ser consolidados em um data warehouse, usando um processo ETL para mover e transformar os dados de origem.
Soluções de Big Data. Uma arquitetura de Big Data foi projetada para lidar com a ingestão, o processamento e a análise de dados muito grandes ou complexos para sistemas de banco de dados tradicionais. Os dados podem ser processados em lote ou em tempo real. As soluções de Big Data normalmente envolvem uma grande quantidade de dados não relacionais, como dados de chave-valor, documentos JSON ou dados de série temporal. Muitas vezes, sistemas de RDBMS tradicional não são apropriados para armazenar esse tipo de dados. O termo NoSQL se refere a uma família de bancos de dados projetada para armazenar dados não relacionais. O termo não é totalmente preciso, porque muitos armazenamentos de dados não relacionais oferecem suporte a consultas compatíveis com SQL. O termo NoSQL significa "Não apenas SQL".
Essas duas categorias não são mutuamente exclusivas, e há sobreposição entre elas, mas acreditamos que seja uma maneira útil de enquadrar a discussão. Dentro de cada categoria, o guia discute os cenários comuns, incluindo serviços relevantes do Azure e a arquitetura apropriada para o cenário. Além disso, o guia compara opções de tecnologia para soluções de dados no Azure, incluindo opções de código aberto. Em cada categoria, descrevemos os principais critérios de seleção e uma matriz de funcionalidades, para ajudá-lo a escolher a tecnologia certa para seu cenário.
Este guia não se destina a ensinar a teoria de ciência de dados ou de banco de dados – você pode encontrar livros exclusivos sobre esses temas. Em vez disso, a meta é ajudar você a escolher a arquitetura de dados ou o pipeline de dados certo para seu cenário e, em seguida, escolher os serviços e as tecnologias do Azure que melhor atendam aos seus requisitos. Se você já tem uma arquitetura em mente, vá diretamente para as opções de tecnologia.
Próximas etapas
- Dados relacionais:
- Dados não relacionais:
- Criar um sistema escalonável para dados intensivos
- Big Data:
- Opções de tecnologia:
- Escolher um armazenamento de dados analíticos no Azure
- Escolher uma tecnologia de análise de dados e relatórios no Azure
- Escolher uma tecnologia de processamento em lotes no Azure
- Data lakes
- Escolher uma tecnologia de armazenamento de Big Data no Azure
- Escolher uma tecnologia de orquestração de pipeline de dados no Azure
- Escolher uma tecnologia de ingestão de mensagens em tempo real no Azure
- Escolher um armazenamento de dados de pesquisa no Azure
- Escolher uma tecnologia de processamento de fluxo no Azure
- Cenários adicionais: