Identificar serviços de dados
O Microsoft Azure é uma plataforma de nuvem que potencializa os aplicativos e a infraestrutura de TI de algumas das maiores organizações do mundo. Ele inclui muitos serviços para dar suporte a soluções de nuvem, incluindo cargas de trabalho de dados transacionais e analíticas.
Alguns dos serviços de nuvem mais usados para dados estão descritos abaixo.
Observação
Este tópico aborda apenas alguns dos serviços de dados mais usados em soluções analíticas e transacionais modernas. Também há serviços adicionais disponíveis.
SQL do Azure
SQL do Azure é o nome coletivo de uma família de soluções de banco de dados relacional com base no mecanismo de banco de dados do Microsoft SQL Server. Os serviços específicos de SQL do Azure incluem:
- Banco de Dados SQL do Azure – um banco de dados de plataforma como serviço (PaaS) totalmente gerenciado e hospedado no Azure.
- Instância Gerenciada de SQL do Azure – uma instância hospedada do SQL Server com manutenção automatizada, que permite uma configuração mais flexível do que o BD de SQL do Azure, mas com mais responsabilidade administrativa para o proprietário.
- VM de SQL do Azure – uma máquina virtual com uma instalação do SQL Server, permitindo a máxima capacidade de configuração com total responsabilidade de gerenciamento.
Os administradores de banco de dados normalmente provisionam e gerenciam os sistemas de banco de dados SQL do Azure para dar suporte a aplicativos de LOB (linha de negócios) que precisam armazenar dados transacionais.
Os engenheiros de dados podem usar os sistemas de banco de dados SQL do Azure como fontes para pipelines de dados que executam operações de ETL (extração, transformação e carregamento) para ingerir os dados transacionais em um sistema analítico.
Os analistas de dados podem consultar os bancos de dados SQL do Azure diretamente para criar relatórios, no entanto, em grandes organizações, os dados geralmente são combinados com os dados de outras fontes em um armazenamento de dados analíticos para dar suporte às análises empresariais.
Bancos de dados de software de código aberto no Azure
O Azure inclui serviços gerenciados para sistemas de banco de dados relacionais de código aberto populares, incluindo:
Banco de Dados do Azure para MySQL – um sistema de gerenciamento de banco de dados de código aberto fácil de usar que é comumente usado em aplicativos da pilha LAMP (Linux, Apache, MySQL e PHP).
Banco de Dados do Azure para MariaDB – um sistema de gerenciamento de banco de dados mais recente, criado pelos desenvolvedores originais do MySQL. Desde então, o mecanismo de banco de dados foi reescrito e otimizado para aprimorar o desempenho. O MariaDB tem compatibilidade com o Oracle Database (outro sistema de gerenciamento de banco de dados comercial popular).
Banco de dados do Azure para PostgreSQL – um banco de dados híbrido relacional-objeto. É possível armazenar dados em tabelas relacionais, mas um banco de dados PostgreSQL também permite que você armazene tipos de dados personalizados, com propriedades não relacionais próprias.
Assim como acontece com os sistemas de banco de dados SQL do Azure, os bancos de dados relacionais de código aberto são gerenciados por administradores de banco de dados para dar suporte a aplicativos transacionais e fornecem uma fonte de dados para engenheiros de dados, criando pipelines para soluções analíticas e analistas de dados que criam relatórios.
Azure Cosmos DB
O Azure Cosmos DB é um sistema de banco de dados não relacional (NoSQL) de escala global que dá suporte a várias APIs (interfaces de programação de aplicativos) e permite armazenar e gerenciar dados como documentos JSON, pares de valores-chave, famílias de colunas e gráficos.
Em algumas organizações, instâncias do Cosmos DB podem ser provisionadas e gerenciadas por um administrador de banco de dados, embora os desenvolvedores de software tenham o costume de gerenciar o armazenamento de dados NoSQL como parte da arquitetura geral do aplicativo. Os engenheiros de dados geralmente precisam integrar fontes de dados do Cosmos DB a soluções analíticas corporativas que dão suporte à modelagem e geração de relatórios por analistas de dados.
Armazenamento do Azure
O Armazenamento do Azure é um serviço central do Azure que permite armazenar dados em:
- Contêineres de blobs – armazenamento escalonável e econômico para arquivos binários.
- Compartilhamentos de arquivos – compartilhamentos de arquivos de rede, semelhante ao que normalmente é encontrado nas redes corporativas.
- Tabelas – armazenamento de chave-valor para aplicativos que precisam ler e gravar valores de dados rapidamente.
Os engenheiros de dados usam o Armazenamento do Azure para hospedar data lakes – armazenamentos de blobs com um namespace hierárquico que permite que os arquivos sejam organizados em pastas em um sistema de arquivos distribuído.
Fábrica de dados do Azure
O Azure Data Factory é um serviço do Azure que permite definir e agendar pipelines de dados para transferir e transformar dados. Você pode integrar seus pipelines a outros serviços do Azure, possibilitando a ingestão de dados de armazenamentos de dados na nuvem, o processamento dos dados usando a computação baseada em nuvem e a manutenção dos resultados em outro armazenamento de dados.
O Azure Data Factory é usado por engenheiros de dados para criar soluções de ETL (extração, transformação e carregamento) que preenchem os armazenamentos de dados analíticos com os dados de sistemas transacionais na organização.
Microsoft Fabric
O Microsoft Fabric é uma plataforma unificada de análise de Software como Serviço (SaaS) baseada em um lakehouse aberto e governado que inclui funcionalidades para dar suporte a:
- Ingestão de dados e ETL
- Análise de data lakehouse
- Análise de data warehouse
- Ciência de Dados e aprendizado de máquina
- Análise em tempo real
- Visualização de dados
- Governança e gerenciamento de dados
- Insights baseados em IA
Engenheiros de dados podem usar o Microsoft Fabric para criar uma solução unificada de análise de dados que combina pipelines de ingestão de dados, data warehouses, análises em tempo real, inteligência empresarial e insights baseados em IA por meio de um único serviço, tudo armazenado centralmente no Microsoft OneLake.
Azure Databricks
O Azure Databricks é uma versão integrada do Azure da plataforma popular Databricks, que combina a plataforma de processamento de dados Apache Spark com a semântica de banco de dados SQL e uma interface de gerenciamento integrada para permitir análises de dados em larga escala.
Os engenheiros de dados podem usar as habilidades que já têm do Databricks e do Spark para criar armazenamentos de dados analíticos no Azure Databricks.
Os analistas de dados podem usar o suporte nativo ao notebook no Azure Databricks para consultar e visualizar dados em uma interface baseada na Web fácil de usar.
Stream Analytics do Azure
O Azure Stream Analytics é um mecanismo de processamento de fluxo em tempo real que captura um fluxo de dados de uma entrada, aplica uma consulta para extrair e manipular os dados dele e grava os resultados em uma saída para análise ou processamento adicional.
Os engenheiros de dados podem incorporar o Azure Stream Analytics em arquiteturas de análise de dados que capturam fluxos dados para ingestão em um armazenamento de dados analíticos ou para visualização em tempo real.
Azure Data Explorer
O Azure Data Explorer é uma plataforma de análise de big data totalmente gerenciada e autônoma que oferece consultas de alto desempenho de dados de log e telemetria.
Os analistas de dados podem usar o Azure Data Explorer para consultar e analisar dados que incluem um atributo de carimbo de data/hora, como normalmente é encontrado em arquivos de log e dados de telemetria da IoT (Internet das Coisas).
Microsoft Purview
O Microsoft Purview fornece uma solução corporativa para governança e descoberta de dados. Use o Microsoft Purview para criar um mapa de seus dados e acompanhar a linhagem de dados em várias fontes de dados e sistemas, permitindo encontrar dados confiáveis para análise e relatórios.
Os engenheiros de dados podem usar o Microsoft Purview para impor a governança de dados em toda a empresa e garantir a integridade dos dados usados para dar suporte a cargas de trabalho analíticas.