Identificar serviços de dados

Concluído

O Microsoft Azure é uma plataforma de nuvem que alimenta os aplicativos e a infraestrutura de TI de algumas das maiores organizações do mundo. Inclui muitos serviços para suportar soluções na nuvem, incluindo cargas de trabalho de dados transacionais e analíticos.

Alguns dos serviços de nuvem mais comumente usados para dados são descritos abaixo.

Nota

Este tópico aborda apenas alguns dos serviços de dados mais comumente usados para soluções transacionais e analíticas modernas. Serviços adicionais também estão disponíveis.

SQL do Azure

Azure SQL logo.Azure SQL é o nome coletivo para uma família de soluções de banco de dados relacional baseadas no mecanismo de banco de dados do Microsoft SQL Server. Os serviços SQL específicos do Azure incluem:

  • Banco de Dados SQL do Azure – um banco de dados de plataforma como serviço (PaaS) totalmente gerenciado hospedado no Azure
  • Instância Gerenciada SQL do Azure – uma instância hospedada do SQL Server com manutenção automatizada, que permite uma configuração mais flexível do que o Banco de Dados SQL do Azure, mas com mais responsabilidade administrativa para o proprietário.
  • Azure SQL VM – uma máquina virtual com uma instalação do SQL Server, permitindo a máxima configurabilidade com total responsabilidade de gerenciamento.

Os administradores de banco de dados normalmente provisionam e gerenciam sistemas de banco de dados SQL do Azure para dar suporte a aplicativos de linha de negócios (LOB) que precisam armazenar dados transacionais.

Os engenheiros de dados podem usar os sistemas de banco de dados SQL do Azure como fontes para pipelines de dados que executam operações de extração, transformação e carregamento (ETL) para ingerir os dados transacionais em um sistema analítico.

Os analistas de dados podem consultar bancos de dados SQL do Azure diretamente para criar relatórios, embora em grandes organizações os dados geralmente sejam combinados com dados de outras fontes em um armazenamento de dados analítico para dar suporte à análise corporativa.

Banco de Dados do Azure para bancos de dados relacionais de código aberto

Azure Database for MariaDB, MySQL, and PostreSQL logos. O Azure inclui serviços geridos para sistemas de bases de dados relacionais de código aberto populares, incluindo:

  • Banco de Dados do Azure para MySQL - um sistema de gerenciamento de banco de dados de código aberto simples de usar que é comumente usado em aplicativos de pilha Linux, Apache, MySQL e PHP (LAMP).

  • Banco de Dados do Azure para MariaDB - um sistema de gerenciamento de banco de dados mais recente, criado pelos desenvolvedores originais do MySQL. Desde então, o mecanismo de banco de dados foi reescrito e otimizado para melhorar o desempenho. O MariaDB oferece compatibilidade com o Oracle Database (outro popular sistema de gerenciamento de banco de dados comercial).

  • Banco de Dados do Azure para PostgreSQL - um banco de dados de objeto relacional híbrido. Você pode armazenar dados em tabelas relacionais, mas um banco de dados PostgreSQL também permite armazenar tipos de dados personalizados, com suas próprias propriedades não relacionais.

Tal como acontece com os sistemas de base de dados SQL do Azure, as bases de dados relacionais de código aberto são geridas por administradores de bases de dados para suportar aplicações transacionais e fornecer uma fonte de dados para engenheiros de dados que criam pipelines para soluções analíticas e analistas de dados que criam relatórios.

BD do Cosmos para o Azure

Azure Cosmos DB logo.O Azure Cosmos DB é um sistema de banco de dados não relacional (NoSQL) de escala global que dá suporte a várias interfaces de programação de aplicativos (APIs), permitindo que você armazene e gerencie dados como documentos JSON, pares chave-valor, famílias de colunas e gráficos.

Em algumas organizações, as instâncias do Cosmos DB podem ser provisionadas e gerenciadas por um administrador de banco de dados; embora muitas vezes os desenvolvedores de software gerenciem o armazenamento de dados NoSQL como parte da arquitetura geral do aplicativo. Os engenheiros de dados geralmente precisam integrar fontes de dados do Cosmos DB em soluções analíticas corporativas que oferecem suporte à modelagem e à geração de relatórios por analistas de dados.

Armazenamento do Azure

Azure Storage logo. O Armazenamento do Azure é um serviço principal do Azure que permite armazenar dados em:

  • Contêineres de Blob - armazenamento escalável e econômico para arquivos binários.
  • Compartilhamentos de arquivos - compartilhamentos de arquivos de rede, como você normalmente encontra em redes corporativas .
  • Tabelas - armazenamento de chave-valor para aplicativos que precisam ler e gravar valores de dados rapidamente.

Os engenheiros de dados usam o Armazenamento do Azure para hospedar data lakes - armazenamento de blob com um namespace hierárquico que permite que os arquivos sejam organizados em pastas em um sistema de arquivos distribuído.

Azure Data Factory

Azure Data Factory logo. O Azure Data Factory é um serviço do Azure que permite definir e agendar pipelines de dados para transferir e transformar dados. Você pode integrar seus pipelines com outros serviços do Azure, permitindo que você ingira dados de armazenamentos de dados na nuvem, processe os dados usando computação baseada em nuvem e persista os resultados em outro armazenamento de dados.

O Azure Data Factory é usado por engenheiros de dados para criar soluções de extração, transformação e carregamento (ETL) que preenchem armazenamentos de dados analíticos com dados de sistemas transacionais em toda a organização.

Azure Synapse Analytics

Azure Synapse Analytics logo. O Azure Synapse Analytics é uma solução abrangente e unificada de Plataforma como Serviço (PaaS) para análise de dados que fornece uma única interface de serviço para vários recursos analíticos, incluindo:

  • Pipelines - baseados na mesma tecnologia do Azure Data Factory.
  • SQL - um mecanismo de banco de dados SQL altamente escalável, otimizado para cargas de trabalho de data warehouse.
  • Apache Spark - um sistema de processamento de dados distribuído de código aberto que suporta várias linguagens de programação e APIs, incluindo Java, Scala, Python e SQL.
  • Azure Synapse Data Explorer - uma solução de análise de dados de alto desempenho otimizada para consulta em tempo real de dados de log e telemetria usando Kusto Query Language (KQL).

Os engenheiros de dados podem usar o Azure Synapse Analytics para criar uma solução unificada de análise de dados que combina pipelines de ingestão de dados, armazenamento de data warehouse e armazenamento de data lake por meio de um único serviço.

Os analistas de dados podem usar pools SQL e Spark por meio de blocos de anotações interativos para explorar e analisar dados e aproveitar a integração com serviços como o Azure Machine Learning e o Microsoft Power BI para criar modelos de dados e extrair insights dos dados.

Azure Databricks

Azure Databricks logo. O Azure Databricks é uma versão integrada do Azure da popular plataforma Databricks, que combina a plataforma de processamento de dados Apache Spark com semântica de banco de dados SQL e uma interface de gerenciamento integrada para permitir análises de dados em larga escala.

Os engenheiros de dados podem usar as habilidades existentes do Databricks e do Spark para criar armazenamentos de dados analíticos no Azure Databricks.

Os Analistas de Dados podem usar o suporte nativo de bloco de anotações no Azure Databricks para consultar e visualizar dados em uma interface baseada na Web fácil de usar.

Azure HDInsight

Azure HDInsight logo. O Azure HDInsight é um serviço do Azure que fornece clusters hospedados no Azure para tecnologias populares de processamento de big data de código aberto do Apache, incluindo:

  • Apache Spark - um sistema de processamento de dados distribuído que suporta várias linguagens de programação e APIs, incluindo Java, Scala, Python e SQL.
  • Apache Hadoop - um sistema distribuído que usa tarefas MapReduce para processar grandes volumes de dados de forma eficiente em vários nós de cluster. Os trabalhos do MapReduce podem ser escritos em Java ou abstraídos por interfaces como o Apache Hive - uma API baseada em SQL que é executada no Hadoop.
  • Apache HBase - um sistema de código aberto para armazenamento e consulta de dados NoSQL em grande escala.
  • Apache Kafka - um agente de mensagens para processamento de fluxo de dados.

Os engenheiros de dados podem usar o Azure HDInsight para dar suporte a cargas de trabalho de análise de big data que dependem de várias tecnologias de código aberto.

Azure Stream Analytics

Azure Stream Analytics logo. O Azure Stream Analytics é um mecanismo de processamento de fluxo em tempo real que captura um fluxo de dados de uma entrada, aplica uma consulta para extrair e manipular dados do fluxo de entrada e grava os resultados em uma saída para análise ou processamento adicional.

Os engenheiros de dados podem incorporar o Azure Stream Analytics em arquiteturas de análise de dados que capturam dados de streaming para ingestão em um armazenamento de dados analíticos ou para visualização em tempo real.

Azure Data Explorer

Azure Data Explorer logo. O Azure Data Explorer é um serviço autônomo que oferece a mesma consulta de alto desempenho de dados de log e telemetria que o tempo de execução do Azure Synapse Data Explorer no Azure Synapse Analytics.

Os analistas de dados podem usar o Azure Data Explorer para consultar e analisar dados que incluem um atributo de carimbo de data/hora, como normalmente é encontrado em arquivos de log e dados de telemetria da Internet das Coisas (IoT).

Microsoft Purview

Azure Purview logo. O Microsoft Purview fornece uma solução para governança e descoberta de dados em toda a empresa. Você pode usar o Microsoft Purview para criar um mapa de seus dados e rastrear a linhagem de dados em várias fontes de dados e sistemas, permitindo que você encontre dados confiáveis para análise e relatórios.

Os engenheiros de dados podem usar o Microsoft Purview para impor a governança de dados em toda a empresa e garantir a integridade dos dados usados para dar suporte a cargas de trabalho analíticas.

Microsoft Fabric

Microsoft Fabric logo. O Microsoft Fabric é uma plataforma unificada de análise de Software como Serviço (SaaS) baseada em lakehouse aberta e governada que inclui funcionalidade para suportar:

  • Ingestão de dados e ETL
  • Análise de data lakehouse
  • Análise de armazém de dados
  • Ciência de dados e aprendizado de máquina
  • Análise em tempo real
  • Visualização de dados
  • Governança e gerenciamento de dados