Ler em inglês

Compartilhar via


Terminologia do Azure Synapse Analytics

Este documento descreve os conceitos básicos do Azure Synapse Analytics.

Workspace do Synapse

Um workspace do Azure Synapse é um limite de colaboração protegível para fazer análises empresariais baseadas em nuvem no Azure. Um workspace é implantado em uma região específica e tem uma conta do ADLS Gen2 e um sistema de arquivos associados (para armazenar dados temporários). Um workspace está localizado em um grupo de recursos.

Um workspace permite que você execute análises com o SQL e o Apache Spark. Os recursos disponíveis para análises de SQL e do Spark são organizados em pools de SQL e do Spark.

Serviços vinculados

Um workspace pode conter qualquer número de Serviço vinculado, essencialmente cadeias de conexão que definem as informações de conexão necessárias para que o workspace se conecte a recursos externos.

SQL do Synapse

O SQL do Synapse é a capacidade de fazer análises baseadas em T-SQL no workspace do Azure Synapse. O SQL do Synapse tem dois modelos de consumo: dedicado e sem servidor. Para o modelo dedicado, use pools de SQL dedicados. Um workspace pode ter qualquer quantidade desses pools. Para usar o modelo sem servidor, use os pools de SQL sem servidor. Todo workspace tem um desses pools.

No Synapse Studio, você pode trabalhar com pools de SQL executando scripts de SQL.

Observação

Os pools de SQL dedicados no Azure Synapse são diferentes do pool de SQL dedicado (antigo SQL DW). Nem todos os recursos do pool de SQL dedicado nos workspaces do Azure Synapse se aplicam ao pool de SQL dedicado (antigo SQL DW) e vice-versa. Para habilitar recursos de workspace em um pool de SQL dedicado existente (antigo SQL DW), confira Como habilitar um workspace no seu pool de SQL dedicado (antigo SQL DW).

Apache Spark para o Synapse

Para usar a análise do Spark, crie e use pools do Apache Spark sem servidor no seu workspace do Azure Synapse. Quando você começa a usar um Pool do Spark, os workspaces criam uma sessão do Spark para processar os recursos associados à sessão.

Há duas maneiras de usar o Spark no Azure Synapse:

  • Notebooks do Spark para realizar ciência e engenharia de dados usa o Scala, o PySpark, o C# e o Spark SQL
  • Definições de trabalho do Spark para executar trabalhos em lote do Spark usando arquivos JAR.

SynapseML

O SynapseML (anteriormente conhecido como MMLSpark) é uma biblioteca de código aberto que simplifica a criação de pipelines de ML (aprendizado de máquina) massivamente escalonáveis. É um ecossistema de ferramentas usado para expandir a estrutura do Apache Spark em várias direções novas. O SynapseML unifica várias estruturas de aprendizado de máquina existentes e novos algoritmos da Microsoft em uma API única e escalonável que pode ser utilizada em Python, R, Scala, .NET e Java. Para saber mais, confira os principais recursos do SynapseML.

Pipelines

Os pipelines são como o Azure Synapse oferece a Integração de Dados – isso permite que você movimente dados entre serviços e orquestre atividades.

  • Pipeline é um agrupamento lógico de atividades que executam uma tarefa juntas.
  • Atividade define as ações em um Pipeline a serem executadas nos dados, como copiar dados, executar um Notebook ou um script SQL.
  • Fluxos de dados são um tipo específico de atividade que fornece uma experiência sem código para fazer a transformação de dados que usa o Synapse Spark nos bastidores.
  • Gatilho: executa um pipeline. Pode ser executado manual ou automaticamente (agenda, janela em cascata ou baseada em evento)
  • Conjunto de dados de integração: exibição nomeada de dados que apenas apontam para os dados ou referenciam os dados a serem usados em uma atividade como entrada e saída. Pertence a um serviço vinculado.

Data Explorer (versão prévia)

O Azure Synapse Data Explorer proporciona aos clientes uma experiência de consulta interativa para desbloquear insights dos dados telemétricos e de log.

  • Os pools do Data Explorer são clusters dedicados que incluem dois ou mais nós de computação com armazenamento SSD local (cache quente) para desempenho otimizado de consulta e vários armazenamentos de blobs (cache frio) para persistência.
  • Os bancos de dados do Data Explorer são hospedados em pools do Data Explorer e são entidades lógicas compostas por coleções de tabelas e outros objetos de banco de dados. Você pode ter mais de um banco de dados por pool.
  • As tabelas são objetos de banco de dados que contêm dados organizados com um modelo de dados relacional tradicional. Os dados são armazenados em registros compatíveis com o esquema de tabelas bem definido do Data Explorer, que define uma lista ordenada de colunas, cada uma com um nome e tipo de dados escalares. Os tipos de dados escalares podem ser (int, real, datetime ou timespan), semiestruturados (dynamic) ou de texto livre (string). O tipo dinâmico é semelhante ao JSON, pois pode conter um único valor escalar, uma matriz ou um dicionário de tais valores.
  • Tabelas externas são tabelas que referenciam um armazenamento ou uma fonte de dados SQL fora do banco de dados do Data Explorer. Do mesmo modo que as tabelas, uma tabela externa tem um esquema bem definido (uma lista ordenada de pares de nome da coluna e tipo de dados). Ao contrário das tabelas do Data Explorer, em que os dados são ingeridos nos pools do Data Explorer, as tabelas externas operam em dados armazenados e gerenciados fora de pools. As tabelas externas não persistem dados e são usadas para consultar ou exportar dados para um armazenamento de dados externo.

Próximas etapas