terminologia do Azure Synapse Analytics

Este documento orienta-o ao longo dos conceitos básicos do Azure Synapse Analytics.

Área de trabalho do Synapse

Uma área de trabalho do Synapse é um limite de colaboração com capacidade de segurança para realizar análises empresariais baseadas na cloud no Azure. Uma área de trabalho é implementada numa região específica e tem uma conta e um sistema de ficheiros do ADLS Gen2 associados (para armazenar dados temporários). Uma área de trabalho está num grupo de recursos.

Uma área de trabalho permite-lhe realizar análises com o SQL e o Apache Spark. Os recursos disponíveis para análise do SQL e do Spark estão organizados em conjuntos do SQL e do Spark.

Serviços ligados

Uma área de trabalho pode conter qualquer número de Serviço ligado, essencialmente cadeias de ligação que definem as informações de ligação necessárias para a área de trabalho se ligar a recursos externos.

SQL do Synapse

O Synapse SQL é a capacidade de fazer análises baseadas em T-SQL na área de trabalho do Synapse. O Synapse SQL tem dois modelos de consumo: dedicado e sem servidor. Para o modelo dedicado, utilize conjuntos de SQL dedicados. Uma área de trabalho pode ter qualquer número destes conjuntos. Para utilizar o modelo sem servidor, utilize os conjuntos de SQL sem servidor. Cada área de trabalho tem um destes conjuntos.

Dentro de Synapse Studio, pode trabalhar com conjuntos de SQL ao executar scripts SQL.

Nota

Os conjuntos de SQL dedicados no Azure Synapse são diferentes do conjunto de SQL dedicado (anteriormente SQL DW). Nem todas as funcionalidades do conjunto de SQL dedicado no Azure Synapse áreas de trabalho se aplicam ao conjunto de SQL dedicado (anteriormente SQL DW) e vice-versa. Para ativar as funcionalidades da área de trabalho para um conjunto de SQL dedicado existente (anteriormente SQL DW), veja Como ativar uma área de trabalho para o conjunto de SQL dedicado (anteriormente SQL DW).

Apache Spark para Synapse

Para utilizar a análise do Spark, crie e utilize conjuntos do Apache Spark sem servidor na sua área de trabalho do Synapse. Quando começa a utilizar um conjunto do Spark, as áreas de trabalho criam uma sessão do Spark para processar os recursos associados a essa sessão.

Existem duas formas de utilizar o Spark no Synapse:

  • Os Blocos de Notas do Spark para fazer Ciência de Dados e Engenharia utilizam Scala, PySpark, C#e SparkSQL
  • Definições de tarefas do Spark para executar tarefas do Apache Spark em lote com ficheiros jar.

SynapseML

O SynapseML (anteriormente conhecido como MMLSpark) é uma biblioteca open source que simplifica a criação de pipelines de machine learning (ML) extremamente dimensionáveis. É um ecossistema de ferramentas utilizadas para expandir a arquitetura do Apache Spark em várias novas direções. O SynapseML unifica várias arquiteturas de machine learning existentes e novos algoritmos da Microsoft numa única API dimensionável que pode ser utilizado em Python, R, Scala, .NET e Java. Para saber mais, veja as principais funcionalidades do SynapseML.

Pipelines

Os pipelines são como Azure Synapse fornece a Integração de Dados, permitindo-lhe mover dados entre serviços e orquestrar atividades.

  • O pipeline é um agrupamento lógico de atividades que executam uma tarefa em conjunto.
  • As atividades definem ações num Pipeline para executar em dados como copiar dados, executar um Bloco de Notas ou um script SQL.
  • Os fluxos de dados são um tipo específico de atividade que fornece uma experiência sem código para realizar a transformação de dados que utiliza o Synapse Spark nos bastidores.
  • Acionador – executa um pipeline. Pode ser executada manual ou automaticamente (agenda, janela em cascata ou baseada em eventos)
  • Conjunto de dados de integração – vista nomeada dos dados que simplesmente aponta ou referencia os dados a utilizar numa atividade como entrada e saída. Pertence a um Serviço Ligado.

Data Explorer (Pré-visualização)

Azure Synapse Data Explorer proporciona aos clientes uma experiência de consulta interativa para desbloquear informações de dados de registo e telemetria.

  • Data Explorer conjuntos são clusters dedicados que incluem dois ou mais nós de computação com armazenamento SSD local (cache frequente) para desempenho de consultas otimizado e vários armazenamentos de blobs (cache fria) para persistência.
  • Data Explorer bases de dados são alojadas em conjuntos de Data Explorer e são entidades lógicas compostas por coleções de tabelas e outros objetos de base de dados. Pode ter mais do que uma base de dados por conjunto.
  • As tabelas são objetos de base de dados que contêm dados organizados com um modelo de dados relacionais tradicional. Os dados são armazenados em registos que aderem ao esquema de tabela bem definido do Data Explorer que define uma lista ordenada de colunas, cada coluna com um nome e um tipo de dados escalar. Os tipos de dados escalares podem ser estruturados (int, real, datetime ou timespan), semiestruturados (dinâmicos) ou texto livre (cadeia). O tipo dinâmico é semelhante ao JSON, na medida em que pode conter um único valor escalar, uma matriz ou um dicionário desses valores.
  • As Tabelas Externas são tabelas que referenciam uma origem de dados SQL ou de armazenamento fora da base de dados Data Explorer. Semelhante às tabelas, uma tabela externa tem um esquema bem definido (uma lista ordenada de pares de nomes de colunas e tipos de dados). Ao contrário Data Explorer tabelas em que os dados são ingeridos em conjuntos de Data Explorer, as tabelas externas operam em dados armazenados e geridos fora dos conjuntos. As tabelas externas não persistem em dados e são utilizadas para consultar ou exportar dados para um arquivo de dados externo.

Passos seguintes