Perguntas frequentes sobre o Azure Synapse Analytics

Neste guia, você verá as perguntas mais frequentes sobre o Azure Synapse Analytics.

Geral

Como posso usar funções RBAC para proteger meu workspace?

O Azure Synapse introduz várias funções e escopos que podem ser atribuídos que simplificarão a proteção do seu workspace.

Funções RBAC do Azure Synapse:

  • Administrador do Azure Synapse
  • Administrador do SQL do Synapse
  • Administrador do Spark para Azure Synapse
  • Colaborador do Synapse
  • Editor de Artefatos do Synapse
  • Usuário de Artefato do Azure Synapse
  • Operador de Computação do Azure Synapse
  • Usuário de Credencial do Synapse
  • Gerenciador de Dados Vinculados do Azure Synapse
  • Usuário do Azure Synapse

Para proteger o workspace do Azure Synapse, atribua as Funções RBAC a estes escopos RBAC:

  • Workspaces
  • Pools do Spark
  • Runtimes de integração
  • Serviços vinculados
  • Credenciais

Além disso, com os pools de SQL dedicados, você tem todos os recursos de segurança que você já conhece e adora.

Como fazer para controlar os pools de SQL dedicados, pools de SQL sem servidor e pools do Spark sem servidor?

Como ponto de partida, o Azure Synapse trabalha com análise de custo e alertas de custo internos disponíveis no nível de assinatura do Azure.

  • Pools de SQL dedicados – Você tem visibilidade direta do custo e controle sobre o custo, pois cria e especifica os tamanhos de pools de SQL dedicados. Você pode controlar ainda mais quais usuários podem criar ou escalar pools de SQL dedicados com as funções RBAC do Azure.

  • Pools de SQL sem servidor – Você tem controles de monitoramento e de gerenciamento de custos que permitem que você limite os gastos em um nível diário, semanal e mensal. Confira Gerenciamento de custos para o pool de SQL sem servidor para obter mais informações.

  • Pools do Spark sem servidor – Você pode restringir quem pode criar pools do Spark com as funções RBAC do Azure Synapse.

O workspace do Azure Synapse dará suporte à organização de objetos e à granularidade em GA?

Os workspaces do Azure Synapse dão suporte a pastas definidas pelo usuário.

Posso vincular mais de um workspace do Power BI a um workspace do Azure Synapse?

Sim, a partir de 10 de junho de 2021, o Synapse Studio agora permite que você adicione mais de um workspace do Power BI em um único workspace do Azure Synapse.

Atualmente, o Azure Synapse Analytics tem suporte para o Link do Azure Synapse do Azure Cosmos DB para o Synapse Apache Spark e o pool de SQL sem servidor. O Link do Azure Synapse para Apache Spark está em GA. O Link do Synapse para o pool de SQL sem servidor está em versão prévia. Para obter mais informações, confira o Link do Azure Synapse para o Azure Cosmos DB.

O Link do Azure Synapse está em disponibilidade geral para ambos o SQL Server 2022 e o Banco de Dados SQL do Azure. Para saber mais, confira O que é o Link do Azure Synapse para SQL?.

O workspace do Azure Synapse dá suporte ao CI/CD?

Sim. Todos os artefatos de Pipeline, notebooks, scripts SQL e definições de trabalho do Spark residirão no Git. Todas as definições de pool serão armazenadas no Git como modelos do ARM (Azure Resource Manager). Os objetos do pool de SQL dedicados (esquemas, tabelas, exibições etc.) serão gerenciados com projetos de banco de dados com suporte para CI/CD. Para obter mais informações, confira este Guia de CI e CD.

Quais são as diferenças funcionais entre pools de SQL dedicados e pools sem servidor?

Os recursos e requisitos são diferentes entre os dois tipos de pools. As diferenças incluem objetos de banco de dados, recursos de linguagem de consulta, segurança, ferramentas, acesso a dados e formato de dados. Para obter uma comparação detalhada dos pools de SQL e pools sem servidor, visite Comparação de Pools. Para conhecer as melhores práticas ao usar qualquer tipo de pool, confira Melhores práticas para o Pool de SQL Dedicado e Melhores práticas para o Pool de SQL sem Servidor.

O que são tabelas Delta e por que devo usá-las?

O Lakehouse é baseado em formatos de dados de acesso direto abertos, como o Apache Parquet. Ele tem suporte de primeira classe para machine learning e ciência de dados. Uma tabela Delta é uma exibição de dados contidos em um Delta Lake que dá suporte à maioria das opções fornecidas pelas APIs de leitura e gravação do Apache Spark DataFrame. O Lakehouses pode ajudar com grandes desafios com data warehouses, como desatualização de dados, confiabilidade, custo total de propriedade e bloqueio de dados. Em tabelas Delta, otimizações como a compactação automática e planos de consulta adaptáveis estão disponíveis. Para obter um guia detalhado sobre o Delta Lake, visite Guia do Delta Lake.

O que é a Compactação Automática?

A Compactação Automática é um dos dois recursos complementares da Otimização Automática para tabelas Delta. Após uma gravação em uma tabela ser bem-sucedida, a Compactação Automática poderá compactar ainda mais arquivos para partições que têm o maior número de arquivos pequenos. É recomendável aceitar a Compactação Automática para casos de uso de streaming em que adicionar minutos de latência é aceitável e quando você não tem chamadas OPTIMIZE regulares na tabela. Para obter mais informações sobre a Otimização Automática e a Compactação Automática, confira este Guia de Otimização Automática.

Pipelines

Como fazer para garantir que eu saiba qual credencial está sendo usada para executar um pipeline?

Cada atividade em um Pipeline do Azure Synapse é executada usando as credenciais especificadas no serviço vinculado.

Os SSIS IRs têm suporte na integração do Azure Synapse?

Não no momento.

Quais são as diferenças entre pipelines do Azure Data Factory e pipelines do Azure Synapse?

Alguns exemplos de diferenças são o suporte para parâmetros globais, o monitoramento de trabalhos do Spark para o fluxo de dados e o compartilhamento do Integration Runtime. Para obter mais informações, confira este documento sobre Integração de Dados – Synapse versus ADF.

Como fazer para migrar pipelines existentes do Azure Data Factory para um workspace do Azure Synapse?

Neste momento, você precisa recriar manualmente seus pipelines do Azure Data Factory e artefatos relacionados exportando o JSON do pipeline original e importando-o para o workspace do Azure Synapse.

Como fazer para usar uma definição de trabalho do Apache Spark?

Posso chamar notebooks de pipelines do ADF?

Há duas opções para esse caso de uso. Uma delas é manter os pipelines no ADF, e você precisará encapsular uma atividade da Web. Para obter mais informações sobre essa opção, confira este Guia de Atividades da Web. A outra opção é migrar os pipelines para o Synapse. Para obter mais informações sobre a segunda opção, confira este Exemplo de Código de Migração.

Apache Spark

Qual é a diferença entre o Apache Spark para Azure Synapse e o Apache Spark?

O Apache Spark para Synapse é o Apache Spark com suporte adicional para integrações com outros serviços (Microsoft Entra ID, AzureML, etc.) e bibliotecas adicionais (mssparktuils, Hummingbird) e configurações de desempenho predefinidas.

Qualquer carga de trabalho atualmente em execução no Apache Spark será executada no Apache Spark para o Azure Synapse sem alteração.

Quais versões do Spark estão disponíveis?

Desde setembro de 2023, o Apache Spark do Azure Synapse dá suporte total ao Spark 3.3. Para obter uma lista completa dos componentes principais e das versões atualmente compatíveis, confira Suporte à versão do Apache Spark.

Há um equivalente ao DButils no Spark para Azure Synapse?

Sim, o Apache Spark para Azure Synapse fornece a biblioteca mssparkutils. Para obter a documentação completa do utilitário, confira Introdução aos utilitários do Microsoft Spark.

Como fazer para definir parâmetros de sessão no Apache Spark?

Para definir parâmetros de sessão, use o comando magic %%configure disponível. Uma reinicialização de sessão é necessária para que os parâmetros entrem em vigor.

Como fazer para definir parâmetros de nível de cluster em um Pool do Spark sem servidor?

Para definir os parâmetros de nível de cluster, você pode fornecer um arquivo spark.conf para o Pool do Spark. Esse pool obedecerá aos parâmetros passados no arquivo de configuração.

Posso executar um Cluster do Spark de vários usuários no Azure Synapse Analytics?

O Azure Synapse fornece mecanismos desenvolvidos especificamente para casos de uso específicos. O Apache Spark para Azure Synapse é projetado como um serviço de trabalho e não como um modelo de cluster. Há dois cenários em que as pessoas solicitam um modelo de cluster de vários usuários.

Cenário #1: Muitos usuários acessam um cluster para manutenção de dados para fins de BI.

A maneira mais fácil de realizar essa tarefa é processar os dados com o Spark e aproveitar as funcionalidades do serviço do SQL do Synapse para que conectar o Power BI a esses conjuntos de dados.

Cenário 2: Ter vários desenvolvedores em um cluster para economizar dinheiro.

Para atender a esse cenário, você deve dar a cada desenvolvedor um Pool do Spark sem servidor definido para usar um pequeno número de recursos do Spark. Como os Pools do Spark sem servidor são gratuitos até que eles sejam ativamente usados, eles minimizam o custo quando há vários desenvolvedores. Os pools compartilham metadados (tabelas do Spark) para que eles possam trabalhar facilmente entre si.

Como fazer para incluir, gerenciar e instalar bibliotecas?

Você pode instalar pacotes externos por meio de um arquivo requirements.txt ao criar o Pool do Spark, no workspace do Azure Synapse ou no portal do Azure. Confira Gerenciar bibliotecas do Apache Spark no Azure Synapse Analytics.

Quais ferramentas estão disponíveis para mim no Synapse Spark?

O MSSparkUtils no Synapse Spark oferece uma variedade de utilitários para aprimorar sua experiência e facilitar a integração com outras ferramentas e serviços. Trabalhe com sistemas de arquivos, obtenha variáveis de ambiente, encadeie blocos de anotações e trabalhe com segredos com o mínimo de etapas manuais. Para obter a documentação completa, visite Utilitários do Microsoft Spark.

Pools de SQL dedicados

Qual é a diferença entre pools de SQL dedicados (SQL DW) e pools de SQL dedicados em workspaces do Azure Synapse?

Os pools de SQL dedicados (anteriormente SQL DW) são uma plataforma de armazenamento de dados corporativos da Plataforma como serviço (PaaS) do Azure. Você pode consultar pools de SQL dedicados existentes (anteriormente SQL DW) e também criar novos pools de SQL dedicados no seu workspace do Azure Synapse. Nem todas as funcionalidades do pool de SQL dedicado nos workspaces do Azure Synapse se aplicam ao pool de SQL dedicado (antigo SQL DW) e vice-versa. Para obter mais informações, confira Qual é a diferença entre os pools de SQL dedicados do Azure Synapse (anteriormente SQL DW) e os pools de SQL dedicados em um workspace do Azure Synapse Analytics?. Para habilitar recursos de workspace do Azure Synapse para um pool de SQL dedicado existente (antigo SQL DW), confira Como habilitar um workspace para o seu pool de SQL dedicado (antigo SQL DW).

Quais são as diferenças funcionais entre pools de SQL dedicados e pools sem servidor?

Você pode encontrar uma lista completa das diferenças em Diferenças do recurso T-SQL no SQL do Synapse.

Agora que o Azure Synapse está em GA, como fazer para mover meus pools de SQL dedicados que anteriormente eram autônomos para o Azure Synapse?

Não é necessário “mover” nem “migrar”. Você pode optar por habilitar novos recursos do workspace nos seus pools existentes. Se você fizer isso, não haverá alterações da falha, em vez disso, você poderá usar novos recursos como o Synapse Studio, o Spark e os pools de SQL sem servidor. Nem todos os recursos do pool de SQL dedicado em workspaces do Azure Synapse se aplicam ao pool de SQL dedicado (anteriormente SQL DW) e vice-versa. Para habilitar recursos de workspace para um pool de SQL dedicado existente (antigo SQL DW), veja Como habilitar um workspace para seu pool de SQL dedicado (antigo SQL DW).

Qual é a implantação padrão de pools de SQL dedicados agora?

Por Padrão, todos os novos pools de SQL dedicados serão implantados em um workspace; no entanto, se você precisar, ainda poderá criar um pool de SQL dedicado (anteriormente conhecido como SQL DW) em um fator forma autônomo.

Segurança de rede

Como faço para proteger o acesso ao meu workspace do Azure Synapse?

Você pode se conectar ao seu workspace em redes públicas com ou sem uma rede virtual gerenciada. Para obter mais informações, consulte Configurações de conectividade. O acesso de redes públicas pode ser controlado habilitando o recurso de acesso à rede pública ou o firewall do workspace. Como alternativa, você pode se conectar ao workspace usando um ponto de extremidade privado gerenciado e o Link Privado. Os workspaces do Synapse sem a Rede Virtual Gerenciada do Azure Synapse Analytics não têm a capacidade de se conectar por meio de pontos de extremidade privados gerenciados.