Perguntas mais frequentes do Azure Synapse Analytics

Neste guia, encontrará as perguntas mais frequentes sobre o Azure Synapse Analytics.

Geral

Como posso utilizar funções RBAC para proteger a minha área de trabalho?

Azure Synapse introduz várias funções e âmbitos para as atribuir, o que simplificará a proteção da área de trabalho.

Funções RBAC do Synapse:

  • Administrador do Synapse
  • Administrador do SQL do Synapse
  • Administrador do Synapse Spark
  • Contribuidor do Synapse
  • Editor de Artefactos do Synapse
  • Utilizador de Artefactos do Synapse
  • Operador de Computação do Synapse
  • Utilizador de Credenciais do Synapse
  • Synapse Linked Data Manager
  • Utilizador do Synapse

Para proteger a área de trabalho do Synapse, atribua as Funções RBAC a estes âmbitos RBAC:

  • Áreas de Trabalho
  • Conjuntos do Apache Spark
  • Runtimes de integração
  • Serviços ligados
  • Credenciais

Além disso, com conjuntos de SQL dedicados, tem todas as mesmas funcionalidades de segurança que conhece e adora.

Como devo proceder para controlar conjuntos de SQL dedicados, conjuntos de SQL sem servidor e conjuntos do Spark sem servidor?

Como ponto de partida, Azure Synapse funciona com a análise de custos incorporada e os alertas de custos disponíveis ao nível da subscrição do Azure.

  • Conjuntos de SQL dedicados – tem visibilidade direta sobre o custo e o controlo sobre o custo, uma vez que cria e especifica os tamanhos dos conjuntos de SQL dedicados. Pode controlar ainda mais quais os utilizadores que podem criar ou dimensionar conjuntos de SQL dedicados com funções RBAC do Azure.

  • Conjuntos de SQL sem servidor – tem controlos de monitorização e gestão de custos que lhe permitem limitar os gastos a um nível diário, semanal e mensal. Veja Cost management for serverless SQL pool (Gestão de custos do conjunto de SQL sem servidor ) para obter mais informações.

  • Conjuntos spark sem servidor – pode restringir quem pode criar conjuntos do Spark com funções RBAC do Synapse.

A área de trabalho do Synapse irá suportar a organização de pastas de objetos e granularidade na GA?

As áreas de trabalho do Synapse suportam pastas definidas pelo utilizador.

Posso ligar mais do que uma área de trabalho do Power BI a um único Azure Synapse Área de Trabalho?

Sim, a partir de 10 de junho de 2021, Synapse Studio agora permite-lhe adicionar mais do que uma área de trabalho do Power BI a uma única área de trabalho Azure Synapse.

O Azure Synapse Vincular ao Azure Cosmos DB está disponível em geral?

Azure Synapse Analytics suporta atualmente o Azure Synapse Link do Azure Cosmos DB para o Synapse Apache Spark e o conjunto de SQL sem servidor. Azure Synapse Link para Apache Spark é GA. Synapse Link para o conjunto de SQL sem servidor está em pré-visualização. Para obter mais informações, veja Azure Synapse Link para o Azure Cosmos DB.

Azure Synapse Ligação para SQL está disponível para SQL Server 2022 e para a Base de Dados SQL do Azure. Para obter mais informações, consulte O que é Azure Synapse Ligação para SQL?.

Azure Synapse área de trabalho Suporta CI/CD?

Sim! Todos os artefactos do Pipeline, blocos de notas, scripts SQL e definições de tarefas do Spark residirão no Git. Todas as definições do conjunto serão armazenadas no Git como modelos do Azure Resource Manager (ARM). Os objetos de conjunto de SQL dedicados (esquemas, tabelas, vistas, etc.) serão geridos com projetos de base de dados com suporte ci/CD. Para obter mais informações, consulte este Guia de CI e CD.

Quais são as diferenças funcionais entre conjuntos de SQL dedicados e conjuntos sem servidor?

As capacidades e os requisitos são diferentes entre os dois tipos de conjuntos. As diferenças incluem objetos de base de dados, capacidades de linguagem de consulta, segurança, ferramentas, acesso a dados e formato de dados. Para obter uma comparação detalhada dos conjuntos de SQL e dos conjuntos sem servidor, visite Comparação de Conjuntos. Para melhores práticas ao utilizar qualquer tipo de conjunto, veja Melhores Práticas para Conjunto de SQL Dedicado e Melhores Práticas para o Conjunto de SQL Sem Servidor.

O que são tabelas Delta e por que motivo devo utilizá-las?

O Lakehouse baseia-se em formatos de dados de acesso direto abertos, como o Apache Parquet. Tem suporte de primeira classe para machine learning e ciência de dados. Uma tabela Delta é uma vista dos dados contidos num Delta Lake, que suporta a maioria das opções fornecidas pelas APIs de leitura e escrita do Apache Spark DataFrame. Os lakehouses podem ajudar com grandes desafios com armazéns de dados, como a estagnação de dados, a fiabilidade, o custo total de propriedade e o bloqueio de dados. Nas tabelas Delta, estão disponíveis otimizações como compactação automática e planos de consulta adaptáveis. Para obter um guia detalhado sobre o Delta Lake, visite o Guia do Delta Lake.

O que é a Compactação Automática?

A Compactação Automática é uma das duas funcionalidades complementares da Otimização Automática para tabelas Delta. Depois de uma escrita numa tabela ser bem-sucedida, a Compactação Automática pode compactar ainda mais ficheiros para partições que tenham o maior número de ficheiros pequenos. É recomendado optar ativamente por participar na Compactação Automática para casos de utilização de transmissão em fluxo em que a adição de minutos de latência é aceitável e quando não tem chamadas otimizadas regulares na tabela. Para obter mais informações sobre Otimização Automática e Compactação Automática, consulte este Guia de Otimização Automática.

Pipelines

Como devo proceder para garantir que sei que credenciais estão a ser utilizadas para executar um pipeline?

Cada atividade num Pipeline do Synapse é executada com a credencial especificada dentro do serviço ligado.

Os SSIS IRs são suportados no Synapse Integrate?

Neste momento, não.

Como é que os pipelines Azure Data Factory e os pipelines Azure Synapse são diferentes?

Alguns exemplos de diferenças são suporte para parâmetros globais, monitorização de Trabalhos do Spark para Fluxo de Dados e partilha de Integration Runtime. Para obter mais informações, consulte este documento para Integração de Dados – Synapse vs ADF.

Como devo proceder para migrar pipelines existentes de Azure Data Factory para uma área de trabalho Azure Synapse?

Neste momento, tem de recriar manualmente os seus pipelines de Azure Data Factory e artefactos relacionados ao exportar o JSON do pipeline original e importá-lo para a sua área de trabalho do Synapse.

Como devo proceder para utilizar uma Definição de Tarefa do Apache Spark?

Posso chamar blocos de notas a partir de pipelines do ADF?

Existem duas opções para este caso de utilização. Uma opção é manter os pipelines no ADF e terá de encapsular uma atividade Web. Para obter mais informações sobre esta opção, veja este Guia de Atividade Web. A outra opção é migrar os pipelines para o Synapse. Para obter mais informações sobre a segunda opção, consulte este Exemplo de Código de Migração.

Apache Spark

Qual é a diferença entre o Apache Spark para O Synapse e o Apache Spark?

O Apache Spark para Synapse é o Apache Spark com suporte adicional para integrações com outros serviços (Azure AD, AzureML, etc.) e bibliotecas adicionais (mssparktuils, Hummingbird) e configurações de desempenho pré-otimizadas.

Qualquer carga de trabalho atualmente em execução no Apache Spark será executada no Apache Spark durante Azure Synapse sem alterações.

Que versões do Spark estão disponíveis?

A partir de maio de 2021, o Azure Synapse Apache Spark suporta totalmente o Spark 2.4 e o Spark 3.1. A partir de abril de 2022, o Spark 3.2 está em pré-visualização. Para obter uma lista completa dos componentes principais e das versões atualmente suportadas, veja Suporte de versões do Apache Spark.

Existe um equivalente a DButils no Azure Synapse Spark?

Sim, Azure Synapse Apache Spark fornece a biblioteca mssparkutils. Para obter a documentação completa do utilitário, consulte Introdução aos utilitários do Microsoft Spark.

Como devo proceder para definir parâmetros de sessão no Apache Spark?

Para definir parâmetros de sessão, utilize %%configure magic available. É necessário reiniciar a sessão para que os parâmetros entrem em vigor.

Como devo proceder para definir parâmetros ao nível do cluster num conjunto do Spark sem servidor?

Para definir parâmetros ao nível do cluster, pode fornecer um ficheiro spark.conf para o conjunto do Spark. Em seguida, este conjunto respeitará os parâmetros passados no ficheiro de configuração.

Posso executar um Cluster spark multiutilizador no Azure Synapse Analytics?

Azure Synapse fornece motores concebidos para fins para casos de utilização específicos. O Apache Spark para Synapse foi concebido como um serviço de tarefas e não como um modelo de cluster. Existem dois cenários em que as pessoas pedem um modelo de cluster multiutilizador.

Cenário n.º 1: muitos utilizadores que acedem a um cluster para servir dados para fins de BI.

A forma mais fácil de realizar esta tarefa é preparar os dados com o Spark e, em seguida, tirar partido das capacidades de serviço do Synapse SQL para que possam ligar o Power BI a esses conjuntos de dados.

Cenário n.º 2: ter vários programadores num único cluster para poupar dinheiro.

Para satisfazer este cenário, deve dar a cada programador um conjunto do Spark sem servidor definido para utilizar um pequeno número de recursos do Spark. Uma vez que os conjuntos do Spark sem servidor não custam nada, até serem utilizados ativamente minimiza o custo quando existem vários programadores. Os conjuntos partilham metadados (tabelas do Spark) para que possam trabalhar facilmente entre si.

Como devo proceder para incluir, gerir e instalar bibliotecas?

Pode instalar pacotes externos através de um ficheiro requirements.txt ao criar o conjunto do Spark, a partir da área de trabalho do synapse ou do portal do Azure. Veja Gerir bibliotecas do Apache Spark no Azure Synapse Analytics.

Que ferramentas estão disponíveis para mim no Synapse Spark?

O MSSparkUtils no Synapse Spark oferece uma variedade de utilitários para melhorar a sua experiência e facilitar a integração com outras ferramentas e serviços. Trabalhe com sistemas de ficheiros, obtenha variáveis de ambiente, encadeie blocos de notas em cadeia e trabalhe com segredos com passos manuais mínimos. Para obter documentação completa, visite Utilitários do Microsoft Spark.

Conjuntos de SQL dedicados

Qual é a diferença entre conjuntos de SQL dedicados (SQL DW) e conjuntos de SQL dedicados em Azure Synapse áreas de trabalho?

Os conjuntos de SQL dedicados (anteriormente SQL DW) são uma plataforma de armazenamento de dados empresariais PaaS (Plataforma como Serviço) do Azure. Pode consultar conjuntos de SQL dedicados existentes (anteriormente SQL DW) e também criar novos conjuntos de SQL dedicados na área de trabalho Azure Synapse. Nem todas as funcionalidades do conjunto de SQL dedicado no Azure Synapse áreas de trabalho se aplicam a um conjunto de SQL dedicado autónomo (anteriormente SQL DW) e vice-versa. Para obter mais informações, veja Qual é a diferença entre Azure Synapse conjuntos de SQL dedicados (anteriormente SQL DW) e conjuntos de SQL dedicados numa área de trabalho do Azure Synapse Analytics?. Para ativar Azure Synapse funcionalidades da área de trabalho para um conjunto de SQL dedicado existente (anteriormente SQL DW), veja Como ativar uma área de trabalho para o conjunto de SQL dedicado (anteriormente SQL DW).

Quais são as diferenças funcionais entre conjuntos de SQL dedicados e conjuntos sem servidor?

Pode encontrar uma lista completa das diferenças nas diferenças de funcionalidades do T-SQL no Synapse SQL.

Agora que Azure Synapse é ga, como posso mover os meus conjuntos de SQL dedicados que estavam anteriormente autónomos para Azure Synapse?

Não é necessário "mover" ou "migrar". Pode optar por ativar as novas funcionalidades da área de trabalho nos conjuntos existentes. Se o fizer, não haverá alterações interruptivas. Em vez disso, poderá utilizar novas funcionalidades, como Synapse Studio, Spark e conjuntos de SQL sem servidor. Nem todas as funcionalidades do conjunto de SQL dedicado no Azure Synapse áreas de trabalho se aplicam ao conjunto de SQL dedicado (anteriormente SQL DW) e vice-versa. Para ativar as funcionalidades da área de trabalho para um conjunto de SQL dedicado existente (anteriormente SQL DW), veja Como ativar uma área de trabalho para o conjunto de SQL dedicado (anteriormente SQL DW).

Qual é a implementação predefinida de conjuntos de SQL dedicados agora?

Por Predefinição, todos os novos conjuntos de SQL dedicados serão implementados numa área de trabalho; No entanto, se precisar, ainda pode criar um conjunto de SQL dedicado (anteriormente SQL DW) num fator de forma autónomo.

Segurança da rede

Como devo proceder para acesso seguro à minha área de trabalho Azure Synapse?

Com ou sem uma rede virtual gerida, pode ligar-se à área de trabalho a partir de redes públicas. Para obter mais informações, veja Definições de Conectividade. O acesso a partir de redes públicas pode ser controlado ao ativar a funcionalidade de acesso à rede pública ou a firewall da área de trabalho. Em alternativa, pode ligar-se à área de trabalho com um ponto final privado gerido e Private Link. As áreas de trabalho do Synapse sem o Azure Synapse Analytics Managed Rede Virtual não têm a capacidade de se ligar através de pontos finais privados geridos.