O que é o Azure Synapse Link para o Azure Cosmos DB?
APLICA-SE A: NoSQL MongoDB Gremlin
O Azure Synapse Link para o Azure Cosmos DB é uma funcionalidade de processamento analítico transacional híbrido (HTAP) nativo de cloud que permite obter análises quase em tempo real em dados operacionais no Azure Cosmos DB. O Azure Synapse Link cria uma integração totalmente integrada entre o Azure Cosmos DB e o Azure Synapse Analytics.
Importante
O espelhamento do Azure Cosmos DB no Microsoft Fabric agora está disponível para a API NoSql. Esse recurso fornece todos os recursos do Azure Synapse Link com melhor desempenho analítico, capacidade de unificar seu patrimônio de dados com o Fabric OneLake e acesso aberto aos seus dados no formato Delta Parquet. Se você estiver considerando o Azure Synapse Link, recomendamos que tente espelhar para avaliar o ajuste geral para sua organização. Introdução ao espelhamento no Microsoft Fabric.
O repositório analítico do Azure Cosmos DB, um repositório de colunas totalmente isolado, pode ser usado com o Azure Synapse Link para habilitar a análise ETL (Extract-Transform-Load) no Azure Synapse Analytics em relação aos seus dados operacionais em escala. Analistas de negócios, engenheiros de dados e cientistas de dados agora podem usar o Synapse Spark ou o Synapse SQL de forma intercambiável para executar pipelines de business intelligence, análises e aprendizado de máquina quase em tempo real. Você pode analisar dados em tempo real sem afetar o desempenho de suas cargas de trabalho transacionais no Azure Cosmos DB.
A imagem a seguir mostra a integração do Azure Synapse Link com o Azure Cosmos DB e o Azure Synapse Analytics:
Benefícios
Para analisar grandes conjuntos de dados operacionais e, ao mesmo tempo, minimizar quaisquer efeitos no desempenho de cargas de trabalho transacionais de missão crítica, os clientes do Azure Cosmos DB tradicionalmente exportam os dados operacionais. Essas operações são executadas por pipelines ETL (Extract-Transform-Load), que exigem muitas camadas de gerenciamento de dados e trabalhos, resultando em complexidade operacional e efeitos de desempenho em suas cargas de trabalho transacionais. Também aumenta a latência para analisar os dados operacionais desde o momento da origem.
Quando comparado com soluções tradicionais baseadas em ETL, o Azure Synapse Link for Azure Cosmos DB oferece várias vantagens, tais como:
Complexidade reduzida sem tarefas de ETL para gerenciar
O Azure Synapse Link permite que você acesse diretamente o repositório analítico do Azure Cosmos DB usando o Azure Synapse Analytics sem movimentação de dados complexa. Quaisquer atualizações feitas nos dados operacionais são visíveis no repositório analítico quase em tempo real, sem ETL ou trabalhos de alimentação de alteração. Você pode executar análises em grande escala no repositório analítico, a partir do Azure Synapse Analytics, sem transformação de dados extra.
Informações quase em tempo real sobre seus dados operacionais
Agora você pode obter informações detalhadas sobre seus dados operacionais quase em tempo real, usando o Azure Synapse Link. Os sistemas baseados em ETL tendem a ter maior latência para analisar seus dados operacionais, devido às muitas camadas necessárias para extrair, transformar e carregar os dados operacionais. Com a integração nativa do repositório analítico do Azure Cosmos DB com o Azure Synapse Analytics, você pode analisar dados operacionais quase em tempo real, permitindo novos cenários de negócios.
Sem comprometer o desempenho em cargas de trabalho operacionais
Com o Azure Synapse Link, você pode executar consultas analíticas em um repositório analítico do Azure Cosmos DB, uma representação de armazenamento de coluna de seus dados. Você pode executar as consultas enquanto as operações transacionais são processadas usando a taxa de transferência provisionada para a carga de trabalho transacional, no repositório transacional baseado em linha do Azure Cosmos DB. A carga de trabalho analítica é independente do tráfego de carga de trabalho transacional, não consumindo a taxa de transferência alocada para seus dados operacionais.
Otimizado para cargas de trabalho de análise em grande escala
O repositório analítico do Azure Cosmos DB é otimizado para fornecer escalabilidade, elasticidade e desempenho para cargas de trabalho analíticas sem qualquer dependência dos tempos de execução de computação. A tecnologia de armazenamento é autogerenciada para otimizar suas cargas de trabalho de análise. Com suporte integrado no Azure Synapse Analytics, o acesso a essa camada de armazenamento fornece simplicidade e alto desempenho.
Económico
Com o Azure Synapse Link, você pode obter uma solução de custo otimizado e totalmente gerenciada para análises operacionais. Ele elimina o armazenamento extra e as camadas de computação necessárias nos pipelines ETL tradicionais para analisar dados operacionais.
O repositório analítico do Azure Cosmos DB segue um modelo de preços baseado no consumo, que se baseia no armazenamento de dados e em operações analíticas de leitura/gravação e consultas executadas. Ele não exige que você aloque nenhuma taxa de transferência, como faz hoje para as cargas de trabalho transacionais. Acessar seus dados com mecanismos de computação altamente elásticos do Azure Synapse Analytics torna o custo geral de execução de armazenamento e computação eficiente.
Análise para gravações multirregionais disponíveis localmente, distribuídas globalmente
Você pode executar consultas analíticas de forma eficaz na cópia regional mais próxima dos dados no Azure Cosmos DB. O Azure Cosmos DB fornece a capacidade de última geração para executar as cargas de trabalho analíticas distribuídas globalmente juntamente com cargas de trabalho transacionais de forma ativa.
Habilite cenários HTAP para seus dados operacionais
O Azure Synapse Link reúne o repositório analítico do Azure Cosmos DB com o suporte ao tempo de execução do Azure Synapse Analytics. Essa integração permite que você crie soluções HTAP nativas da nuvem que geram insights com base em atualizações em tempo real de seus dados operacionais em grandes conjuntos de dados. Ele desbloqueia novos cenários de negócios para gerar alertas com base em tendências em tempo real, criar painéis quase em tempo real e experiências de negócios com base no comportamento do usuário.
Repositório analítico do Azure Cosmos DB
O repositório analítico do Azure Cosmos DB é uma representação orientada a colunas dos seus dados operacionais no Azure Cosmos DB. Esse armazenamento analítico é adequado para consultas rápidas e econômicas em grandes conjuntos de dados operacionais. Esse armazenamento pode consultar dados sem copiar dados e afetar o desempenho de suas cargas de trabalho transacionais.
O repositório analítico capta automaticamente inserções, atualizações e exclusões de alta frequência em suas cargas de trabalho transacionais quase em tempo real, como um recurso totalmente gerenciado ("sincronização automática") do Azure Cosmos DB. Nenhuma alimentação de alteração ou ETL é necessária.
Se você tiver uma conta do Azure Cosmos DB distribuída globalmente, depois de habilitar o armazenamento analítico para um contêiner, ele estará disponível em todas as regiões para essa conta. Para obter mais informações sobre o repositório analítico, consulte o artigo de visão geral do repositório analítico do Azure Cosmos DB.
Integração com o Azure Synapse Analytics
Com o Azure Synapse Link, agora você pode se conectar diretamente aos contêineres do Azure Cosmos DB a partir do Azure Synapse Analytics e acessar o repositório analítico sem conectores separados. Atualmente, o Azure Synapse Analytics dá suporte ao Azure Synapse Link com Synapse, Apache Spark e pool SQL sem servidor.
Você pode consultar os dados do repositório analítico do Azure Cosmos DB simultaneamente, com interoperabilidade entre diferentes tempos de execução de análise suportados pelo Azure Synapse Analytics. Não são necessárias transformações de dados adicionais para analisar os dados operacionais. Você pode consultar e analisar os dados do repositório analítico usando:
Synapse Apache Spark com suporte total para Scala, Python, SparkSQL e C#. O Synapse Spark é fundamental para cenários de engenharia de dados e ciência de dados
Pool SQL sem servidor com linguagem T-SQL e suporte para ferramentas de BI familiares (por exemplo, Power BI Premium, etc.)
Nota
No Azure Synapse Analytics, você pode acessar armazenamentos analíticos e transacionais em seu contêiner do Azure Cosmos DB. No entanto, se você quiser executar análises ou verificações em larga escala em seus dados operacionais, recomendamos usar o repositório analítico para evitar impacto no desempenho em cargas de trabalho transacionais.
Nota
Você pode executar análises com baixa latência em uma região do Azure conectando seu contêiner do Azure Cosmos DB ao tempo de execução do Synapse nessa região.
Essa integração permite os seguintes cenários HTAP para diferentes usuários:
Um engenheiro de BI, que deseja modelar e publicar um relatório do Power BI para acessar os dados operacionais em tempo real no Azure Cosmos DB diretamente por meio do Synapse SQL.
Um Analista de Dados, que deseja obter insights dos dados operacionais em um contêiner do Azure Cosmos DB consultando-os com o Synapse SQL, lê os dados em escala e combina essas descobertas com outras fontes de dados.
Um cientista de dados, que quer usar o Synapse Spark para encontrar um recurso para melhorar seu modelo e treinar esse modelo sem fazer engenharia de dados complexa. Eles também podem gravar os resultados da inferência de pós-modelo no Azure Cosmos DB para pontuação em tempo real nos dados por meio do Spark Synapse.
Um engenheiro de dados, que deseja tornar os dados acessíveis para os consumidores, criando tabelas SQL ou Spark em contêineres do Azure Cosmos DB, sem processos manuais de ETL.
Para obter mais informações sobre o suporte de tempo de execução do Azure Synapse Analytics para o Azure Cosmos DB, consulte Suporte do Azure Synapse Analytics para Azure Cosmos DB.
Quando usar o Azure Synapse Link para o Azure Cosmos DB?
O Azure Synapse Link é recomendado se você for um cliente do Azure Cosmos DB e quiser executar análises, BI e aprendizado de máquina em seus dados operacionais. Por exemplo:
Se você estiver executando análises ou BI em seus dados operacionais do Azure Cosmos DB diretamente usando conectores separados hoje, ou
Se você estiver executando processos ETL para extrair dados operacionais em um sistema de análise separado.
Nesses casos, o Azure Synapse Link fornece uma experiência de análise mais integrada sem afetar a taxa de transferência provisionada do seu repositório transacional.
O Azure Synapse Link não é recomendado se você estiver procurando por requisitos tradicionais de data warehouse. Esses requisitos podem incluir alta simultaneidade, gerenciamento de carga de trabalho e persistência de agregações em várias fontes de dados. Para obter mais informações, consulte Cenários comuns que podem ser alimentados com o Azure Synapse Link para Azure Cosmos DB.
Limitações
O Azure Synapse Link for Azure Cosmos DB tem suporte para APIs NoSQL, Gremlin e MongoDB. Não há suporte para Cassandra ou APIs de tabela.
O Data Explorer no Synapse Workspaces não lista gráficos Gremlin na exibição em árvore. Mas você ainda pode executar consultas.
Atualmente, não há suporte para acessar o repositório de análise do Azure Cosmos DB com o Azure Synapse Dedicated SQL Pool.
Embora não seja feito backup dos dados do repositório analítico e, portanto, não seja possível restaurá-los, você pode reconstruir seu repositório analítico reativando o Azure Synapse Link no contêiner restaurado. Consulte a documentação da loja analítica para obter mais informações.
Synapse Link para contas de banco de dados usando o modo de backup contínuo é GA. O modo de backup contínuo para contas habilitadas para Synapse Link está em visualização pública. Atualmente, os clientes que desabilitaram o Synapse Link de contêineres não podem migrar para o backup contínuo.
O controle de acesso granular baseado em função não é suportado ao consultar a partir do Synapse. Os usuários que têm acesso ao seu espaço de trabalho Synapse e têm acesso à conta do Azure Cosmos DB podem acessar todos os contêineres dentro dessa conta. Atualmente, não oferecemos suporte a acesso mais granular aos contêineres.
Atualmente, os Espaços de Trabalho do Azure Synapse não oferecem suporte a serviços vinculados usando
Managed Identity
o . Use sempre aMasterKey
opção.Atualmente, contas de gravação de várias regiões não são recomendadas para ambientes de produção.
Segurança
O Azure Synapse Link permite que você execute análises quase em tempo real sobre seus dados de missão crítica no Azure Cosmos DB. É vital garantir que os dados críticos de negócios sejam armazenados com segurança em lojas transacionais e analíticas. O Azure Synapse Link for Azure Cosmos DB foi projetado para ajudar a atender a esses requisitos de segurança por meio dos seguintes recursos:
Isolamento de rede usando pontos de extremidade privados - Você pode controlar o acesso da rede aos dados nos armazenamentos transacionais e analíticos de forma independente. O isolamento de rede é feito usando pontos de extremidade privados gerenciados separados para cada loja, dentro de redes virtuais gerenciadas nos espaços de trabalho do Azure Synapse. Para saber mais, consulte o artigo Como configurar pontos de extremidade privados para armazenamento analítico.
Criptografia de dados com chaves gerenciadas pelo cliente - Você pode criptografar perfeitamente os dados em armazenamentos transacionais e analíticos usando as mesmas chaves gerenciadas pelo cliente de maneira automática e transparente. O Azure Synapse Link dá suporte apenas à configuração de chaves gerenciadas pelo cliente usando a identidade gerenciada da sua conta do Azure Cosmos DB. Você deve configurar a identidade gerenciada da sua conta em sua política de acesso do Cofre da Chave do Azure antes de habilitar o Azure Synapse Link em sua conta. Para saber mais, consulte o artigo Como configurar chaves gerenciadas pelo cliente usando as identidades gerenciadas das contas do Azure Cosmos DB.
Gerenciamento seguro de chaves - Acessar os dados no repositório analítico a partir dos pools SQL sem servidor Synapse Spark e Synapse requer o gerenciamento de chaves do Azure Cosmos DB nos espaços de trabalho do Synapse Analytics. Em vez de usar as chaves de conta do Azure Cosmos DB embutidas em trabalhos do Spark ou scripts SQL, o Azure Synapse Link fornece recursos mais seguros:
Ao usar pools SQL sem servidor Synapse, você pode consultar o repositório analítico do Azure Cosmos DB pré-criando credenciais SQL armazenando as chaves de conta e fazendo referência a
OPENROWSET
essas chaves na função. Para saber mais, consulte Consulta com um pool SQL sem servidor no artigo Azure Synapse Link .Ao usar o Synapse Spark, você pode armazenar as chaves de conta em objetos de serviço vinculados apontando para um banco de dados do Azure Cosmos DB e fazer referência às chaves na configuração do Spark em tempo de execução. Para saber mais, consulte o artigo Copiar dados para um pool SQL dedicado usando o Apache Spark .
Preços
O modelo de cobrança do Azure Synapse Link inclui os custos incorridos usando o repositório analítico do Azure Cosmos DB e o tempo de execução do Synapse. Para saber mais, consulte os artigos de preços da loja analítica do Azure Cosmos DB e do Azure Synapse Analytics.
Próximos passos
Para saber mais, consulte os seguintes documentos: