Várias zonas de dados para análise em escala de nuvem no Azure
Essa arquitetura de referência é para organizações que implementaram uma versão básica da análise em escala de nuvem e agora estão prontas para hospedar novas unidades de negócios para ajudar a modernizar suas operações de análise. Esse cenário mais complexo usa várias zonas de destino, aplicativos de dados e produtos de dados.
Apache Hive e o logotipo Hive são marcas registradas ou marcas comerciais da Apache Software Foundation nos Estados Unidos e/ou em outros países. Nenhum endosso da Apache Software Foundation está implícito no uso dessas marcas.
A Relecloud, a empresa fictícia neste exemplo, é um provedor de nuvem privada que oferece recursos de computação e armazenamento compartilhados para organizações globais. Embora o Relecloud forneça recursos de computação, eles não querem restringir sua plataforma com suas próprias operações internas. Portanto, eles dependem do Microsoft Azure para suas necessidades internas de computação.
Os analistas de dados do grupo de operações usam dados de telemetria de serviços em nuvem para entender como seus clientes usam a plataforma. Uma equipe separada de analistas no grupo de faturamento estuda os dados de faturamento para obter informações sobre quais serviços geram mais receita.
No último trimestre, a equipe de operações modernizou sua plataforma de análise migrando-a para o Azure. Um dos objetivos da implementação de análises em escala de nuvem era maximizar o potencial de dimensionamento da plataforma e adicionar novas cargas de trabalho organizacionais.
Hoje, o grupo de faturamento excedeu a capacidade da sua solução de análises atual. O volume de faturas a serem analisadas é muito grande para o servidor local. A equipe decide seguir a liderança do grupo de operações e modernizar sua plataforma de análise de dados no Azure.
Os analistas do grupo de faturamento têm habilidades diferentes dos analistas do grupo de operações. Os analistas de faturamento não querem ser constrangidos a usar as mesmas ferramentas que as operações. O grupo de faturamento está em uma parte diferente da organização e quer flexibilidade para implementar as políticas e procedimentos que atendam às suas necessidades.
O Relecloud dimensiona sua plataforma de análise adicionando uma nova zona de destino para o grupo de faturamento. Essa zona de aterrissagem fornece um espaço de trabalho virtual para o grupo de faturamento implementar as soluções de análise que atendem às suas necessidades de negócios. Ao ter uma zona de aterrissagem separada dos outros recursos da organização, o grupo de faturamento pode implementar suas próprias políticas de acesso e contabilizar os custos de seus serviços.
O diagrama a seguir não representa todos os serviços do Azure. O diagrama é simplificado para destacar os principais conceitos de organização de recursos dentro da arquitetura.
Um requisito fundamental para uma implementação de análise em escala de nuvem é uma zona de aterrissagem de gerenciamento de dados. Esta subscrição contém recursos que são partilhados em todas as zonas de aterragem, incluindo componentes de rede partilhados, como uma firewall ou zonas DNS privadas. Também inclui recursos para governança de dados e nuvem. O Microsoft Purview e o Databricks Unity Catalog foram implantados como serviços no nível do locatário.
A Relecloud criou uma zona de aterrissagem de gerenciamento de dados quando implantou a solução de análise de dados para o grupo de operações. Quando o grupo de faturamento ingressa na plataforma, eles usam a mesma zona de aterrissagem de gerenciamento de dados para compartilhar recursos comuns com o grupo de operações.
O grupo de operações tem as seguintes soluções na sua área de aterragem de dados.
A equipe criou um de aplicativo de dados alinhado à origem
Esse processo copia os dados as-is do sistema de origem, mas não os transforma. Os analistas podem trabalhar com os dados copiados na plataforma de análise sem sobrecarregar o sistema de origem. Em vez de criar uma implantação dedicada para esta aplicação de dados, a equipa de operações utiliza o espaço de trabalho Databricks no grupo de recursos compartilhado Ingest & Processamento.
Os clientes Relecloud podem criar contas na nuvem para gerenciar recursos e faturamento em suas nuvens privadas. Cada cliente pode ter várias contas. A equipe de análise criou um aplicativo de dados para importar os dados da conta na nuvem. Como o volume e a frequência dos dados são muito menores do que os dados de telemetria, a equipe não precisa usar trabalhos do Spark. Em vez disso, eles criaram pipelines do Azure Data Factory para copiar os dados.
O Banco de Dados do Azure para MySQL atua como o metastore do Hive e o Banco de Dados SQL do Azure é o metastore do Azure Data Factory.
Os analistas da Relecloud obtêm valor dos dados nos aplicativos de dados alinhados à fonte criando novos aplicativos de dados alinhados ao consumidor. Um destes aplicativos de dados alinhados ao consumidor é um modelo de recomendação de serviço de nuvem. Os cientistas de dados da Relecloud usaram o Azure Machine Learning para criar um modelo que analisa os serviços que uma conta de nuvem consome e sugere serviços relacionados que podem ser úteis. A equipe implanta esse modelo em um cluster do Serviço Kubernetes do Azure (AKS) em execução na zona de aterrissagem e gerenciado pelo Azure Machine Learning. As aplicações executadas fora do âmbito de análise em escala de nuvem podem chamar o ponto de extremidade AKS para obter recomendações.
Depois que a equipe de faturamento cria sua zona de destino, a equipe de operações cria um novo produto de dados que sua equipe de gerenciamento solicita. A equipa de gestão quer saber quanta receita gera a aplicação de dados do recomendador de serviço na nuvem . O novo produto de dados de receita do Recommender
O grupo de faturamento estava usando um sistema local para potencializar suas análises, mas à medida que o volume de dados crescia e a empresa dependia mais de seu trabalho, o sistema não conseguia acompanhar o ritmo. O grupo moderniza sua plataforma migrando para a nuvem.
O grupo de faturamento não compartilha uma zona de pouso com o grupo de operações, mas obtém sua própria zona de pouso, onde eles têm a liberdade de construir a plataforma que melhor atende às suas necessidades. A nova zona de aterragem está conectada à zona de aterragem de gestão de dados e a todas as outras zonas de aterragem de dados com ligação de rede virtual. Esse mecanismo permite que os dados sejam compartilhados com segurança por meio da rede interna do Azure.
Para transferir dados de sistemas existentes para a plataforma de análise, o grupo de faturamento cria dois aplicativos de dados. O primeiro aplicativo ingere os dados do cliente, incluindo a lista completa de clientes e todos os dados relacionados, como endereços de clientes, locais e atribuições de vendedores. O segundo aplicativo importa o histórico de faturas da empresa, que inclui todos os encargos de faturamento para os clientes e os dados de pagamento relacionados.
Ambos os aplicativos são alimentados por pipelines no espaço de trabalho compartilhado do Azure Synapse. Cada aplicativo tem um pool de computação dedicado para facilitar a contabilidade de custos e os limites de segurança. Como os aplicativos podem ser totalmente implementados com recursos compartilhados, o grupo de cobrança não precisa criar uma implantação para esses aplicativos de dados.
Os analistas de faturamento criam um novo produto de dados chamado Revenue by service que analisa quanta receita cada serviço de nuvem gera para o Relecloud. Este produto baseia-se nos dados das Faturas ingestão. O produto também se conecta à zona de aterrissagem de operações e lê os dados de uso do serviço. Como os aplicativos de dados, o produto de dados também depende do espaço de trabalho compartilhado do Azure Synapse.
Prossiga para o cenário Lamna Healthcare para análises em escala de nuvem de forma segura no Azure.
Para obter mais informações, consulte os seguintes artigos: