Tecnologias do Azure para o processo de aprendizado

Concluído

Nesta unidade, você aprenderá a aplicar os resultados da etapa de medição no ciclo de vida da inovação. Você também aprenderá a importância da democratização de dados.

Democratização de dados

Como aprendeu nas unidades anteriores, você pode coletar dados de seus clientes usando várias fontes. Essas fontes incluem micropesquisas, dados de utilização derivados do Azure Application Insights e sinalizadores de recursos que os clientes podem optar por habilitar ou desabilitar por conta própria. Quanto mais dados você tiver, melhores serão suas decisões, mas você precisará encontrar uma forma de lidar com esse fluxo cada vez maior de dados.

Em 2014, Satya Nadella falava sobre a importância da cultura de dados em uma organização. Ele afirmava que as decisões não deviam ser tomadas com base em sentimentos ou opiniões subjetivas, mas usando dados para validá-las. Também afirmava que dados deviam estar disponíveis para cada indivíduo que precisasse deles e que deviam ser facilmente convertidos em insights acionáveis a fim de facilitar decisões controladas por dados.

Uma organização poderá tomar decisões universais orientadas por dados apenas se essas decisões forem baseadas em uma plataforma de dados sólida e acessível. Esse esforço envolve quatro áreas:

  • Coletar dados: a primeira etapa para a tomada de decisão controlada por dados é sempre ter dados. A coleta de dados pode assumir várias formas: migração de repositórios de dados existentes, geração de dados de fontes como o Azure Application Insights ou ingestão de dados de outras fontes.
  • Compartilhar dados: os dados coletados precisam estar disponíveis para todos que precisarem deles, não apenas para especialistas de dados. Todos os indivíduos de uma organização devem conseguir usar dados para tomar decisões.
  • Centralizar dados: plataformas de dados centralizadas podem ajudar a simplificar o compartilhamento e a governança de dados.
  • Controlar dados: o compartilhamento de dados não significa que todos os dados precisam estar disponíveis para todos. Verifique se dados confidenciais estão protegidos, rastreados e controlados antes de compartilhá-los.

Plataforma de dados do Azure

A plataforma do Azure abrange todo o ciclo de vida dos dados, o que é fundamental para a tomada de decisões controladas por dados e a democratização de dados. De bancos de dados leves e sob demanda a enormes data warehouses ou sistemas NoSQL flexíveis, a plataforma de dados do Azure permite que você cuide das quatro áreas de atividade de dados.

Coleta de dados

O ecossistema de dados do Azure inclui serviços e ferramentas para migrar, ingerir, armazenar e analisar dados. A seguinte lista mostra apenas alguns dos mecanismos que você pode usar para processar dados e disponibilizá-los para compartilhamento posterior a fim de facilitar a tomada de decisão controlada por dados:

  • Análise de dados: o Azure Synapse Analytics é um serviço de análise empresarial que acelera o tempo de descoberta de insights entre data warehouses e sistemas de Big Data. O Azure Synapse Analytics reúne o que há de melhor em:
    • Tecnologias SQL usadas no armazenamento de dados corporativo.
    • Tecnologias Spark usadas em Big Data.
    • Pipelines para integração de dados e ETL (extração, transformação e carregamento) e ELT (extração, carregamento e transformação).
    • Integração profunda com outros serviços da Microsoft como o Power BI, o Azure Cosmos DB e o Azure Machine Learning.
  • Migração de dados: os dados podem já estar armazenados em fontes existentes, mas precisam ser migrados para uma plataforma moderna antes de serem convertidos em insights acionáveis. O Serviço de Migração de Banco de Dados do Azure contém ferramentas que ajudam nas migrações de dados de sistemas como o SQL Server, o PostgreSQL, o Oracle ou o MongoDB.
  • Processamento de dados: o Azure inclui serviços para analisar e transformar fluxos de dados com o Azure Stream Analytics e para executar processos de ETL em grande escala com o Azure Data Factory.

Compartilhamento de dados

O Microsoft Power BI é um conjunto de ferramentas que consolidam dados provenientes de fontes distintas em visualizações integradas e interativas. Os usuários podem se aprofundar nos dados operando apenas controles intuitivos. O poder do insights está disponível para todos em uma organização, não apenas para os profissionais de dados.

Os proprietários das áreas podem criar relatórios e dashboards contendo informações relevantes sobre aspectos específicos do aplicativo. Após a nova funcionalidade ser introduzida para validar uma hipótese, os dados estarão prontamente disponíveis para validar ou rejeitar a hipótese com base no uso real do cliente.

O Microsoft Power BI pode ajudar no compartilhamento de dados de várias perspectivas. Estes são alguns exemplos:

  • Compartilhar dados com colegas e parceiros: os dashboards do Power BI simplificam o consumo de dados. As visualizações permitem que pessoas que não são especialistas em dados façam buscas detalhadas nos dados sem precisar estar familiarizadas com a estrutura subjacente.
  • Gerar insights de dados rapidamente: o Power BI pode gerar automaticamente visualizações de conjuntos de dados com sua funcionalidade de Insights Rápidos. Você pode criar dashboards rapidamente e encontrar correlações de dados que não seriam óbvias a princípio.
  • Inserir relatórios em um site ou portal: com o Power BI, não só as visualizações podem ser acessadas no portal nativo do Power BI, mas relatórios e dashboards podem ser inseridos em outros aplicativos Web. Assim, os usuários não precisam sair dos sites corporativos conhecidos para encontrar os dados de que precisam para o processo de tomada de decisões.

Centralização de dados

O principal problema da centralização de dados é a escala em diferentes níveis. Com o risco de simplificar muito, podemos reduzi-la aos três Vs do Big Data:

  • Volume: o Azure Data Lake Storage Gen2 é uma plataforma econômica e escalonável do Azure para armazenamento de dados. Com base na enorme escalabilidade fornecida pelo Armazenamento do Azure, o Azure Data Lake Storage foi projetado para fornecer vários petabytes de informações enquanto sustenta centenas de gigabits de taxa de transferência.
  • Variedade: esse termo geralmente se refere ao fato de que os dados nem sempre são estruturados. Você pode ter dados semiestruturados e até mesmo não estruturados. O Azure Synapse se destaca nessa área, pois reúne o melhor das tecnologias de SQL usadas em data warehouse empresarial com o Spark, geralmente usado para Big Data.
  • Velocidade: um problema que costuma ser encontrado em arquiteturas de dados mais antigas é a interdependência entre capacidade de armazenamento, velocidade de análise e taxas de ingestão. Nas soluções de dados do Azure, uma organização pode escalar diferentes dimensões da plataforma de maneira independente desacoplando-as. Os dados podem ser ingeridos, processados e compartilhados por meio de pipelines de dados que usam os serviços de dados do Azure necessários, como mostra a Arquitetura de business intelligence empresarial.

Governança de dados

No mundo atual, os dados representam um ativo crítico e uma responsabilidade significativa. Muitas vezes, dados armazenados incluem informações confidenciais que podem resultar em danos financeiros ou pessoais quando vazados ou compartilhados inadequadamente. Armazenar e processar dados implicitamente significa que uma organização aceita essa responsabilidade. Regulamentos legais podem resultar em multas para organizações que manipulam dados pessoais ou confidenciais incorretamente.

Como consequência, a governança de dados é fundamental para qualquer organização cuja meta é a democratização de dados. A primeira etapa em direção à governança de dados é classificar dados que precisam ser tratados de maneiras específicas. Por exemplo, a Microsoft usa estas categorias de dados internamente para classificação de dados:

  • Não corporativos: dados de sua vida pessoal que não pertencem à Microsoft.
  • Públicos: dados corporativos disponíveis gratuitamente e aprovados para consumo público.
  • Gerais: dados corporativos que não se destinam ao público em geral.
  • Confidenciais: dados corporativos que poderão causar danos à Microsoft se forem compartilhados em excesso.
  • Altamente confidenciais: dados corporativos que causarão danos à Microsoft forem compartilhados em excesso.

A próxima etapa após a classificação de dados será garantir que cada categoria de dados seja protegida contra o acesso não autorizado. O Azure dá suporte a estas tecnologias que impõem a confidencialidade:

  • Criptografia de dados inativos: todos os dados do Azure são criptografados quando armazenados em data centers da Microsoft. Alguns serviços do Azure oferecem recursos de criptografia específicos, como a Transparent Data Encryption no Azure Synapse e no Banco de Dados SQL do Azure.
  • Criptografia de dados em trânsito: todos os serviços de dados do Azure criptografam dados com o TLS/SSL antes de enviá-los pela rede. Alguns serviços, como o Armazenamento do Azure, podem permitir, de modo opcional, o tráfego não criptografado. As organizações devem desabilitar qualquer comunicação não criptografada para qualquer tipo de dados confidenciais.
  • Controle de acesso a dados: o Azure oferece mecanismos de autenticação e autorização sofisticados para acesso à plataforma Azure e para acesso aos dados propriamente ditos. O controle de acesso baseado em função, o Acesso Condicional e o Privileged Identity Management do Azure são três exemplos de serviços essenciais que podem ajudar a garantir que apenas indivíduos autorizados tenham acesso a informações confidenciais.
  • Auditoria de dados: muitas normas de conformidade regulatória exigem evidências dos mecanismos de proteção de dados com a documentação de quem realizou determinadas operações e quem acessou determinados dados. Conforme descrito em Auditoria para o Banco de Dados SQL do Azure e o Azure Synapse Analytics, a auditoria de dados do Azure contempla três aspectos de auditoria:
    • Manter uma trilha de auditoria de eventos selecionados, em que é possível definir categorias de ações de dados a serem auditadas.
    • Gerar relatórios sobre a atividade do banco de dados, opcionalmente com relatórios e dashboards pré-configurados para começar rapidamente.
    • Analisar relatórios para descobrir eventos suspeitos, atividades incomuns e tendências

Mentalidade de crescimento

Às vezes, a fase de aprendizado entrega notícias ruins. Hipóteses que você acreditou que estivessem certas podem acabar estando erradas. Estar aberto a ideias alternativas é fundamental para que o processo de inovação flua sem problemas. Talvez a hipótese inteira estivesse errada ou talvez o problema fosse apenas a maneira como o protótipo foi desenvolvido.

De qualquer modo, as conclusões sempre devem ser fundamentadas com os dados. A equipe deve prosseguir para a formulação da próxima hipótese, possivelmente algum tipo de revisão ou iteração da primeira.

Os dados existentes podem não permitir que você conclua de modo incontestável se a hipótese estava certa ou errada. Nesse caso, o conjunto de dados que está ajudando o processo de decisão deve ser aprimorado. Introduza novos pontos de telemetria no aplicativo ou descubra novas maneiras de obter informações sobre a experiência do cliente.

A mentalidade de crescimento é fundamental nesta fase. Considere as hipóteses que se mostraram erradas ou parcialmente erradas como oportunidades de aprendizado. As organizações não devem desperdiçar tempo em uma inovação que não gere os resultados de negócios esperados.

O que procurar em seguida

Muitos dos conceitos desta unidade são discutidos com mais detalhes na documentação do Cloud Adoption Framework sobre democratização de dados.