Democratizar dados com invenção digital

Carvão, petróleo e potencial humano foram os três ativos mais consequenciais durante a revolução industrial. Eles criaram empresas, interferiram em mercados e, em última análise, mudaram nações. Na economia digital, há três ativos igualmente importantes para a inovação: dados, dispositivos e potencial humano. Esses ativos contêm grande potencial de inovação. Para qualquer esforço de inovação na era moderna, dados são o novo petróleo.

Em todas as empresas, há dados que podem ser usados para localizar e suprir as necessidades do cliente. Infelizmente, o processo de mineração de dados para orientar a inovação pode ser dispendioso e demorado e, por isso, necessidades não são descobertas e soluções não são criadas. A democratização de dados pode resolver esse problema.

O que é democratização de dados? É o processo de colocar os dados nas mãos certas para orientar a inovação. Esse processo pode ter várias formas, mas geralmente inclui soluções para ingestão ou integração de dados brutos, centralização, compartilhamento e proteção de dados. Quando os dados são democratizados, especialistas em toda a empresa podem usá-los para formar e testar hipóteses. Em muitos casos, as equipes de adoção da nuvem podem criar com empatia pelo cliente usando apenas dados, para atender rapidamente às suas necessidades.

Formas de democratizar dados

Há várias maneiras de democratizar dados, mas a maioria inclui métodos de coleta, centralização, governança e compartilhamento desses dados. As seções a seguir descrevem alguns desses métodos. Ao criar uma solução para uma hipótese do cliente, você deve avaliar se é preciso democratizar dados, até que ponto e como fazê-lo.

Processo para democratização de dados que mostra estes processos: controlar, centralizar, coletar e compartilhar dados.

Compartilhar dados

Quando você cria com empatia pelo cliente, as necessidades do cliente guiam a solução. Se a necessidade for de dados, a solução permite que o cliente interrogue, analise e relate com base nesses dados diretamente, sem suporte da equipe de TI.

Muitas inovações bem-sucedidas começam como um MVP (produto mínimo viável) que fornece dados para o cliente. Um MVP é uma versão do produto que tem apenas os recursos suficientes para ser utilizável pelo cliente. Ele mostra o potencial do produto, para receber os comentários do cliente. Neste modelo de concierge, um funcionário é o consumidor de dados. Esse funcionário usa dados para auxiliar o cliente. Cada vez que o cliente se envolve com suporte manual, uma hipótese pode ser testada e confirmada. Em geral, essa abordagem é um meio econômico de testar uma hipótese com foco no cliente antes de investir pesadamente em soluções integradas.

As principais ferramentas para compartilhar dados diretamente com consumidores de dados incluem relatórios de autoatendimento ou dados inseridos em outras experiências, usando ferramentas como Power BI.

Observação

Antes de compartilhar dados, não deixe de ler as seções a seguir. O compartilhamento de dados pode exigir governança para fornecer proteção a esses dados. Além disso, se os dados abrangerem várias nuvens, isso poderá exigir centralização. Se os dados estiverem em aplicativos, você deverá coletá-los para compartilhá-los.

Controlar os dados

O compartilhamento de dados pode produzir rapidamente um produto mínimo viável a ser usado em conversas com o cliente. No entanto, para transformar esses dados compartilhados em conhecimento útil e acionável, em geral é preciso mais.

Após uma hipótese ser confirmada por meio do compartilhamento de dados, a próxima fase de desenvolvimento normalmente é a governança de dados.

A governança de dados é um tópico abrangente e que pode exigir uma estrutura própria dedicada, uma questão que está fora do escopo da estrutura de adoção da nuvem.

Há vários aspectos da governança de dados a serem considerados logo que você confirma a hipótese do cliente. Por exemplo:

  • Os dados compartilhados são confidenciais? Os dados devem ser classificados antes do compartilhamento público, para proteger os interesses dos clientes e da empresa.
  • Se os dados forem confidenciais, eles estão protegidos? A proteção de dados confidenciais é um item obrigatório para dados democratizados. O exemplo de carga de trabalho discutido em Proteger soluções de dados fornece algumas referências para a proteção de dados.
  • Os dados estão catalogados? Identificar a natureza dos dados compartilhados ajuda no gerenciamento de dados em longo prazo. Ferramentas para documentação de dados, como o Catálogo de Dados do Azure, tornam esse processo muito mais fácil na nuvem. Orientações sobre a anotação de dados e a documentação das fontes de dados podem acelerar o processo.

Quando a democratização de dados for importante para uma hipótese dirigida ao cliente, verifique se a governança de dados compartilhados está no plano de lançamento. Isso protege clientes, consumidores de dados e a empresa.

Centralizar dados

A centralização de dados leva a relatórios mais significativos, garante que os mesmos dados estejam disponíveis em toda a organização e aumenta o seu ROI. Quando os dados estão dispersos em um ambiente de TI, as oportunidades de inovação podem ser extremamente restritas, caras e demoradas. A nuvem fornece novas oportunidades para centralizar dados. Quando a centralização de várias fontes de dados é necessária para criar com empatia pelo cliente, a nuvem pode acelerar os testes de hipóteses.

Cuidado

A centralização de dados representa um ponto de risco em qualquer processo de inovação. Quando a centralização de dados for uma perturbação técnica, e não uma fonte de valor do cliente, sugerimos que você a adie até que as hipóteses do cliente tenham sido confirmadas.

Ao centralizar, você precisa de um armazenamento de dados apropriado para os dados centralizados. É boa prática estabelecer um data warehouse na nuvem. Essa opção escalonável fornece um local central para todos os seus dados. Esse tipo de solução está disponível em opções de OLAP (processamento analítico online) ou big data.

As arquiteturas de referência para as soluções OLAP e big data podem ajudar o a escolher a solução de centralização mais apropriada no Azure. Se for necessária uma solução híbrida, a arquitetura de referência para estender dados locais também poderá ajudar a acelerar o desenvolvimento da solução.

Importante

Para algumas necessidades e soluções do cliente, uma abordagem simples pode ser suficiente. O arquiteto de nuvem deve desafiar a equipe para considerar soluções de baixo custo para confirmar a hipótese do cliente, especialmente nos primeiros estágios do desenvolvimento. Esta seção sobre coleta de dados discute cenários que podem sugerir uma solução diferente para sua situação.

Coletar dados

As duas formas primárias de coleta de dados são: integração e ingestão.

Integração: os dados que residem em um repositório de dados existente podem ser integrados ao armazenamento de dados centralizado com o uso de técnicas tradicionais de movimentação de dados. Isso é especialmente comum em cenários que envolvem o armazenamento de dados de nuvem. Essas técnicas envolvem extração dos dados do armazenamento de dados existente e seu carregamento no armazenamento de dados central. Em algum momento nesse processo, os dados normalmente são transformados para serem mais utilizáveis e relevantes no armazenamento central.

As ferramentas baseadas em nuvem transformaram essas técnicas em ferramentas de pagamento por uso, reduzindo a barreira de entrada para a coleta e a centralização de dados. Ferramentas como o Serviço de Migração de Banco de Dados do Azure e oAzure Data Factory são dois exemplos. A arquitetura de referência para o Data Factory com um armazenamento de dados OLAP exemplifica uma dessas soluções.

Ingestão: alguns dados não residem em um repositório de dados existente. Quando esses dados transitórios forem uma fonte primária de inovação, pode ser aconselhável considerar abordagens alternativas. Dados transitórios podem ser encontrados em várias fontes existentes, como aplicativos, APIs, fluxos de dados, dispositivos IoT, blockchain, um cache de aplicativos, conteúdo de mídia ou até mesmo arquivos simples.

Você pode integrar essas várias formas de dados em um armazenamento de dados central usando uma solução OLAP ou big data. No entanto, para iterações iniciais do ciclo de criação-medida-aprendizado, uma solução OLTP (processamento transacional online) pode ser suficiente para confirmar uma hipótese do cliente. As soluções OLTP não são a melhor opção para qualquer cenário de relatório. No entanto, ao criar com empatia pelo cliente, é mais importante concentrar-se nas necessidades do cliente do que nas decisões técnicas de ferramentas. Após a hipótese do cliente ser confirmada em escala, uma plataforma mais adequada pode ser necessária. A arquitetura de referência em armazenamentos de dados OLTP pode ajudar a determinar qual armazenamento de dados é mais apropriado à sua solução.

Virtualização: a integração e a ingestão de dados podem, às vezes, tornar mais lenta a inovação. Quando uma solução para virtualização de dados já está disponível, pode representar uma abordagem mais razoável. A ingestão e a integração podem duplicar os requisitos de armazenamento e desenvolvimento, adicionar latência de dados, aumentar a área da superfície de ataque, disparar problemas de qualidade e aumentar os esforços de governança. A virtualização de dados é uma alternativa mais contemporânea, que deixa os dados originais em um único local e cria consultas de passagem ou em cache dos dados de origem.

O SQL Server 2017 e o SQL Data Warehouse do Azure oferecem suporte ao polybase, que é a abordagem para a virtualização de dados mais comumente usada no Azure.

Próximas etapas

Com uma estratégia de democratização de dados em vigor, pode ser aconselhável avaliar abordagens para o desenvolvimento de aplicativos.