Democratizar dados com invenção digital
O carvão, o petróleo e o potencial humano foram os três ativos mais consequentes durante a revolução industrial. Esses ativos construíram empresas, mudaram mercados e, finalmente, mudaram nações. Na economia digital, existem três ativos igualmente importantes para a inovação: dados, dispositivos e potencial humano. Estes ativos têm um grande potencial de inovação. Para qualquer esforço de inovação na era moderna, os dados são o novo petróleo.
Em cada empresa, existem dados que podem ser usados para encontrar e atender às necessidades dos clientes. Infelizmente, o processo de mineração desses dados para impulsionar a inovação pode ser caro e demorado, portanto, as necessidades não são descobertas e as soluções não são criadas. A democratização dos dados pode resolver este problema.
O que é democratização de dados? É o processo de colocar os dados nas mãos certas para impulsionar a inovação. Esse processo de democratização pode assumir várias formas, mas geralmente incluem soluções para dados brutos ingeridos ou integrados, centralização de dados, compartilhamento de dados e segurança de dados. Quando os dados são democratizados, especialistas de toda a empresa podem usá-los para formar e testar hipóteses. Em muitos casos, as equipes de adoção de nuvem podem criar com empatia do cliente usando apenas dados, para atender rapidamente às necessidades do cliente.
Formas de democratizar os dados
Existem várias maneiras de democratizar os dados, mas a maioria inclui métodos de coleta, centralização, governo e compartilhamento dos dados. As seções a seguir descrevem alguns desses métodos. Ao construir uma solução para uma hipótese de cliente, você deve avaliar se deve democratizar os dados, em que medida e como fazê-lo.
Partilhar dados
Quando você constrói com empatia do cliente, as necessidades do cliente guiam a solução. Se a necessidade for de dados, a solução permite que o cliente interrogue, analise e relate os dados diretamente, sem suporte da equipe de TI.
Muitas inovações bem-sucedidas começam como um produto mínimo viável (MVP) que fornece dados ao cliente. Um MVP é uma versão do produto que tem recursos suficientes para ser utilizável pelo cliente. Ele mostra o possível potencial do produto, a fim de coletar feedback do cliente. Neste modelo de concierge, um funcionário é o consumidor de dados. Esse funcionário usa dados para ajudar o cliente. Cada vez que o cliente contrata suporte manual, uma hipótese pode ser testada e validada. Essa abordagem geralmente é um meio econômico de testar uma hipótese focada no cliente antes de investir pesadamente em soluções integradas.
As principais ferramentas para compartilhar dados diretamente com consumidores de dados incluem relatórios de autoatendimento ou dados incorporados em outras experiências, usando ferramentas como o Power BI.
Nota
Antes de partilhar dados, certifique-se de que leu as secções seguintes. O compartilhamento de dados pode exigir governança para fornecer proteção aos dados. Além disso, se os dados se estenderem por várias nuvens, isso pode exigir centralização. Se os dados residirem em aplicativos, você deve coletá-los para compartilhá-los.
Reger os dados
O compartilhamento de dados pode produzir rapidamente um produto mínimo viável para usar nas conversas com os clientes. No entanto, para transformar esses dados partilhados em conhecimentos úteis e acionáveis, é geralmente necessário fazer mais.
Depois que uma hipótese é validada por meio do compartilhamento de dados, a próxima fase de desenvolvimento normalmente é a governança de dados.
A governança de dados é um tópico amplo que pode exigir sua própria estrutura dedicada, um assunto que está fora do escopo do Cloud Adoption Framework.
Há vários aspetos da governança de dados a serem considerados assim que você validar a hipótese do cliente. Por exemplo:
- Os dados partilhados são sensíveis? Os dados devem ser classificados antes de serem partilhados publicamente para proteger os interesses dos clientes e da empresa.
- Se os dados forem sensíveis, foram protegidos? A proteção de dados sensíveis é uma obrigação para dados democratizados. O exemplo de carga de trabalho discutido em Protegendo soluções de dados fornece algumas referências para proteger dados.
- Os dados estão catalogados? A identificação da natureza dos dados partilhados ajuda na gestão de dados a longo prazo. Ferramentas para documentar dados, como o Catálogo de Dados do Azure, tornam esse processo muito mais fácil na nuvem. As orientações relativas à anotação de dados e à documentação das fontes de dados podem acelerar o processo.
Quando a democratização dos dados for importante para uma hipótese focada no cliente, certifique-se de que a governança dos dados compartilhados esteja no plano de lançamento. Isso protege os clientes, os consumidores de dados e a empresa.
Centralizar os dados
A centralização de dados leva a relatórios mais significativos, garante que os mesmos dados estejam disponíveis em toda a organização e aumenta seu ROI. Quando os dados estão dispersos em um ambiente de TI, as oportunidades de inovar podem ser extremamente restritas, caras e demoradas. A nuvem oferece novas oportunidades para centralizar dados. Quando a centralização de várias fontes de dados é necessária para construir com empatia do cliente, a nuvem pode acelerar o teste de hipóteses.
Atenção
A centralização de dados representa um ponto de risco em qualquer processo de inovação. Quando a centralização de dados é um pico técnico, e não uma fonte de valor para o cliente, sugerimos que você adie a centralização até que as hipóteses do cliente tenham sido validadas.
Quando você centraliza, precisa de um armazenamento de dados apropriado para os dados centralizados. É uma boa prática estabelecer um armazém de dados na nuvem. Esta opção escalável fornece uma localização central para todos os seus dados. Este tipo de solução está disponível nas opções de processamento analítico online (OLAP) ou big data.
As arquiteturas de referência para soluções OLAP e big data podem ajudá-lo a escolher a solução de centralização mais apropriada no Azure. Se uma solução híbrida for necessária, a arquitetura de referência para estender dados locais também pode ajudar a acelerar o desenvolvimento da solução.
Importante
Para algumas necessidades e soluções dos clientes, uma abordagem simples pode ser suficiente. O arquiteto de nuvem deve desafiar a equipe a considerar soluções de baixo custo para validar a hipótese do cliente, especialmente durante o desenvolvimento inicial. Esta seção sobre coleta de dados discute cenários que podem sugerir uma solução diferente para sua situação.
Recolher dados
As duas principais formas de recolha de dados são a integração e a ingestão.
Integração: os dados que residem em um armazenamento de dados existente podem ser integrados ao armazenamento de dados centralizado usando técnicas tradicionais de movimentação de dados. Isso é especialmente comum em cenários que envolvem armazenamento de dados em várias nuvens. Essas técnicas envolvem extrair os dados do armazenamento de dados existente e, em seguida, carregá-los no armazenamento de dados central. Em algum momento desse processo, os dados normalmente são transformados para serem mais utilizáveis e relevantes no armazenamento central.
As ferramentas baseadas na nuvem transformaram essas técnicas em ferramentas de pagamento por uso, reduzindo a barreira de entrada para coleta e centralização de dados. Ferramentas como o Serviço de Migração de Banco de Dados do Azure e o Azure Data Factory são dois exemplos. A arquitetura de referência para o Data Factory com um armazenamento de dados OLAP é um exemplo de uma dessas soluções.
Ingestão: alguns dados não residem em um armazenamento de dados existente. Quando esses dados transitórios são uma fonte primária de inovação, convém considerar abordagens alternativas. Dados transitórios podem ser encontrados em uma variedade de fontes existentes, como aplicativos, APIs, fluxos de dados, dispositivos IoT, blockchain, cache de aplicativos, conteúdo de mídia ou até mesmo em arquivos simples.
Você pode integrar essas várias formas de dados em um armazenamento de dados central em uma solução OLAP ou big data. No entanto, para as primeiras iterações do ciclo build-measure-learn, uma solução OLTP (processamento transacional online) pode ser suficiente para validar uma hipótese do cliente. As soluções OLTP não são a melhor opção para qualquer cenário de relatório. No entanto, quando você está construindo com empatia do cliente, é mais importante se concentrar nas necessidades do cliente do que nas decisões de ferramentas técnicas. Depois que a hipótese do cliente for validada em escala, uma plataforma mais adequada pode ser necessária. A arquitetura de referência em armazenamentos de dados OLTP pode ajudá-lo a determinar qual armazenamento de dados é mais apropriado para sua solução.
Virtualizar: A integração e a ingestão de dados podem, por vezes, atrasar a inovação. Quando uma solução para virtualização de dados já está disponível, ela pode representar uma abordagem mais razoável. A ingestão e a integração podem duplicar os requisitos de armazenamento e desenvolvimento, adicionar latência de dados, aumentar a área da superfície de ataque, desencadear problemas de qualidade e aumentar os esforços de governança. A virtualização de dados é uma alternativa mais contemporânea que deixa os dados originais em um único local e cria consultas de passagem ou em cache dos dados de origem.
O SQL Server 2017 e o SQL Data Warehouse do Azure oferecem suporte ao PolyBase, que é a abordagem à virtualização de dados mais comumente usada no Azure.
Próximos passos
Com uma estratégia para democratizar os dados, você desejará avaliar as abordagens para o desenvolvimento de aplicativos.