Compartilhar via


Democratizar dados com invenção digital

Carvão, petróleo e potencial humano foram os três ativos mais conseqüentes durante a revolução industrial. Esses ativos construíram empresas, mudaram os mercados e, finalmente, mudaram as nações. Na economia digital, há três ativos igualmente importantes para inovação: dados, dispositivos e potencial humano. Esses ativos detém um grande potencial de inovação. Para qualquer esforço de inovação na era moderna, os dados são o novo petróleo.

Em todas as empresas, há dados que podem ser usados para localizar e atender às necessidades do cliente. Infelizmente, o processo de mineração desses dados para impulsionar a inovação pode ser caro e demorado, portanto, as necessidades não são descobertas e as soluções não são criadas. A democratização de dados pode resolver esse problema.

O que é democratização de dados? É o processo de colocar dados nas mãos certas para impulsionar a inovação. Esse processo de democratização pode tomar várias formas, mas geralmente incluem soluções para dados brutos ingeridos ou integrados, centralização de dados, compartilhamento de dados e proteção de dados. Quando os dados são democratizados, especialistas em toda a empresa podem usá-los para formar e testar hipóteses. Em muitos casos, as equipes de adoção de nuvem podem construir com empatia pelos clientes usando apenas dados, para atender rapidamente às necessidades dos clientes.

Maneiras de democratizar dados

Há várias maneiras de democratizar dados, mas a maioria inclui métodos de coleta, centralização, governança e compartilhamento dos dados. As seções a seguir descrevem alguns desses métodos. Ao criar uma solução para uma hipótese do cliente, você deve avaliar se deseja democratizar os dados, até que ponto e como fazer isso.

O processo de democratização de dados mostra esses processos: governar, centralizar, coletar e compartilhar dados.

Compartilhar dados

Quando você constrói com empatia pelo cliente, as necessidades do cliente orientam a solução. Se a necessidade for de dados, a solução permitirá que o cliente interrogue, analise e relate os dados diretamente, sem suporte da equipe de TI.

Muitas inovações bem-sucedidas começam como um MVP (produto mínimo viável) que fornece dados ao cliente. Um MVP é uma versão do produto que tem recursos suficientes para ser utilizável pelo cliente. Ele mostra o possível potencial do produto para coletar comentários do cliente. Neste modelo de concierge, um funcionário é o consumidor de dados. Esse funcionário usa dados para ajudar o cliente. Cada vez que o cliente envolve suporte manual, uma hipótese pode ser testada e validada. Essa abordagem geralmente é um meio econômico de testar uma hipótese focada no cliente antes de investir fortemente em soluções integradas.

As principais ferramentas para compartilhar dados diretamente com consumidores de dados incluem relatórios de autoatendimento ou dados inseridos em outras experiências, usando ferramentas como o Power BI.

Observação

Antes de compartilhar dados, certifique-se de ter lido as seções a seguir. O compartilhamento de dados pode exigir governança para fornecer proteção para os dados. Além disso, se os dados abrangem várias nuvens, pode exigir centralização. Se os dados residem em aplicativos, você deve recolhê-los para compartilhá-los.

Controlar dados

O compartilhamento de dados pode produzir rapidamente um produto mínimo viável a ser usado em conversas com clientes. No entanto, para transformar esses dados compartilhados em conhecimento útil e acionável, mais é geralmente necessário.

Depois que uma hipótese é validada por meio do compartilhamento de dados, a próxima fase do desenvolvimento normalmente é a governança de dados.

A governança de dados é um tópico amplo que pode exigir sua própria estrutura dedicada, um assunto que está fora do escopo do Cloud Adoption Framework.

Há vários aspectos da governança de dados a serem considerados assim que você validar a hipótese do cliente. Por exemplo:

  • Os dados compartilhados são sensíveis?Os dados devem ser classificados antes de serem compartilhados publicamente para proteger os interesses dos clientes e da empresa.
  • Se os dados forem confidenciais, eles foram protegidos? A proteção de dados confidenciais é necessária para dados democratizados. A carga de trabalho de exemplo discutida na Proteção de soluções de dados fornece algumas referências para proteger dados.
  • Os dados são catalogados? Identificar a natureza dos auxílios de dados compartilhados no gerenciamento de dados de longo prazo. Ferramentas para documentar dados, como o Catálogo de Dados do Azure, facilitam muito esse processo na nuvem. As diretrizes sobre a anotação de dados e a documentação das fontes de dados podem acelerar o processo.

Quando a democratização dos dados for importante para uma hipótese focada no cliente, verifique se a governança dos dados compartilhados está no plano de lançamento. Isso protege clientes, consumidores de dados e a empresa.

Centralizar dados

A centralização de dados leva a relatórios mais significativos, garante que os mesmos dados estão disponíveis em toda a organização e aumenta o ROI. Quando os dados são dispersos em um ambiente de TI, as oportunidades para inovar podem ser extremamente restritas, caras e demoradas. A nuvem oferece novas oportunidades para centralizar dados. Quando a centralização de várias fontes de dados é necessária para criar com empatia do cliente, a nuvem pode acelerar o teste de hipóteses.

Cuidado

A centralização de dados representa um ponto de risco em qualquer processo de inovação. Quando a centralização de dados é um pico técnico e não uma fonte de valor do cliente, sugerimos que você atrase a centralização até que as hipóteses do cliente sejam validadas.

Ao centralizar, você precisa de um armazenamento de dados apropriado para os dados centralizados. É uma boa prática estabelecer um data warehouse na nuvem. Essa opção escalonável fornece um local central para todos os seus dados. Esse tipo de solução está disponível em opções de OLAP (processamento analítico online) ou big data.

As arquiteturas de referência para soluções OLAP e Big Data podem ajudá-lo a escolher a solução de centralização mais apropriada no Azure. Se uma solução híbrida for necessária, a arquitetura de referência para estender dados locais também poderá ajudar a acelerar o desenvolvimento da solução.

Importante

Para algumas necessidades e soluções do cliente, uma abordagem simples pode ser suficiente. O arquiteto de nuvem deve desafiar a equipe a considerar soluções de baixo custo para validar a hipótese do cliente, especialmente durante o desenvolvimento antecipado. Esta seção sobre a coleta de dados discute cenários que podem sugerir uma solução diferente para sua situação.

Coletar dados

As duas principais formas de coleta de dados são integração e ingestão.

Integração: Os dados que residem em um armazenamento de dados existente podem ser integrados ao armazenamento de dados centralizado usando técnicas tradicionais de movimentação de dados. Isso é especialmente comum para cenários que envolvem armazenamento de dados multinuvem. Essas técnicas envolvem extrair os dados do armazenamento de dados existente e, em seguida, carregá-los no armazenamento de dados central. Em algum momento desse processo, os dados normalmente são transformados para serem mais utilizáveis e relevantes no repositório central.

As ferramentas baseadas em nuvem transformaram essas técnicas em ferramentas de pagamento por uso, reduzindo a barreira à entrada para coleta e centralização de dados. Ferramentas como o Serviço de Migração de Banco de Dados do Azure e o Azure Data Factory são dois exemplos. A arquitetura de referência do Data Factory com um armazenamento de dados OLAP é um exemplo de uma dessas soluções.

Ingestão: Alguns dados não residem em um armazenamento de dados existente. Quando esses dados transitórios forem uma fonte primária de inovação, você desejará considerar abordagens alternativas. Dados transitórios podem ser encontrados em uma variedade de fontes existentes, como aplicativos, APIs, fluxos de dados, dispositivos IoT, um blockchain, um cache de aplicativos, em conteúdo de mídia ou até mesmo em arquivos simples.

Você pode integrar essas várias formas de dados em um armazenamento de dados central em uma solução OLAP ou Big Data. No entanto, para iterações iniciais do ciclo build-measure-learn, uma solução de OLTP (processamento transacional online) pode ser suficiente para validar uma hipótese do cliente. As soluções OLTP não são a melhor opção para qualquer cenário de relatório. No entanto, quando você está criando com empatia do cliente, é mais importante focar nas necessidades do cliente do que nas decisões técnicas de ferramentas. Depois que a hipótese do cliente for validada em escala, uma plataforma mais adequada poderá ser necessária. A arquitetura de referência em armazenamentos de dados OLTP pode ajudá-lo a determinar qual armazenamento de dados é mais apropriado para sua solução.

Virtualizar: A integração e a ingestão de dados às vezes podem diminuir a inovação. Quando uma solução para virtualização de dados já está disponível, ela pode representar uma abordagem mais razoável. A ingestão e a integração podem duplicar os requisitos de armazenamento e desenvolvimento, adicionar latência de dados, aumentar a área da superfície de ataque, disparar problemas de qualidade e aumentar os esforços de governança. A virtualização de dados é uma alternativa mais contemporânea que deixa os dados originais em um único local e cria consultas de passagem ou armazenadas em cache dos dados de origem.

O SQL Server 2017 e o SQL Data Warehouse do Azure dão suporte ao PolyBase, que é a abordagem para a virtualização de dados mais comumente usada no Azure.

Próximas etapas

Com uma estratégia para democratizar dados em vigor, em seguida, você desejará avaliar as abordagens para o desenvolvimento de aplicativos.