Além da migração do Oracle, implemente um armazém de dados moderno no Microsoft Azure

Este artigo é a parte sete de uma série de sete partes que fornece orientações sobre como migrar do Oracle para o Azure Synapse Analytics. O foco deste artigo são as melhores práticas para implementar armazéns de dados modernos.

Além da migração do armazém de dados para o Azure

Um dos principais motivos para migrar o armazém de dados existente para o Azure Synapse Analytics é utilizar uma base de dados analítica globalmente segura, dimensionável, de baixo custo, nativa da cloud e pay as you use. Com Azure Synapse, pode integrar o seu armazém de dados migrado com o ecossistema analítico completo do Microsoft Azure para tirar partido de outras tecnologias da Microsoft e modernizar o seu armazém de dados migrado. Estas tecnologias incluem:

  • Azure Data Lake Storage para ingestão de dados económica, teste, limpeza e transformação. Data Lake Storage pode libertar a capacidade do armazém de dados ocupada por tabelas de teste de crescimento rápido.

  • Azure Data Factory para integração colaborativa de TI e dados self-service com conectores para origens de dados na cloud e no local e dados de transmissão em fluxo.

  • Common Data Model para partilhar dados fidedignos consistentes em várias tecnologias, incluindo:

    • Azure Synapse
    • Azure Synapse Spark
    • Azure HDInsight
    • Power BI
    • Adobe Customer Experience Platform
    • Azure IoT
    • Parceiros do Microsoft ISV
  • Tecnologias de ciência de dados da Microsoft, incluindo:

    • Azure Machine Learning studio
    • Azure Machine Learning
    • Azure Synapse Spark (Spark como um serviço)
    • Jupyter Notebooks
    • RStudio
    • ML.NET
    • .NET para Apache Spark, que permite que os cientistas de dados utilizem Azure Synapse dados para preparar modelos de machine learning em escala.
  • O Azure HDInsight para processar grandes quantidades de dados e associar macrodados a Azure Synapse dados através da criação de um armazém de dados lógico com o PolyBase.

  • Hubs de Eventos do Azure, Azure Stream Analytics e Apache Kafka para integrar dados de transmissão em fluxo em direto a partir de Azure Synapse.

O crescimento dos macrodados levou a uma procura aguda de machine learning para permitir a utilização de modelos de machine learning personalizados e preparados no Azure Synapse. Os modelos de machine learning permitem que a análise na base de dados seja executada em escala em lotes, numa base condicionada por eventos e a pedido. A capacidade de tirar partido da análise na base de dados no Azure Synapse a partir de várias ferramentas e aplicações de BI também garante predições e recomendações consistentes.

Além disso, pode integrar Azure Synapse com as ferramentas de parceiros da Microsoft no Azure para reduzir o tempo ao valor.

Vejamos mais detalhadamente como pode tirar partido das tecnologias no ecossistema analítico da Microsoft para modernizar o seu armazém de dados depois de migrar para Azure Synapse.

Descarregar teste de dados e processamento etl para Data Lake Storage e Data Factory

A transformação digital criou um desafio fundamental para as empresas ao gerar uma torrente de novos dados para captura e análise. Um bom exemplo são os dados de transação criados ao abrir sistemas de processamento transacional online (OLTP) para aceder ao serviço a partir de dispositivos móveis. Grande parte destes dados entra em armazéns de dados e os sistemas OLTP são a principal origem. Com os clientes a impulsionarem a taxa de transação em vez dos colaboradores, o volume de dados nas tabelas de teste do armazém de dados tem vindo a crescer rapidamente.

Com o rápido afluxo de dados para a empresa, juntamente com novas origens de dados como a Internet das Coisas (IoT), as empresas têm de encontrar formas de aumentar verticalmente o processamento etl de integração de dados. Um método consiste em descarregar ingestão, limpeza de dados, transformação e integração num data lake e processar dados em escala, como parte de um programa de modernização do armazém de dados.

Depois de migrar o armazém de dados para Azure Synapse, a Microsoft pode modernizar o processamento etl ao ingerir e testar dados no Data Lake Storage. Em seguida, pode limpar, transformar e integrar os seus dados em escala com o Data Factory antes de os carregar para Azure Synapse em paralelo com o PolyBase.

Para estratégias ELT, considere descarregar o processamento ELT para Data Lake Storage para dimensionar facilmente à medida que o volume de dados ou a frequência aumenta.

Microsoft Azure Data Factory

Azure Data Factory é um serviço de integração de dados híbridos pay as you use para processamento de ETL e ELT altamente dimensionável. O Data Factory fornece uma IU baseada na Web para criar pipelines de integração de dados sem código. Com o Data Factory, pode:

  • Criar pipelines de integração de dados dimensionáveis sem código.

  • Adquirir facilmente dados em escala.

  • Pague apenas por aquilo que utiliza.

  • Ligue-se a origens de dados no local, na cloud e baseadas em SaaS.

  • Ingerir, mover, limpar, transformar, integrar e analisar dados na cloud e no local em escala.

  • Crie, monitorize e faça a gestão totalmente integrada de pipelines que abrangem arquivos de dados no local e na cloud.

  • Ative o aumento horizontal pay as you go em conformidade com o crescimento do cliente.

Pode utilizar estas funcionalidades sem escrever código ou pode adicionar código personalizado aos pipelines do Data Factory. A seguinte captura de ecrã mostra um exemplo de pipeline do Data Factory.

Captura de ecrã a mostrar um exemplo de um pipeline do Data Factory.

Dica

O Data Factory permite-lhe criar pipelines de integração de dados dimensionáveis sem código.

Implementar o desenvolvimento de pipelines do Data Factory a partir de qualquer um dos vários locais, incluindo:

  • Microsoft portal do Azure.

  • Microsoft Azure PowerShell.

  • Programaticamente a partir de .NET e Python com um SDK de várias linguagens.

  • Modelos do Azure Resource Manager (ARM).

  • APIs REST.

Dica

O Data Factory pode ligar-se a dados no local, na cloud e SaaS.

Os programadores e cientistas de dados que preferem escrever código podem criar facilmente pipelines do Data Factory em Java, Python e .NET com os kits de desenvolvimento de software (SDKs) disponíveis para essas linguagens de programação. Os pipelines do Data Factory podem ser pipelines de dados híbridos porque podem ligar, ingerir, limpar, transformar e analisar dados em datacenters no local, Microsoft Azure, outras clouds e ofertas SaaS.

Depois de desenvolver pipelines do Data Factory para integrar e analisar dados, pode implementar esses pipelines globalmente e agende-os para serem executados em lote, invocá-los a pedido como um serviço ou executá-los em tempo real numa base condicionada por eventos. Um pipeline do Data Factory também pode ser executado num ou mais motores de execução e monitorizar a execução para garantir o desempenho e controlar erros.

Dica

No Azure Data Factory, os pipelines controlam a integração e a análise de dados. O Data Factory é um software de integração de dados de classe empresarial destinado a profissionais de TI e tem capacidade de data wrangling para utilizadores empresariais.

Casos de utilização

O Data Factory suporta vários casos de utilização, tais como:

  • Prepare, integre e enriqueça dados de origens de dados na cloud e no local para preencher o armazém de dados migrado e os data marts no Microsoft Azure Synapse.

  • Preparar, integrar e enriquecer dados de origens de dados na cloud e no local para produzir dados de preparação para utilização no desenvolvimento de modelos de machine learning e na nova preparação de modelos analíticos.

  • Orquestrar a preparação e análise de dados para criar pipelines analíticos preditivos e prescritivos para processamento e análise de dados em lotes, como análise de sentimentos. Aja com base nos resultados da análise ou preencha o armazém de dados com os resultados.

  • Preparar, integrar e enriquecer dados para aplicações empresariais condicionadas por dados em execução na cloud do Azure com base em arquivos de dados operacionais, como o Azure Cosmos DB.

Dica

Crie conjuntos de dados de preparação na ciência de dados para desenvolver modelos de machine learning.

Origens de dados

O Data Factory permite-lhe utilizar conectores de origens de dados na cloud e no local. O software de agente, conhecido como runtime de integração autoalojado, acede de forma segura às origens de dados no local e suporta a transferência de dados segura e dimensionável.

Transformar dados com Azure Data Factory

Num pipeline do Data Factory, pode ingerir, limpar, transformar, integrar e analisar qualquer tipo de dados destas origens. Os dados podem ser estruturados, semiestruturados, como JSON ou Avro, ou não estruturados.

Sem escrever código, os programadores profissionais de ETL podem utilizar fluxos de dados de mapeamento do Data Factory para filtrar, dividir, associar vários tipos, procurar, dinamizar, anular dinamização, ordenar, união e agregar dados. Além disso, o Data Factory suporta chaves de substituição, múltiplas opções de processamento de escrita, como inserir, upsert, atualização, recreação de tabelas e truncagem de tabelas e vários tipos de arquivos de dados de destino, também conhecidos como sinks. Os programadores de ETL também podem criar agregações, incluindo agregações de série temporal que exigem que uma janela seja colocada em colunas de dados.

Dica

Os programadores profissionais de ETL podem utilizar fluxos de dados de mapeamento do Data Factory para limpar, transformar e integrar dados sem a necessidade de escrever código.

Pode executar fluxos de dados de mapeamento que transformam dados como atividades num pipeline do Data Factory e, se necessário, pode incluir vários fluxos de dados de mapeamento num único pipeline. Desta forma, pode gerir a complexidade ao dividir tarefas de integração e transformação de dados desafiantes em fluxos de dados de mapeamento mais pequenos que podem ser combinados. Além disso, pode adicionar código personalizado quando necessário. Além desta funcionalidade, os fluxos de dados de mapeamento do Data Factory incluem a capacidade de:

  • Defina expressões para limpar e transformar dados, agregações de computação e melhorar os dados. Por exemplo, estas expressões podem executar engenharia de funcionalidades num campo de data para a dividir em vários campos para criar dados de preparação durante o desenvolvimento de modelos de machine learning. Pode construir expressões a partir de um conjunto avançado de funções que incluem matemática, temporal, divisão, intercalação, concatenação de cadeias, condições, correspondência de padrões, substituição e muitas outras funções.

  • Processe automaticamente o desfasamento do esquema para que os pipelines de transformação de dados possam evitar ser afetados por alterações de esquema nas origens de dados. Esta capacidade é especialmente importante para a transmissão em fluxo de dados IoT, em que as alterações de esquema podem ocorrer sem aviso prévio se os dispositivos são atualizados ou quando as leituras são perdidas por dispositivos de gateway que recolhem dados IoT.

  • Dados de partição para permitir que as transformações sejam executadas em paralelo em escala.

  • Inspecione os dados de transmissão em fluxo para ver os metadados de um fluxo que está a transformar.

Dica

O Data Factory suporta a capacidade de detetar e gerir automaticamente alterações de esquema em dados de entrada, como em dados de transmissão em fluxo.

A captura de ecrã seguinte mostra um fluxo de dados de mapeamento do Data Factory de exemplo.

Captura de ecrã a mostrar um exemplo de um fluxo de dados de mapeamento do Data Factory.

Os engenheiros de dados podem criar perfis de qualidade de dados e ver os resultados de transformações de dados individuais ao ativar a capacidade de depuração durante o desenvolvimento.

Dica

O Data Factory também pode criar partições de dados para permitir que o processamento ETL seja executado em escala.

Se necessário, pode expandir a funcionalidade de transformação e análise do Data Factory ao adicionar um serviço ligado que contém o código num pipeline. Por exemplo, um bloco de notas do conjunto de Azure Synapse Spark pode conter código Python que utiliza um modelo preparado para classificar os dados integrados por um fluxo de dados de mapeamento.

Pode armazenar dados integrados e quaisquer resultados da análise num pipeline do Data Factory num ou mais arquivos de dados, como Data Lake Storage, Azure Synapse ou tabelas do Hive no HDInsight. Também pode invocar outras atividades para atuar em informações produzidas por um pipeline analítico do Data Factory.

Dica

Os pipelines do Data Factory são extensíveis porque o Data Factory permite-lhe escrever o seu próprio código e executá-lo como parte de um pipeline.

Utilizar o Spark para dimensionar a integração de dados

No tempo de execução, o Data Factory utiliza internamente Azure Synapse conjuntos do Spark, que são o Spark da Microsoft como uma oferta de serviço, para limpar e integrar dados na cloud do Azure. Pode limpar, integrar e analisar dados de alto volume e de alta velocidade, como dados de fluxo de cliques, em escala. A intenção da Microsoft é também executar pipelines do Data Factory noutras distribuições do Spark. Além de executar tarefas ETL no Spark, o Data Factory pode invocar scripts pig e consultas do Hive para aceder e transformar dados armazenados no HDInsight.

O data wrangling permite que os utilizadores empresariais, também conhecidos como integradores de dados de cidadãos e engenheiros de dados, utilizem a plataforma para detetar, explorar e preparar dados visualmente em escala sem escrever código. Esta capacidade do Data Factory é fácil de utilizar e é semelhante aos fluxos de dados do Microsoft Excel Power Query ou microsoft Power BI, onde os utilizadores empresariais self-service utilizam uma IU de estilo folha de cálculo com transformações pendentes para preparar e integrar dados. A captura de ecrã seguinte mostra um exemplo de fluxo de dados do Data Factory.

Captura de ecrã a mostrar um exemplo de fluxos de dados de wrangling do Data Factory.

Ao contrário do Excel e do Power BI, os fluxos de dados de wrangling do Data Factory utilizam Power Query para gerar código M e, em seguida, traduzê-lo numa tarefa do Spark em memória paralela em massa para execução à escala da cloud. A combinação de fluxos de dados de mapeamento e fluxos de dados de wrangling no Data Factory permite que programadores profissionais de ETL e utilizadores empresariais colaborem para preparar, integrar e analisar dados para uma finalidade empresarial comum. O diagrama de fluxos de dados de mapeamento do Data Factory anterior mostra como os blocos de notas do conjunto de dados do Data Factory e do Azure Synapse Spark podem ser combinados no mesmo pipeline do Data Factory. A combinação de fluxos de dados de mapeamento e wrangling no Data Factory ajuda os utilizadores de TI e empresas a manterem-se atentos aos fluxos de dados que cada um criou e suporta a reutilização do fluxo de dados para minimizar a reinvenção e maximizar a produtividade e consistência.

Dica

O Data Factory suporta fluxos de dados de wrangling e fluxos de dados de mapeamento, para que os utilizadores empresariais e os utilizadores de TI possam integrar dados em colaboração numa plataforma comum.

Além de limpar e transformar dados, o Data Factory pode combinar a integração e análise de dados no mesmo pipeline. Pode utilizar o Data Factory para criar a integração de dados e os pipelines analíticos, sendo este último uma extensão do primeiro. Pode largar um modelo analítico num pipeline para criar um pipeline analítico que gere dados limpos e integrados para predições ou recomendações. Em seguida, pode agir de imediato sobre as predições ou recomendações ou armazená-las no seu armazém de dados para fornecer novas informações e recomendações que podem ser vistas nas ferramentas de BI.

Para classificar os seus dados em lote, pode desenvolver um modelo analítico que invoca como um serviço num pipeline do Data Factory. Pode desenvolver modelos analíticos sem código com estúdio do Azure Machine Learning ou com o SDK do Azure Machine Learning com Azure Synapse blocos de notas do conjunto do Spark ou R no RStudio. Quando executa pipelines de machine learning do Spark em Azure Synapse blocos de notas do conjunto do Spark, a análise ocorre em escala.

Pode armazenar dados integrados e qualquer pipeline analítico do Data Factory resulta num ou mais arquivos de dados, como Data Lake Storage, Azure Synapse ou tabelas do Hive no HDInsight. Também pode invocar outras atividades para atuar em informações produzidas por um pipeline analítico do Data Factory.

Utilizar uma base de dados lake para partilhar dados fidedignos consistentes

Um dos principais objetivos de qualquer configuração de integração de dados é a capacidade de integrar dados uma vez e reutilizá-los em todo o lado e não apenas num armazém de dados. Por exemplo, poderá querer utilizar dados integrados na ciência de dados. A reutilização evita a reinvenção e garante dados consistentes e geralmente compreendidos em que todos podem confiar.

O Common Data Model descreve as entidades de dados principais que podem ser partilhadas e reutilizadas em toda a empresa. Para obter a reutilização, o Common Data Model estabelece um conjunto de nomes e definições de dados comuns que descrevem entidades de dados lógicos. Exemplos de nomes de dados comuns incluem Cliente, Conta, Produto, Fornecedor, Encomendas, Pagamentos e Devoluções. Os profissionais de TI e de negócios podem utilizar software de integração de dados para criar e armazenar recursos de dados comuns para maximizar a sua reutilização e impulsionar a consistência em todo o lado.

Azure Synapse fornece modelos de base de dados específicos do setor para ajudar a uniformizar os dados no lago. Os modelos de base de dados lake fornecem esquemas para áreas de negócio predefinidas, permitindo que os dados sejam carregados para uma base de dados lake de forma estruturada. A energia surge quando utiliza software de integração de dados para criar recursos de dados comuns da base de dados lake, o que resulta na auto-descrição de dados fidedignos que podem ser consumidos por aplicações e sistemas analíticos. Pode criar recursos de dados comuns no Data Lake Storage com o Data Factory.

Dica

Data Lake Storage é o armazenamento partilhado que sustenta o Microsoft Azure Synapse, o Azure Machine Learning, o Azure Synapse Spark e o HDInsight.

O Power BI, Azure Synapse Spark, Azure Synapse e Azure Machine Learning podem consumir recursos de dados comuns. O diagrama seguinte mostra como uma base de dados lake pode ser utilizada no Azure Synapse.

Captura de ecrã a mostrar como uma base de dados lake pode ser utilizada no Azure Synapse.

Dica

Integre dados para criar entidades lógicas de base de dados lake no armazenamento partilhado para maximizar a reutilização de recursos de dados comuns.

Integração com tecnologias de ciência de dados da Microsoft no Azure

Outro objetivo fundamental ao modernizar um armazém de dados é produzir informações para uma vantagem competitiva. Pode produzir informações ao integrar o seu armazém de dados migrado com a Microsoft e tecnologias de ciência de dados de terceiros no Azure. As secções seguintes descrevem as tecnologias de machine learning e ciência de dados oferecidas pela Microsoft para ver como podem ser utilizadas com Azure Synapse num ambiente de armazém de dados moderno.

Tecnologias da Microsoft para ciência de dados no Azure

A Microsoft oferece uma variedade de tecnologias que suportam análises avançadas. Com estas tecnologias, pode criar modelos analíticos preditivos com machine learning ou analisar dados não estruturados com aprendizagem profunda. As tecnologias incluem:

  • Azure Machine Learning studio

  • Azure Machine Learning

  • Azure Synapse blocos de notas do conjunto do Spark

  • ML.NET (API, CLI ou ML.NET Model Builder para Visual Studio)

  • .NET para Apache Spark

Os cientistas de dados podem utilizar o RStudio (R) e o Jupyter Notebooks (Python) para desenvolver modelos analíticos ou podem utilizar arquiteturas como o Keras ou o TensorFlow.

Dica

Desenvolva modelos de machine learning com uma abordagem sem código baixo ou utilizando linguagens de programação como Python, R e .NET.

Azure Machine Learning studio

estúdio do Azure Machine Learning é um serviço cloud totalmente gerido que lhe permite criar, implementar e partilhar análises preditivas com uma IU baseada na Web de arrastar e largar. A seguinte captura de ecrã mostra a IU do estúdio do Azure Machine Learning.

Captura de ecrã a mostrar a análise preditiva na IU do estúdio do Azure Machine Learning.

Azure Machine Learning

O Azure Machine Learning fornece um SDK e serviços para Python que o suportam, podendo ajudá-lo a preparar rapidamente dados e a preparar e implementar modelos de machine learning. Pode utilizar o Azure Machine Learning em blocos de notas do Azure com Jupyter Notebook, com arquiteturas open source, como pyTorch, TensorFlow, scikit-learn ou Spark MLlib, a biblioteca de machine learning do Spark. O Azure Machine Learning fornece uma capacidade autoML que testa automaticamente vários algoritmos para identificar os algoritmos mais precisos para acelerar o desenvolvimento de modelos.

Dica

O Azure Machine Learning fornece um SDK para desenvolver modelos de machine learning com várias arquiteturas open source.

Também pode utilizar o Azure Machine Learning para criar pipelines de machine learning que gerem o fluxo de trabalho ponto a ponto, dimensionam programaticamente na cloud e implementam modelos na cloud e no edge. O Azure Machine Learning contém áreas de trabalho, que são espaços lógicos que pode criar programaticamente ou manualmente no portal do Azure. Estas áreas de trabalho mantêm destinos de computação, experimentações, arquivos de dados, modelos de machine learning preparados, imagens do Docker e serviços implementados num único local para permitir que as equipas trabalhem em conjunto. Pode utilizar o Azure Machine Learning no Visual Studio com a extensão do Visual Studio para IA.

Dica

Organizar e gerir arquivos de dados relacionados, experimentações, modelos preparados, imagens do Docker e serviços implementados em áreas de trabalho.

Azure Synapse blocos de notas do conjunto do Spark

Um bloco de notas do conjunto de Azure Synapse Spark é um serviço Apache Spark otimizado para o Azure. Com Azure Synapse blocos de notas do conjunto do Spark:

  • Os engenheiros de dados podem criar e executar tarefas de preparação de dados dimensionáveis com o Data Factory.

  • Os cientistas de dados podem criar e executar modelos de machine learning em escala com blocos de notas escritos em linguagens como Scala, R, Python, Java e SQL para visualizar resultados.

Dica

Azure Synapse Spark é uma oferta dinâmicamente dimensionável do Spark como serviço da Microsoft, o Spark oferece uma execução dimensionável de preparação de dados, desenvolvimento de modelos e execução de modelos implementados.

Os trabalhos em execução no Azure Synapse blocos de notas de conjuntos do Spark podem obter, processar e analisar dados em escala a partir de Armazenamento de Blobs do Azure, Data Lake Storage, Azure Synapse, HDInsight e serviços de dados de transmissão em fluxo, como o Apache Kafka.

Dica

Azure Synapse Spark pode aceder a dados numa série de arquivos de dados do ecossistema analítico da Microsoft no Azure.

Azure Synapse blocos de notas de conjuntos do Spark suportam o dimensionamento automático e a terminação automática para reduzir o custo total de propriedade (TCO). Os cientistas de dados podem utilizar a arquitetura open source do MLflow para gerir o ciclo de vida de machine learning.

ML.NET

ML.NET é uma arquitetura de machine learning multiplataforma open source para Windows, Linux e macOS. A Microsoft criou ML.NET para que os programadores de .NET possam utilizar ferramentas existentes, como o ML.NET Model Builder para Visual Studio, para desenvolver modelos de machine learning personalizados e integrá-los nas respetivas aplicações .NET.

Dica

A Microsoft alargou a sua capacidade de machine learning aos programadores de .NET.

.NET para Apache Spark

O .NET para Apache Spark expande o suporte do Spark para além de R, Scala, Python e Java para .NET e tem como objetivo tornar o Spark acessível para programadores .NET em todas as APIs do Spark. Embora o .NET para Apache Spark esteja atualmente disponível apenas no Apache Spark no HDInsight, a Microsoft pretende disponibilizar o .NET para o Apache Spark nos blocos de notas do conjunto de Azure Synapse Spark.

Utilizar o Azure Synapse Analytics com o armazém de dados

Para combinar modelos de machine learning com Azure Synapse, pode:

  • Utilize modelos de machine learning em lotes ou em tempo real em dados de transmissão em fluxo para produzir novas informações e adicionar essas informações ao que já sabe no Azure Synapse.

  • Utilize os dados no Azure Synapse para desenvolver e preparar novos modelos preditivos para implementação noutro local, como noutras aplicações.

  • Implemente modelos de machine learning, incluindo modelos preparados noutro local, no Azure Synapse para analisar dados no seu armazém de dados e impulsionar um novo valor comercial.

Dica

Preparar, testar, avaliar e executar modelos de machine learning em escala no Azure Synapse blocos de notas de conjuntos do Spark com dados no Azure Synapse.

Os cientistas de dados podem utilizar o RStudio, o Jupyter Notebooks e Azure Synapse blocos de notas de conjuntos do Spark juntamente com o Azure Machine Learning para desenvolver modelos de machine learning que são executados em escala no Azure Synapse blocos de notas de conjuntos do Spark com dados no Azure Synapse. Por exemplo, os cientistas de dados podem criar um modelo não supervisionado para segmentar clientes para impulsionar diferentes campanhas de marketing. Utilize machine learning supervisionado para preparar um modelo para prever um resultado específico, como prever a propensão de um cliente para alterações ou recomendar a próxima melhor oferta para um cliente tentar aumentar o valor. O diagrama seguinte mostra como Azure Synapse pode ser utilizado para o Azure Machine Learning.

Captura de ecrã a mostrar uma Azure Synapse preparar e prever o modelo.

Noutro cenário, pode ingerir a rede social ou rever os dados do site em Data Lake Storage e, em seguida, preparar e analisar os dados em escala num bloco de notas de conjunto do Azure Synapse Spark através do processamento de linguagem natural para classificar o sentimento dos clientes sobre os seus produtos ou marca. Em seguida, pode adicionar essas classificações ao seu armazém de dados. Ao utilizar a análise de macrodados para compreender o efeito do sentimento negativo nas vendas de produtos, adiciona ao que já sabe no seu armazém de dados.

Dica

Produza novas informações com machine learning no Azure em lote ou em tempo real e adicione ao que sabe no seu armazém de dados.

Integrar dados de transmissão em fluxo em direto no Azure Synapse Analytics

Ao analisar dados num armazém de dados moderno, tem de conseguir analisar os dados de transmissão em fluxo em tempo real e associá-los a dados históricos no seu armazém de dados. Um exemplo é combinar dados de IoT com dados de produtos ou recursos.

Dica

Integre o armazém de dados com dados de transmissão em fluxo de dispositivos IoT ou cliques.

Depois de migrar com êxito o armazém de dados para Azure Synapse, pode introduzir a integração de dados de transmissão em fluxo em direto como parte de um exercício de modernização do armazém de dados ao tirar partido das funcionalidades adicionais no Azure Synapse. Para tal, ingira dados de transmissão em fluxo através dos Hubs de Eventos, de outras tecnologias como o Apache Kafka ou, potencialmente, da ferramenta ETL existente, se suportar as origens de dados de transmissão em fluxo. Armazene os dados no Data Lake Storage. Em seguida, crie uma tabela externa no Azure Synapse com o PolyBase e aponte-a para os dados que estão a ser transmitidos para Data Lake Storage para que o armazém de dados contenha agora novas tabelas que fornecem acesso aos dados de transmissão em fluxo em tempo real. Consulte a tabela externa como se os dados estavam no armazém de dados através do T-SQL padrão a partir de qualquer ferramenta de BI que tenha acesso a Azure Synapse. Também pode associar os dados de transmissão em fluxo a outras tabelas com dados históricos para criar vistas que associem dados de transmissão em fluxo em direto a dados históricos para facilitar o acesso dos utilizadores empresariais aos dados.

Dica

Ingerir dados de transmissão em fluxo para Data Lake Storage a partir dos Hubs de Eventos ou do Apache Kafka e aceder aos dados a partir de Azure Synapse através de tabelas externas do PolyBase.

No diagrama seguinte, um armazém de dados em tempo real no Azure Synapse está integrado com dados de transmissão em fluxo no Data Lake Storage.

Captura de ecrã a mostrar Azure Synapse com dados de transmissão em fluxo no Data Lake Storage.

Criar um armazém de dados lógico com o PolyBase

Com o PolyBase, pode criar um armazém de dados lógico para simplificar o acesso do utilizador a vários arquivos de dados analíticos. Muitas empresas adotaram arquivos de dados analíticos "otimizados para cargas de trabalho" ao longo dos últimos anos, além dos respetivos armazéns de dados. As plataformas analíticas no Azure incluem:

  • Data Lake Storage com Azure Synapse bloco de notas de conjunto do Spark (Spark como um serviço), para análise de macrodados.

  • HDInsight (Hadoop como um serviço), também para análise de macrodados.

  • Bases de dados do NoSQL Graph para análise de gráficos, o que pode ser feito no Azure Cosmos DB.

  • Hubs de Eventos e Stream Analytics, para análise em tempo real dos dados em movimento.

Pode ter equivalentes não Microsoft destas plataformas ou um sistema de gestão de dados principal (MDM) que precisa de ser acedido para dados fidedignos consistentes em clientes, fornecedores, produtos, recursos e muito mais.

Dica

O PolyBase simplifica o acesso a vários arquivos de dados analíticos subjacentes no Azure para facilitar o acesso por parte dos utilizadores empresariais.

Essas plataformas analíticas surgiram devido à explosão de novas origens de dados dentro e fora da empresa e à procura por parte dos utilizadores empresariais para capturar e analisar os novos dados. As novas origens de dados incluem:

  • Dados gerados por máquinas, como dados do sensor IoT e dados de transmissão em fluxo.

  • Os dados gerados por humanos, como dados de redes sociais, analisam os dados do web site, o e-mail de entrada do cliente, as imagens e o vídeo.

  • Outros dados externos, como dados governamentais abertos e dados meteorológicos.

Estes novos dados vão além dos dados de transação estruturados e das principais origens de dados que normalmente alimentam armazéns de dados e incluem frequentemente:

  • Dados semiestruturados como JSON, XML ou Avro.
  • Dados não estruturados, como texto, voz, imagem ou vídeo, que é mais complexo de processar e analisar.
  • Dados de volume elevado, dados de alta velocidade ou ambos.

Como resultado, surgiram novos tipos de análise mais complexos, como o processamento de linguagem natural, a análise de grafos, a aprendizagem profunda, a análise de transmissão em fluxo ou a análise complexa de grandes volumes de dados estruturados. Normalmente, estes tipos de análise não ocorrem num armazém de dados, pelo que não é surpreendente ver diferentes plataformas analíticas para diferentes tipos de cargas de trabalho analíticas, conforme mostrado no diagrama seguinte.

Captura de ecrã de diferentes plataformas analíticas para diferentes tipos de cargas de trabalho analíticas no Azure Synapse.

Dica

A capacidade de fazer com que os dados em vários arquivos de dados analíticos pareçam estar todos num único sistema e associá-lo a Azure Synapse é conhecida como uma arquitetura de armazém de dados lógico.

Uma vez que estas plataformas produzem novas informações, é normal ver um requisito para combinar as novas informações com o que já sabe no Azure Synapse, que é o que o PolyBase torna possível.

Ao utilizar a virtualização de dados do PolyBase dentro de Azure Synapse, pode implementar um armazém de dados lógico onde os dados no Azure Synapse estão associados a dados noutros arquivos de dados analíticos do Azure e no local, como o HDInsight, o Azure Cosmos DB ou a transmissão de dados em fluxo para Data Lake Storage a partir do Stream Analytics ou dos Hubs de Eventos. Esta abordagem reduz a complexidade dos utilizadores, que acedem a tabelas externas no Azure Synapse e não precisam de saber que os dados a que estão a aceder estão armazenados em vários sistemas analíticos subjacentes. O diagrama seguinte mostra uma estrutura complexa do armazém de dados acedida através de métodos de IU comparativamente mais simples, mas ainda poderosos.

Captura de ecrã a mostrar um exemplo de uma estrutura complexa do armazém de dados acedida através de métodos de IU.

O diagrama mostra como outras tecnologias no ecossistema analítico da Microsoft podem ser combinadas com a capacidade da arquitetura do armazém de dados lógico no Azure Synapse. Por exemplo, pode ingerir dados em Data Lake Storage e organizar os dados com o Data Factory para criar produtos de dados fidedignos que representam entidades de dados lógicos da base de dados do Microsoft Lake. Estes dados fidedignos, normalmente compreendidos, podem ser consumidos e reutilizados em diferentes ambientes analíticos, como Azure Synapse, Azure Synapse blocos de notas de conjuntos do Spark ou no Azure Cosmos DB. Todas as informações produzidas nestes ambientes são acessíveis através de uma camada de virtualização de dados do armazém de dados lógica possibilitada pelo PolyBase.

Dica

Uma arquitetura de armazém de dados lógico simplifica o acesso dos utilizadores empresariais aos dados e adiciona um novo valor ao que já sabe no seu armazém de dados.

Conclusões

Depois de migrar o armazém de dados para Azure Synapse, pode tirar partido de outras tecnologias no ecossistema analítico da Microsoft. Ao fazê-lo, não só moderniza o seu armazém de dados, como também traz informações produzidas noutros arquivos de dados analíticos do Azure para uma arquitetura analítica integrada.

Pode alargar o processamento etl para ingerir dados de qualquer tipo em Data Lake Storage e, em seguida, preparar e integrar os dados em escala com o Data Factory para produzir recursos de dados fidedignos e geralmente compreendidos. Esses recursos podem ser consumidos pelo seu armazém de dados e acedidos por cientistas de dados e outras aplicações. Pode criar pipelines analíticos em tempo real e orientados para lotes e criar modelos de machine learning para serem executados em lotes, em tempo real em dados de transmissão em fluxo e a pedido como um serviço.

Pode utilizar o PolyBase ou COPY INTO ir além do seu armazém de dados para simplificar o acesso às informações de várias plataformas analíticas subjacentes no Azure. Para tal, crie vistas integradas holísticas num armazém de dados lógico que suportem o acesso à transmissão em fluxo, macrodados e informações tradicionais do armazém de dados a partir de ferramentas e aplicações de BI.

Ao migrar o armazém de dados para Azure Synapse, pode tirar partido do ecossistema analítico da Microsoft avançado em execução no Azure para impulsionar um novo valor na sua empresa.

Passos seguintes

Para saber mais sobre como migrar para um conjunto de SQL dedicado, veja Migrar um armazém de dados para um conjunto de SQL dedicado no Azure Synapse Analytics.