Visão geral e arquitetura das funcionalidades de CDA do SAP

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!

Saiba mais sobre as funcionalidades de CDA (captura de dados de alterações) do SAP no Azure Data Factory e entenda a arquitetura.

O Azure Data Factory é um PaaS (plataforma como serviço) de integração de dados de ETL e ELT. Para integração de dados SAP, o Data Factory oferece atualmente seis conectores de disponibilidade geral:

Screenshot of the six general availability connectors for SAP systems in Data Factory.

Necessidades de extração de dados

Os conectores SAP no Data Factory extraem dados de origem SAP somente em lotes. Cada lote processa os dados novos e existentes da mesma forma. Na extração de dados no modo de lote, as alterações entre conjuntos de dados novos e existentes não são identificadas. Esse tipo de modo de extração não é ideal quando você tem grandes conjuntos de dados, como tabelas que têm milhões ou bilhões de registros que mudam com frequência.

Você pode manter sua cópia de dados SAP atualizada extraindo frequentemente o conjunto de dados completo, mas essa abordagem é cara e ineficiente. Você também pode usar uma solução alternativa manual limitada para extrair principalmente registros novos ou atualizados. Em um processo chamado marca d'água, a extração exige o uso de uma coluna de carimbo de data/hora, o aumento monótono de valores e o acompanhamento contínuo do valor mais alto desde a última extração. Mas algumas tabelas não têm uma coluna que você pode usar para aplicar a marca d'água. Esse processo também não identifica um registro excluído como uma alteração no conjunto de dados.

Funcionalidades de CDA do SAP

Os clientes da Microsoft indicam que precisam de um conector que possa extrair apenas o delta entre dois conjuntos de dados. Nos dados, um delta é qualquer alteração em um conjunto de dados que seja resultado de uma atualização, inserção ou exclusão no conjunto de dados. Um conector de extração delta usa o recurso SAP CDC (captura de dados de alteração) que existe na maioria dos sistemas SAP para determinar o delta em um conjunto de dados. As funcionalidades de CDA do SAP no Data Factory usa a estrutura ODP (Provisionamento de Dados Operacionais) do SAP para replicar o delta em um conjunto de dados de origem do SAP.

Este artigo fornece uma arquitetura de alto nível das funcionalidades de CDA do SAP no Azure Data Factory. Obtenha mais informações sobre as funcionalidades de CDA do SAP:

Como usar as funcionalidades de CDA do SAP

O conector SAP CDC é o núcleo das funcionalidades do SAP CDC. Ele pode se conectar a todos os sistemas SAP que dão suporte ao ODP, que inclui SAP ECC, SAP S/4HANA, SAP BW e SAP BW/4HANA. A solução funciona diretamente na camada do aplicativo ou indiretamente por meio de um SLT (SAP Landscape Transformation Replication Server) como um proxy. Ele não depende da marca d'água para extrair dados do SAP de forma completa ou incremental. Os dados extraídos pelo conector de CDA do SAP incluem não apenas tabelas físicas, mas também objetos lógicos que são criados usando as tabelas. Um exemplo de um objeto baseado em tabela é uma exibição CDS (Core Data Services) de SAP Advanced Business Application Programming (ABAP).

Use o conector de CDA do SAP com recursos do Data Factory, como atividades de fluxo de dados de mapeamento e gatilhos periódicos para uma solução de replicação de CDA do SAP de baixa latência em um pipeline autogerenciado.

A arquitetura de CDA do SAP

A solução SAP CDC no Azure Data Factory é um conector entre a SAP e o Azure. A SAP inclui o conector SAP ODP que invoca a API do ODP em módulos de RFC (Chamada de Função Remota) padrão para extrair dados SAP brutos completos e deltas.

O lado Azure inclui o fluxo de dados de mapeamento que pode transformar e carregar os dados SAP em qualquer coletor de dados com suporte por fluxos de dados de mapeamento. Algumas dessas opções são destinos de armazenamento, como Azure Data Lake Storage Gen2 ou bancos de dados como Banco de Dados SQL do Azure ou o Azure Synapse Analytics. A atividade de fluxo de dados de mapeamento também pode carregar os resultados no Data Lake Storage Gen2 no formato delta. Você pode usar o recurso de viagem no tempo do Delta Lake para produzir instantâneos de dados do SAP para um período específico. Você pode executar o pipeline e fluxos de dados de mapeamento com frequência usando um gatilho periódico do Data Factory para replicar dados do SAP no Azure com baixa latência e sem usar marca d'água.

Diagram of the architecture of the SAP CDC solution.

Para começar, crie um serviço vinculado do SAP CDC, um conjunto de dados de origem do SAP CDC e um pipeline com uma atividade de fluxo de dados de mapeamento na qual você usa o conjunto de dados de origem do SAP CDC. Para extrair os dados do SAP, é necessário um runtime de integração auto-hospedada que você instala em um computador local ou em uma VM (máquina virtual) que tenha uma linha de visão para seus sistemas de origem SAP ou seu servidor SLT. A atividade de fluxo de dados de mapeamento é executada em um cluster do Azure Databricks ou Apache Spark sem servidor ou em um runtime de integração do Azure. É necessário configurar um armazenamento de preparo na atividade de fluxo de dados de mapeamento para fazer com que o runtime de integração auto-hospedada funcione perfeitamente com o runtime de integração do fluxo de dados de mapeamento.

O conector de CDA do SAP usa a estrutura ODP do SAP para extrair diversos tipos de fontes de dados, incluindo:

  • Extratores do SAP, criados originalmente para extrair dados do SAP ECC e carregá-los no SAP BW
  • Exibições de CDS do ABAP, o novo padrão de extração de dados para o SAP S/4HANA
  • Conjunto de dados InfoProviders e InfoObjects no SAP BW e no SAP BW/4HANA
  • Tabelas de aplicativos SAP, ao usar o servidor de replicação SAP LT (SLT) como proxy

Nesse processo, as fontes de dados SAP são provedores. Os provedores são executados em sistemas SAP para produzir dados completos ou incrementais em uma ODQ (fila delta operacional). A fonte do fluxo de dados de mapeamento é um assinante do ODQ.

Diagram of the architecture of the SAP ODP framework through a self-hosted integration runtime.

Como o ODP separa completamente os provedores dos assinantes, todos os documentos do SAP que oferecem configurações de provedor são aplicáveis ao Data Factory como assinante. Para saber mais sobre o ODP, confira Introdução ao provisionamento de dados operacionais.

Pré-requisitos e configuração para a solução SAP CDC