Architettura di esempio di integrazione dei dati SAP

2024-06-25

Questo articolo fa parte della serie di articoli "Sap extend and innovazione data: Best practices".

Questo articolo descrive il flusso di dati SAP dai sistemi SAP di origine alle destinazioni downstream. Ogni destinazione ha uno scopo nel percorso dei dati per l'azienda. La progettazione dell'architettura estende le soluzioni SAP usando i servizi dati di Azure. Usare Azure Synapse Analytics per creare una piattaforma dati moderna per inserire, elaborare, archiviare, gestire e visualizzare i dati da varie origini.

Apache Spark® e Apache Kafka® sono marchi o marchi registrati di Apache Software Foundation nei Stati Uniti e/o in altri paesi. L'uso di questi marchi non implica alcuna approvazione da parte di Apache Software Foundation.

Architettura

Il diagramma seguente è un'architettura di esempio di un'integrazione dei dati SAP in Azure. Usare questa architettura di esempio come punto di partenza.

Scaricare un file di Visio di questa architettura.

Flusso di dati

Il flusso di dati seguente corrisponde al diagramma precedente:

Origini dati. Un sistema si connette a un'origine dati per abilitare l'inserimento e l'analisi dei dati.
Inserimento dati. Le pipeline di Azure Data Factory e Synapse consentono l'integrazione dei dati.
Archiviazione dei dati. I dati vengono archiviati in Azure Data Lake Storage basato su Archiviazione BLOB di Azure.
Trasformazione e consumo dei dati. I dati vengono trasformati in fasi e l'utilizzo viene abilitato tramite report con Power BI o tramite endpoint privati che consentono di accedere in modo sicuro ai dati tramite un collegamento privato.
Visualizzazione e creazione di report dei dati. È possibile accedere ai report e visualizzare i dati con il servizio Power BI o un'applicazione esterna.

Origini dati

I sistemi SAP di origine possono essere eseguiti in locale con SAP RISE in Azure o SAP in Azure Macchine virtuali. Possono essere server SQL locali, dati semistrutturati in file JSON, XML e di log o altri sistemi di data warehouse. Le attività di copia delle pipeline di Synapse possono inserire questi dati non elaborati. I sistemi di origine sono ospitati in locale, in un cloud privato o pubblico o con sottoscrizioni SAP RISE.

I sistemi OLAP (Online Transactional Data Processing) e OLTP (Online Analytical Processing) sono repository centrali di dati e transazioni aziendali. Estrarre, archiviare e inserire dati in Azure per ottenere valore e informazioni dettagliate dai dati che risiedono in questi repository di dati aziendali.

Con i servizi di Azure è possibile integrare i dati da qualsiasi posizione di origine. Pianificare la configurazione di estrazione in base alla posizione ospitata, ai controlli di sicurezza, agli standard operativi, alla larghezza di banda e agli obblighi contrattuali.

Inserimento dati

In questa architettura i dati vengono inseriti usando le pipeline di Synapse e vengono elaborati in fasi usando le funzionalità Data Lake del pool di Synapse Spark.

Le pipeline di Data Factory e Synapse estraggono i dati usando i connettori SAP seguenti:

Per ulteriori informazioni, vedi le seguenti risorse:

Archiviazione di dati

In Data Lake Storage Gen2 Archiviazione di Azure è la base per la creazione di data lake aziendali in Azure. Con Data Lake Storage Gen2 è possibile gestire grandi quantità di dati perché offre più petabyte di informazioni e supporta centinaia di gigabit di velocità effettiva.

I dati vengono crittografati inattivi dopo l'inserimento nel data lake. Usare le chiavi gestite dal cliente per migliorare ulteriormente la crittografia e aumentare la flessibilità del controllo di accesso.

Per altre informazioni, vedere l'introduzione e le procedure consigliate di Data Lake Storage Gen2.

Trasformazione e utilizzo dei dati

In questa architettura, i dati inseriti dalle origini dati vengono archiviati in una posizione data Lake Storage Gen2.

È possibile gestire ed eseguire attività di copia tra un archivio dati nell'ambiente locale e il cloud usando un runtime di integrazione self-hosted . Mantenere sempre il sistema SHIR in prossimità dei sistemi di origine.

Archiviare i dati nell'account di archiviazione usando directory di Data Lake Storage Gen2 specifiche della fase, ad esempio Bronze, Silver e Gold.

Bronze: le pipeline synapse copiano le attività di inserimento dei dati dai sistemi di origine. Questi dati inseriti vengono archiviati in formato non elaborato usando la directory Bronze del data lake.
Silver: il pool di Spark synapse esegue regole di qualità dei dati per pulire i dati non elaborati. Questi dati arricchiti vengono archiviati nella directory Silver del data lake.
Gold: dopo il processo di pulizia, il pool di Spark applica le normalizzazioni, le trasformazioni dei dati e le regole business necessarie ai dati della directory Silver. Questi dati trasformati vengono archiviati nella directory Gold del data lake.

Il connettore Synapse Apache Spark to Synapse SQL esegue il push dei dati normalizzati nel pool Synapse SQL per l'utilizzo da parte di applicazioni downstream e reporting services, ad esempio Power BI. Questo connettore trasferisce in modo ottimale i dati tra i pool di Apache Spark serverless e i pool SQL nell'area di lavoro di Azure Synapse Analytics.

Per gli account di archiviazione, gli endpoint privati forniscono ai clienti nella rete virtuale l'accesso sicuro ai dati tramite un collegamento privato. L'endpoint privato usa un indirizzo IP dallo spazio indirizzi della rete virtuale per il servizio account di archiviazione. Il traffico di rete tra i clienti nella rete virtuale e l'account di archiviazione attraversa la rete virtuale e un collegamento privato nella rete backbone Microsoft per eliminare l'esposizione a Internet pubblico.

Visualizzazione e creazione di report dei dati

Nella servizio Power BI usare DirectQuery per recuperare in modo sicuro i dati dal pool Synapse SQL.

Un gateway dati installato in una macchina virtuale nella rete virtuale privata fornisce una piattaforma di connessione tra il servizio Power BI e il pool SYNapse SQL. Per connettersi in modo sicuro, il gateway dati usa un endpoint privato nella stessa rete virtuale.

Le applicazioni esterne possono accedere ai dati dai pool serverless di Synapse o dai pool SQL dedicati usando endpoint privati connessi alla rete virtuale.

Componenti

Questa architettura usa diversi servizi e funzionalità di Azure.

Analisi dei dati

Azure Synapse Analytics è il servizio principale che inserisce, elabora e analizza i dati.
Data Lake Storage Gen2 si basa sui servizi di archiviazione e offre funzionalità data lake usate da altri servizi per l'archiviazione e l'elaborazione dei dati.
Le pipeline di Azure Synapse Analytics copiano i dati dalle origini alle posizioni di Data Lake Storage Gen2.
Apache Spark pulisce, normalizza ed elabora i dati inseriti dai percorsi di origine.

Storage

Il pool SQL dedicato di Azure Synapse Analytics offre funzionalità di data warehousing dopo l'elaborazione e la normalizzazione dei dati ed è pronta per l'uso da parte di clienti e applicazioni.
Con il pool SQL serverless di Azure Synapse Analytics, è possibile eseguire query e analizzare rapidamente i dati elaborati e normalizzati.

Reti e servizi di bilanciamento del carico

Una rete virtuale gestita da Azure Synapse Analytics crea un ambiente isolato e gestito per l'area di lavoro di Azure Synapse, quindi non è necessario gestire la configurazione di rete per le risorse dell'area di lavoro.
Gli endpoint privati gestiti da Azure Synapse stabiliscono collegamenti privati alle risorse di Azure e instradano il traffico tra le aree di lavoro di Azure Synapse e altre risorse di Azure usando la rete backbone Microsoft.
Azure Rete virtuale offre funzionalità di rete privata per le risorse di Azure che non fanno parte dell'area di lavoro di Azure Synapse. È possibile gestire l'accesso, la sicurezza e il routing tra le risorse.
Un endpoint privato di Azure connette un servizio a una rete virtuale usando un indirizzo IP privato dalla rete virtuale della soluzione ai servizi gestiti da Azure. Questa connessione protegge la rete tra l'area di lavoro di Azure Synapse e altri servizi di Azure, ad esempio Archiviazione, Azure Cosmos DB, database SQL di Azure o il proprio servizio di collegamento privato di Azure.

Creazione di report

Power BI esegue analisi avanzate e informazioni dettagliate sui dati elaborati.