Gestione dei dati master con Profisee e Azure Data Factory

Azure Data Factory
Azure Databricks
Azure Data Lake

Questo modello di architettura illustra come incorporare MDM nell'ecosistema dei servizi dati di Azure per migliorare la qualità dei dati usati per l'analisi e il processo decisionale operativo. MDM risolve diverse problematiche comuni, tra cui:

  • Identificazione e gestione dei dati duplicati (corrispondenza e unione).
  • Contrassegnare e risolvere i problemi di qualità dei dati.
  • Standardizzazione e arricchimento dei dati.
  • Consentire agli amministratori dei dati di gestire e migliorare in modo proattivo i dati.

Questo modello presenta un approccio moderno a MDM. Tutte le tecnologie sono distribuibili in modo nativo in Azure, tra cui Profisee, che è possibile distribuire tramite contenitori e gestire con servizio Azure Kubernetes.

Architettura

Diagram showing the master data management Profisee data flow.

Scaricare un file di Visio dei diagrammi utilizzati in questa architettura.

Flusso di dati

Il flusso di dati seguente corrisponde al diagramma precedente:

  1. Caricamento dei dati di origine: i dati di origine dalle applicazioni aziendali vengono copiati in Azure Data Lake e li archivia per un'ulteriore trasformazione e l'uso nell'analisi downstream. I dati di origine rientrano in genere in una delle tre categorie seguenti:

    • Dati master strutturati: informazioni che descrivono clienti, prodotti, località e così via. I dati master sono a basso volume, complessità elevata e modifiche lentamente nel tempo. Spesso sono i dati che le organizzazioni lottano di più in termini di qualità dei dati.
    • Dati transazionali strutturati: eventi aziendali che si verificano in un momento specifico, ad esempio un ordine, una fattura o un'interazione. Le transazioni includono le metriche per tale transazione (ad esempio il prezzo di vendita) e i riferimenti ai dati master (ad esempio il prodotto e il cliente coinvolti in un acquisto). I dati transazionali sono in genere ad alto volume, bassa complessità e non cambiano nel tempo.
    • Dati non strutturati: dati che possono includere documenti, immagini, video, contenuti di social media e audio. Le piattaforme di analisi moderne possono usare sempre più dati non strutturati per ottenere nuove informazioni dettagliate. I dati non strutturati sono spesso associati ai dati master, ad esempio un cliente associato a un account di social media o a un prodotto associato a un'immagine.
  2. Caricamento dei dati master di origine: i dati master delle applicazioni aziendali di origine vengono caricati nell'applicazione MDM "così come sono", con informazioni complete sulla derivazione e trasformazioni minime.

  3. Elaborazione mdm automatizzata: la soluzione MDM usa processi automatizzati per standardizzare, verificare e arricchire i dati, ad esempio i dati degli indirizzi. La soluzione identifica anche i problemi di qualità dei dati, raggruppa i record duplicati (ad esempio i clienti duplicati) e genera record master, detti anche "record d'oro".

  4. Gestione dei dati: se necessario, gli amministratori dei dati possono:

    • Esaminare e gestire gruppi di record corrispondenti
    • Creare e gestire relazioni tra dati
    • Inserire le informazioni mancanti
    • Risolvere i problemi di qualità dei dati.

    Gli amministratori dei dati possono gestire più rollup gerarchici alternativi in base alle esigenze, ad esempio gerarchie di prodotti.

  5. Caricamento dei dati master gestiti: i dati master di alta qualità passano a soluzioni di analisi downstream. Questa azione semplifica il processo perché le integrazioni dei dati non richiedono più trasformazioni di qualità dei dati.

  6. Caricamento di dati transazionali e non strutturati: i dati transazionali e non strutturati vengono caricati nella soluzione di analisi downstream in cui si combinano con dati master di alta qualità.

  7. Visualizzazione e analisi: i dati vengono modellati e resi disponibili agli utenti aziendali per l'analisi. I dati master di alta qualità eliminano i problemi comuni relativi alla qualità dei dati, con conseguente miglioramento delle informazioni dettagliate.

Componenti

  • Azure Data Factory è un servizio di integrazione dei dati ibrido che consente di creare, pianificare e orchestrare i flussi di lavoro ETL e ELT.

  • Azure Data Lake offre spazio di archiviazione illimitato per i dati di analisi.

  • Profisee è una piattaforma MDM scalabile progettata per integrarsi facilmente con l'ecosistema Microsoft.

  • Azure Synapse Analytics è il data warehouse cloud veloce, flessibile e attendibile che consente di ridimensionare, calcolare e archiviare i dati in modo elastico e indipendente, con un'architettura di elaborazione parallela elevata.

  • Power BI è una suite di strumenti di analisi aziendale che offrono informazioni dettagliate in tutta l'organizzazione. Connessione a centinaia di origini dati, semplificare la preparazione dei dati e guidare l'analisi improvvisata. Crea report d'impatto e quindi pubblicali per consentire all'organizzazione di utilizzarli sul Web e su dispositivi mobili.

Alternative

Assente un'applicazione MDM creata appositamente, è possibile trovare alcune delle funzionalità tecniche necessarie per creare una soluzione MDM all'interno dell'ecosistema di Azure.

  • Qualità dei dati: durante il caricamento in una piattaforma di analisi, è possibile creare la qualità dei dati nei processi di integrazione. Ad esempio, applicare trasformazioni data quality in una pipeline di Azure Data Factory con script hardcoded.
  • Standardizzazione e arricchimento dei dati: Mappe di Azure consente di fornire la verifica e la standardizzazione dei dati degli indirizzi, che è possibile usare in Funzioni di Azure e Azure Data Factory. La standardizzazione di altri dati potrebbe richiedere lo sviluppo di script hardcoded.
  • Gestione dei dati duplicati: è possibile usare Azure Data Factory per deduplicare le righe in cui sono disponibili identificatori sufficienti per una corrispondenza esatta. In questo caso, la logica di unione abbinata ai sopravvissuti appropriati richiederebbe probabilmente script hardcoded personalizzati.
  • Gestione dei dati: usare Power Apps per sviluppare rapidamente soluzioni semplici di gestione dei dati per gestire i dati in Azure, insieme alle interfacce utente appropriate per la revisione, il flusso di lavoro, gli avvisi e le convalide.

Dettagli dello scenario

Molti programmi di trasformazione digitale usano Azure come core. Ma dipende dalla qualità e dalla coerenza dei dati di più origini, ad esempio applicazioni aziendali, database, feed di dati e così via. Offre inoltre valore tramite business intelligence, analisi, Machine Learning e altro ancora. La soluzione Master Gestione dati (MDM) di Profisee completa il patrimonio di dati di Azure con un metodo pratico per "allineare e combinare" i dati da più origini. A tale scopo, l'applicazione di standard di dati coerenti sui dati di origine, ad esempio corrispondenza, unione, standardizzazione, verifica e correzione. L'integrazione nativa con Azure Data Factory e altri servizi dati di Azure semplifica ulteriormente questo processo per accelerare la distribuzione dei vantaggi aziendali di Azure.

Un aspetto fondamentale della funzione delle soluzioni MDM è che combinano i dati di più origini per creare un "master record d'oro" che contiene i dati più noti e attendibili per ogni record. Questa struttura crea dominio per dominio in base ai requisiti, ma richiede quasi sempre più domini. I domini comuni sono clienti, prodotti e località. Ma i domini possono rappresentare qualsiasi elemento, dai dati di riferimento ai contratti e ai nomi dei farmaci. In generale, la migliore copertura del dominio che è possibile creare rispetto ai requisiti generali dei dati di Azure è migliore.

Pipeline di integrazione MDM

Image that shows the master data management Profisee integration pipeline.

Scaricare un file di Visio di questa architettura.

L'immagine precedente mostra i dettagli per l'integrazione con la soluzione MDM Profisee. Si noti che Azure Data Factory e Profisee includono il supporto dell'integrazione REST nativa, offrendo un'integrazione leggera e moderna.

  1. Caricare i dati di origine in MDM: Azure Data Factory estrae i dati dal data lake, lo trasforma in modo che corrisponda al modello di dati master e lo trasmette nel repository MDM tramite un sink REST.

  2. Elaborazione MDM: la piattaforma MDM elabora i dati master di origine tramite una sequenza di attività per verificare, standardizzare e arricchire i dati e per eseguire processi di qualità dei dati. Infine, MDM esegue la corrispondenza e i sopravvissuti per identificare e raggruppare record duplicati e creare record master. Facoltativamente, gli amministratori dei dati possono eseguire attività che comportano un set di dati master da usare nell'analisi downstream.

  3. Caricare i dati master per l'analisi: Azure Data Factory usa l'origine REST per trasmettere i dati master da Profisee ad Azure Synapse Analytics.

Modelli di Azure Data Factory per Profisee

In collaborazione con Microsoft, Profisee ha sviluppato un set di modelli di Azure Data Factory che semplificano l'integrazione di Profisee nell'ecosistema di Servizi dati di Azure. Questi modelli usano l'origine dati REST e il sink di dati di Azure Data Factory per leggere e scrivere dati dall'API del gateway REST di Profisee. Forniscono modelli per la lettura e la scrittura in Profisee.

Screenshot that shows MDM Profisee and the Azure Data Factory template.

Modello di Data Factory di esempio: da JSON a Profisee su REST

Gli screenshot seguenti mostrano un modello di Azure Data Factory che copia i dati da un file JSON in Azure Data Lake a Profisee tramite REST.

Il modello copia i dati JSON di origine:

Screenshot that shows the source JSON data.

I dati vengono quindi sincronizzati con Profisee tramite REST:

Screenshot that shows REST sync to Profisee.

Per altre informazioni, vedere Modelli di Azure Data Factory per Profisee.

Elaborazione MDM

In un caso d'uso MDM analitico, i dati spesso vengono elaborati tramite la soluzione MDM automaticamente per caricare i dati per l'analisi. Le sezioni seguenti illustrano un processo tipico per i dati dei clienti in questo contesto.

1. Caricamento dei dati di origine

I dati di origine vengono caricati nella soluzione MDM dai sistemi di origine, incluse le informazioni sulla derivazione. In questo caso, sono presenti due record di origine, uno da CRM e uno dall'applicazione ERP. Dopo l'ispezione visiva, i due record sembrano entrambi rappresentare la stessa persona.

Nome origine Indirizzo di origine Stato di origine Telefono di origine ID origine Indirizzo standard Stato standard Nome standard Telefono standard Similarity
Alana Bosh 123 Main Street Disponibilità generale 7708434125 CRM-100
Bosch, Alana 123 Principale St. Georgia 404-854-7736 CRM-121
Alana Bosch (404) 854-7736 ERP-988

2. Verifica e standardizzazione dei dati

Le regole e le regole di standardizzazione e i servizi consentono di standardizzare e verificare le informazioni relative a indirizzo, nome e numero di telefono.

Nome origine Indirizzo di origine Stato di origine Telefono di origine ID origine Indirizzo standard Stato standard Nome standard Telefono standard Similarity
Alana Bosh 123 Main Street Disponibilità generale 7708434125 CRM-100 123 Principale St. Disponibilità generale Alana Bosh 770 843 4125
Bosch, Alana 123 Principale St. Georgia 404-854-7736 CRM-121 123 Principale St. Disponibilità generale Alana Bosch 404 854 7736
Alana Bosch (404) 854-7736 ERP-988 Alana Bosch 404 854 7736

3. Corrispondenza

Con i dati standardizzati, si verifica la corrispondenza, identificando la somiglianza tra i record nel gruppo. In questo scenario, due record corrispondono esattamente in Name e Telefono e le altre corrispondenze fuzzy in Nome e Indirizzo.

Nome origine Indirizzo di origine Stato di origine Telefono di origine ID origine Indirizzo standard Stato standard Nome standard Telefono standard Similarity
Alana Bosh 123 Main Street Disponibilità generale 7708434125 CRM-100 123 Principale St. Disponibilità generale Alana Bosh 770 843 4125 0.9
Bosch, Alana 123 Principale St. Georgia 404-854-7736 CRM-121 123 Principale St. Disponibilità generale Alana Bosch 404 854 7736 1.0
Alana Bosch (404) 854-7736 ERP-988 Alana Bosch 404 854 7736 1.0

4. Sopravvissuti

Con un gruppo formato, i sopravvissuti creano e popolano un record master (detto anche "record d'oro") per rappresentare il gruppo.

Nome origine Indirizzo di origine Stato di origine Telefono di origine ID origine Indirizzo standard Stato standard Nome standard Telefono standard Similarity
Alana Bosh 123 Main Street Disponibilità generale 7708434125 CRM-100 123 Principale St. Disponibilità generale Alana Bosh 770 843 4125 0.9
Bosch, Alana 123 Principale St. Georgia 404-854-7736 CRM-121 123 Principale St. Disponibilità generale Alana Bosch 404 854 7736 1.0
Alana Bosch (404) 854-7736 ERP-988 Alana Bosch 404 854 7736 1.0
Record master: 123 Principale St. GA Alana Bosch 404 854 7736

Questo record master, insieme a informazioni di derivazione e dati di origine migliorati, viene caricato nella soluzione di analisi downstream, in cui si collega ai dati transazionali.

Questo esempio mostra l'elaborazione MDM automatizzata di base. È anche possibile usare le regole di qualità dei dati per calcolare e aggiornare automaticamente i valori e contrassegnare i valori mancanti o non validi per gli amministratori dei dati da risolvere. Gli amministratori dei dati consentono di gestire i dati, inclusa la gestione di rollup gerarchici dei dati.

L'impatto di MDM sulla complessità dell'integrazione

Come illustrato in precedenza, MDM risolve diverse problematiche comuni riscontrate durante l'integrazione dei dati in una soluzione di analisi. Include la correzione dei problemi di qualità dei dati, la standardizzazione e l'arricchimento dei dati e la razionalizzazione dei dati duplicati. L'incorporamento di MDM nell'architettura di analisi modifica fondamentalmente il flusso di dati eliminando la logica hardcoded nel processo di integrazione e scaricandola nella soluzione MDM, semplificando in modo significativo le integrazioni. La tabella seguente illustra alcune differenze comuni nel processo di integrazione con e senza MDM.

Funzionalità Senza MDM Con MDM
Qualità dei dati I processi di integrazione includono regole di qualità e trasformazioni che consentono di correggere e correggere i dati durante lo spostamento. Richiede risorse tecniche sia per l'implementazione iniziale che per la manutenzione continuativa di queste regole, rendendo i processi di integrazione dei dati complicati e costosi da sviluppare e gestire. La soluzione MDM configura e applica la logica e le regole di qualità dei dati. I processi di integrazione non eseguono trasformazioni di qualità dei dati, spostando invece i dati "così com'è" nella soluzione MDM. I processi di integrazione dei dati sono semplici e convenienti per sviluppare e gestire.
Standardizzazione e arricchimento dei dati I processi di integrazione includono la logica per standardizzare e allineare i dati di riferimento e master. Sviluppare integrazioni con servizi di terze parti per eseguire la standardizzazione di indirizzo, nome, posta elettronica e dati telefonici. Usando regole predefinite e integrazioni predefinite con servizi dati di terze parti, è possibile standardizzare i dati all'interno della soluzione MDM, semplificando l'integrazione.
Gestione dei dati duplicati Il processo di integrazione identifica e raggruppa i record duplicati presenti all'interno e tra le applicazioni in base agli identificatori univoci esistenti. Questo processo condivide gli identificatori tra i sistemi (ad esempio, SSN o posta elettronica) e li raggruppa solo quando identici. Gli approcci più sofisticati richiedono investimenti significativi nell'ingegneria dell'integrazione. Le funzionalità predefinite di corrispondenza di Machine Learning identificano i record duplicati all'interno e tra i sistemi, generando un record d'oro per rappresentare il gruppo. Questo processo consente di registrare "corrispondenze fuzzy", raggruppando record simili, con risultati spiegabili. Gestisce i gruppi in scenari in cui il motore di Machine Learning non è in grado di formare un gruppo con attendibilità elevata.
Gestione dei dati Le attività di gestione dei dati aggiornano solo i dati nelle applicazioni di origine, ad esempio ERP o CRM. In genere, individuano problemi, ad esempio dati mancanti, incompleti o non corretti, durante l'esecuzione di analisi. Corregge i problemi nell'applicazione di origine e quindi li aggiorna nella soluzione di analisi durante l'aggiornamento successivo. Le nuove informazioni da gestire vengono aggiunte alle applicazioni di origine, che richiedono tempo e sono costose. Le soluzioni MDM hanno funzionalità predefinite di gestione dei dati che consentono agli utenti di accedere e gestire i dati. Idealmente, il sistema contrassegna i problemi e richiede agli amministratori dei dati di correggerli. Configurare rapidamente nuove informazioni o gerarchie nella soluzione in modo che gli amministratori dei dati li gestiscono.

Casi d'uso mdm

Anche se esistono numerosi casi d'uso per MDM, alcuni casi d'uso coprono la maggior parte delle implementazioni MDM reali. Anche se questi casi d'uso si concentrano su un singolo dominio, è improbabile che vengano compilati solo da tale dominio. In altre parole, anche questi casi d'uso incentrati includono più domini dati master.

Clienti a 360°

Il consolidamento dei dati dei clienti per l'analisi è il caso d'uso MDM più comune. Le organizzazioni acquisiscono i dati dei clienti in un numero crescente di applicazioni, creando dati duplicati dei clienti all'interno e tra applicazioni con incoerenze e discrepanze. Questi dati dei clienti di scarsa qualità rendono difficile realizzare il valore delle soluzioni di analisi moderne. I sintomi includono:

  • Difficile rispondere a domande aziendali di base come "Chi sono i nostri clienti principali?" e "Quanti nuovi clienti abbiamo avuto?", richiedendo un impegno manuale significativo.
  • Informazioni sui clienti mancanti e imprecise, rendendo difficile eseguire il rollup o il drill-down dei dati.
  • Impossibilità di analizzare i dati dei clienti tra sistemi o business unit a causa di un'impossibilità di identificare in modo univoco un cliente attraverso i limiti dell'organizzazione e del sistema.
  • Dati analitici di scarsa qualità dall'intelligenza artificiale e dall'apprendimento automatico a causa di dati di input di scarsa qualità.

Prodotto 360

I dati dei prodotti vengono spesso distribuiti in più applicazioni aziendali, ad esempio ERP, PLM o e-commerce. Il risultato è una sfida nella comprensione del catalogo totale di prodotti con definizioni incoerenti per proprietà quali il nome, la descrizione e le caratteristiche del prodotto. E definizioni diverse dei dati di riferimento complicano ulteriormente questa situazione. I sintomi includono:

  • Impossibilità di supportare percorsi alternativi di rollup gerarchico e drill-down per l'analisi dei prodotti.
  • Sia che prodotti finiti o inventario materiale, difficoltà a capire esattamente quali prodotti hai a portata di mano, i fornitori che acquisti i tuoi prodotti da e prodotti duplicati, causando un inventario in eccesso.
  • Difficoltà a razionalizzare i prodotti a causa di definizioni in conflitto, che portano a informazioni mancanti o imprecise nell'analisi.

Dati di riferimento 360

Nel contesto dell'analisi, i dati di riferimento esistono come numerosi elenchi di dati che consentono di descrivere ulteriormente altri set di dati master. I dati di riferimento possono includere elenchi di paesi e aree geografiche, valute, colori, dimensioni e unità di misura. I dati di riferimento incoerenti causano errori evidenti nell'analisi downstream. I sintomi includono:

  • Più rappresentazioni della stessa cosa. Ad esempio, lo stato Georgia mostra come "GA" e "Georgia", che rende difficile aggregare ed eseguire il drill-down dei dati in modo coerente.
  • Difficoltà nell'aggregazione dei dati da più applicazioni a causa di un'impossibilità di attraversare i valori dei dati di riferimento tra sistemi. Ad esempio, il colore rosso viene visualizzato come "R" nel sistema ERP e "Red" nel sistema PLM.
  • Difficoltà di corrispondenza dei numeri tra le organizzazioni a causa delle differenze tra i valori dei dati di riferimento concordati per la categorizzazione dei dati.

Finanza 360

Le organizzazioni finanziarie si basano principalmente sui dati per attività critiche, ad esempio report mensili, trimestrali e annuali. Le organizzazioni con più sistemi finanziari e contabili spesso dispongono di dati finanziari in più ledgger generali, che si consolidano per produrre report finanziari. MDM può fornire una posizione centralizzata per eseguire il mapping e la gestione di account, centri di costo, entità aziendali e altri set di dati finanziari a una visualizzazione consolidata. I sintomi includono:

  • Difficoltà nell'aggregazione dei dati finanziari in più sistemi in una visualizzazione consolidata.
  • Mancanza di processo per l'aggiunta e il mapping di nuovi elementi di dati nei sistemi finanziari.
  • Ritardi nella produzione di rapporti finanziari di fine periodo.

Considerazioni

Queste considerazioni implementano i pilastri di Azure Well-Architected Framework, che è un set di set di principi guida che possono essere usati per migliorare la qualità di un carico di lavoro. Per altre informazioni, vedere Framework ben progettato di Microsoft Azure.

Affidabilità

L'affidabilità garantisce che l'applicazione possa soddisfare gli impegni che l'utente ha preso con i clienti. Per altre informazioni, vedere Panoramica del pilastro dell'affidabilità.

Profisee viene eseguito in modo nativo su servizio Azure Kubernetes e database SQL di Azure. Entrambi i servizi offrono funzionalità predefinite per supportare la disponibilità elevata.

Efficienza prestazionale

L'efficienza delle prestazioni è la capacità di dimensionare il carico di lavoro per soddisfare in modo efficiente le richieste poste dagli utenti. Per altre informazioni, vedere Panoramica dell'efficienza delle prestazioni.

Profisee viene eseguito in modo nativo su servizio Azure Kubernetes e database SQL di Azure. È possibile configurare servizio Azure Kubernetes per aumentare e ridurre le prestazioni di Profisee, a seconda delle esigenze. È possibile distribuire database SQL di Azure in molte configurazioni diverse per bilanciare prestazioni, scalabilità e costi.

Sicurezza

La sicurezza offre garanzie contro attacchi intenzionali e l'abuso di dati e sistemi preziosi. Per altre informazioni, vedere Panoramica del pilastro della sicurezza.

Profisee autentica gli utenti tramite OpenID Connessione, che implementa un flusso di autenticazione OAuth 2.0. La maggior parte delle organizzazioni configura Profisee per autenticare gli utenti con Microsoft Entra ID. Questo processo garantisce che i criteri aziendali per l'autenticazione vengano applicati e applicati.

Ottimizzazione dei costi

L'ottimizzazione dei costi riguarda l'analisi dei modi per ridurre le spese non necessarie e migliorare l'efficienza operativa. Per altre informazioni, vedere Panoramica del pilastro di ottimizzazione dei costi.

I costi di esecuzione sono costituiti da una licenza software e dal consumo di Azure. Per ulteriori informazioni, contattare Profisee.

Distribuire lo scenario

Per distribuire questo scenario:

  1. Distribuire Profisee in Azure usando un modello di Resource Manager.
  2. Creare un'istanza di Azure Data Factory.
  3. Configurare Azure Data Factory per connettersi a un repository Git.
  4. Aggiungere i modelli di Azure Data Factory di Profisee al repository Git di Azure Data Factory.
  5. Creare una nuova pipeline di Azure Data Factory usando un modello.

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autore principale:

Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.

Passaggi successivi

  • Informazioni sulle funzionalità del Connessione or di copia REST in Azure Data Factory.
  • Altre informazioni sull'esecuzione nativa di Profisee in Azure.
  • Informazioni su come distribuire Profisee in Azure usando un modello di Resource Manager.
  • Visualizzare i modelli di Profisee Azure Data Factory.

Guide all'architettura

Architetture di riferimento