Gestione dei dati master con Azure e CluedIn

Azure Data Factory
database SQL di Azure
Azure Synapse Analytics
Monitoraggio di Azure

Questa architettura CluedIn fornisce alle aziende metriche sulla qualità dei dati che inserisce, rilevando in modo intelligente i dati sporchi e preparandoli per la pulizia da parte di data engineer e amministratori dei dati. Gli algoritmi di Machine Learning per la logica fuzzy proprietaria consentono agli utenti aziendali e ai curatori di etichettare i dati e insegnare al sistema di identificare, correggere e prevenire problemi di qualità dei dati nel tempo.

Architettura

Diagram showing CluedIn architectural structure and data flow.

Scaricare un file di Visio di questa architettura.

Flusso di dati

La soluzione CluedIn è costituita da vari livelli funzionali eseguiti in un cluster Kubernetes in servizio Azure Kubernetes (servizio Azure Kubernetes). Una combinazione di applicazioni di microservizi .NET Core gestisce funzioni distinte come l'inserimento dati, l'elaborazione dei dati in streaming, l'accodamento e l'interfaccia utente.

  1. Il livello di ricerca per indicizzazione CluedIn inserisce i dati dalle origini cloud dei clienti, ad esempio database SQL di Azure, Azure Cosmos DB, PostgreSQL e Salesforce tramite connettori di Azure Data Factory.

    CluedIn accetta anche input da sistemi locali accessibili come SAP, Oracle, IBM e Hadoop oppure possono usare agenti locali per eseguire la ricerca per indicizzazione di dati non pubblici.

  2. Il bus di servizio aziendale si connette tramite le porte 5672 e 15672 per gli endpoint di amministrazione. I crawler inviano dati al bus e il livello di elaborazione utilizza i dati del bus sulla porta 5672.

  3. Il livello del log delle transazioni acquisisce i risultati dal livello di elaborazione.

  4. Nel livello di persistenza i database usano i dati del log delle transazioni e li rende persistenti per garantire la coerenza finale tra i diversi archivi dati. Tutti gli archivi vengono eseguiti in modalità a disponibilità elevata.

    A differenza della virtualizzazione dei dati, il livello di persistenza CluedIn inserisce parti dei dati di origine e mantiene la versione più fedele dei dati e la relativa struttura. Questa alta fedeltà significa che CluedIn Data Fabric può soddisfare le richieste aziendali per i dati in qualsiasi formato o modello.

  5. Il livello di astrazione dei dati si connette ai diversi archivi dati tramite le porte per ogni archivio.

  6. L'accesso ai dati viene eseguito tramite chiamate GraphQL, REST e WebSocket sulla porta 443. GraphQL e REST usano un modello pull e WebSocket usano un modello push.

    CluedIn protegge l'accesso ai dati tramite la limitazione e la prevenzione della richiesta cross-site forgery (CSRF).

  7. L'applicazione Web CluedIn ASP.NET Core comunica tramite una combinazione di chiamate REST e GraphQL sulla porta 443.

    Tutte le comunicazioni dal browser all'applicazione usano un set di definizioni di ingresso, che richiedono solo un singolo indirizzo IP pubblico. In un ambiente di produzione, tutte le comunicazioni si trovano su SSL (Secure Socket Layer).

  8. L'applicazione CluedIn fornisce dati puliti ed elaborati ai servizi di analisi come Power BI e Azure Synapse Analytics per generare informazioni dettagliate. Il sistema esegue il backup e archivia tutti i dati nei database SQL o Redis.

Componenti

CluedIn viene eseguito in servizio Azure Kubernetes (servizio Azure Kubernetes), un servizio Kubernetes a disponibilità elevata, sicura e completamente gestita per la distribuzione e la gestione di applicazioni in contenitori. Il servizio Azure Kubernetes offre Kubernetes serverless, CI/CD integrato e sicurezza e governance di livello aziendale.

CluedIn usa e supporta molte origini e servizi di database, tra cui:

  • database SQL di Azure, un servizio di database cloud relazionale gestito sempre aggiornato e può ridimensionare automaticamente le risorse su richiesta.
  • Istanza gestita di SQL di Azure, per compatibilità generale del motore di SQL Server con le applicazioni SQL Server esistenti. Istanza gestita di SQL offre infrastrutture di database locali con vantaggi cloud di Azure, ad esempio scalabilità elastica, gestione unificata e modello di fatturazione cloud.
  • Azure Cosmos DB, un database NoSQL serverless completamente gestito e non relazionale per lo sviluppo di app moderne.
  • Azure Data Lake, un servizio scalabile di archiviazione e analisi dei dati.
  • Azure Data Factory, una soluzione di integrazione dei dati serverless completamente gestita per l'inserimento, la preparazione e la trasformazione dei dati su larga scala. CluedIn usa oltre 90 connettori data factory predefiniti per acquisire dati da origini come Amazon Redshift, Google BigQuery, HDFS, Oracle Exadata, Teradata, Salesforce, Marketo, ServiceNow e tutti i servizi dati di Azure.

CluedIn fornisce dati elaborati e regolamentati per molte app e servizi di analisi, tra cui:

  • Azure Databricks, un servizio di analisi rapido, semplice e collaborativo basato su Apache Spark.
  • Azure Synapse Analytics, un servizio di analisi illimitato che riunisce data warehousing aziendale e analisi di Big Data.
  • Log Analytics, uno strumento portale di Azure per modificare, eseguire e analizzare le query dai dati di log di Monitoraggio di Azure.
  • Servizi cognitivi di Azure, una famiglia completa di servizi di intelligenza artificiale e API cognitive per la creazione di app intelligenti.
  • Power BI, un servizio di analisi aziendale Microsoft che combina visualizzazioni interattive e business intelligence con un'interfaccia di creazione di report facile da usare.

Dettagli dello scenario

Le aziende aziendali moderne si basano su molti processi e progetti sui dati, ma i dati non elaborati devono essere preparati per l'utilizzo. I casi d'uso dei dati dall'analisi avanzata all'apprendimento automatico richiedono processi di preparazione dei dati e attenzione simili.

  1. I progetti di dati iniziano con l'individuazione dei dati per determinare dove si trovano i dati e quali sistemi vengono usati.
  2. L'integrazione dei dati riunisce quindi più origini dati in un set di dati unificato o connesso.
  3. Il passaggio successivo consiste nel normalizzare, standardizzare, uniformare e pulire i dati in modo che i computer possano elaborarli in modo uniforme, coerente e ad alta fedeltà.
  4. Infine, i dati devono essere resi facilmente e facilmente disponibili per le esigenze aziendali.

Durante questi processi, la governance deve garantire il controllo dei dati e la protezione della privacy con proprietà chiara, tracciabilità completa e un audit trail di origini dei dati, elaborazione e uso.

La piattaforma CluedIn incapsula questi processi e pilastri di gestione dei dati in una soluzione master Gestione dati (MDM) coerente e coerente. CluedIn usa una tecnica di integrazione dei dati denominata connettività finale che restituisce risultati migliori rispetto ai modelli di estrazione, trasformazione, caricamento (ETL) o estrazione, caricamento, trasformazione (ELT). La connettività finale usa query GraphQL per combinare facilmente i dati da molte origini dati silolate.

Con la connettività finale, i dati non vengono uniti o uniti all'ingresso o al caricamento in altri sistemi. CluedIn carica invece i dati così come sono e contrassegna i record usando i metadati. Alla fine, i record con gli stessi tag si uniscono o creano una relazione nel grafico.

Questa sofisticata tecnica di unione dei dati fornisce una base per le soluzioni basate sui dati. CluedIn Data Fabric integra i dati in una pipeline che pulisce, prepara, modella, regola, arricchisce, deduplica e cataloga i dati per renderli facilmente disponibili e accessibili per le aziende.

CluedIn fornisce alle aziende metriche sulla qualità dei dati che inserisce, rilevando in modo intelligente i dati sporchi e preparandoli per la pulizia da parte di data engineer e amministratori dei dati. Gli algoritmi di Machine Learning per la logica fuzzy proprietaria consentono agli utenti aziendali e ai curatori di etichettare i dati e insegnare al sistema di identificare, correggere e prevenire problemi di qualità dei dati nel tempo.

CluedIn include la governance di livello aziendale, per garantire che sia possibile usare i dati in modo sicuro e sicuro. CluedIn può trasmettere i dati puliti e regolamentati direttamente ai sistemi di analisi come Power BI, Azure Databricks, Azure Synapse Analytics o Servizi cognitivi di Azure per renderli facilmente disponibili per il resto dell'azienda. Il supporto nativo per la scalabilità automatica sfrutta la potenza di Azure per offrire un ambiente scalabile per i carichi di lavoro di dati più grandi.

Potenziali casi d'uso

Creazione di una singola visualizzazione dei dati

  • A causa della modellazione semantica di CluedIn, la creazione di una singola visualizzazione dei dati master è molto più semplice rispetto agli approcci tradizionali. I clienti di CluedIn usano CluedIn per creare una visualizzazione connessa, storica e di alta qualità dei dati aziendali più critici. CluedIn non solo supporta la gestione di domini master classici come Persone, aziende, fornitori e prodotti: supporta e un numero infinito di domini diversi, nonché domini non strutturati come file, posta, eventi e altro ancora. Se è necessario un repository centralizzato di dati master puliti, arricchiti, regolati, controllati dalla qualità e catalogati, CluedIn è un'ottima soluzione per i casi d'uso.

Un'infrastruttura di dati

  • CluedIn è un fornitore cool di Gartner nel 2020, grazie alla sua capacità di orchestrare i dati da oltre 10, 100 e 1000 di origini dati diverse e complesse in un hub dati unificato. Se è necessario wrangle data from a lot of different datasources with ease, CluedIn può essere usato come data fabric per ottenere questo risultato. In questo modo è possibile fornire un'infrastruttura di streaming per i dati che può anche pulire e gestire in modo proattivo i dati durante il flusso nei consumer downstream.

Unione e collegamento sofisticati dei dati master

  • L'approccio di modellazione dei dati univoco di CluedIn usa un database a grafo, che consente di unire e collegare dati complessi con semplicità. A differenza degli approcci tradizionali, per risolvere questa sfida, CluedIn aggiunge funzionalità aggiuntive di machine learning e analisi del grafo per unire, associare e collegare record con una precisione molto elevata.

Considerazioni

Queste considerazioni implementano i pilastri di Azure Well-Architected Framework, che è un set di set di principi guida che possono essere usati per migliorare la qualità di un carico di lavoro. Per altre informazioni, vedere Framework ben progettato di Microsoft Azure.

Affidabilità

L'affidabilità garantisce che l'applicazione possa soddisfare gli impegni che l'utente ha preso con i clienti. Per altre informazioni, vedere Panoramica del pilastro dell'affidabilità.

  • CluedIn esegue backup automatici giornalieri del database e li mantiene nell'archiviazione a lungo termine per 30 giorni per impostazione predefinita. L'intera piattaforma è basata su stack ridondanti a tolleranza di errore che mantengono i backup per tutti i sottosistemi. I sistemi di monitoraggio di tutto il clock assicurano che i servizi siano il più possibile non sostenibili. CluedIn segue le procedure standard del settore per la ridondanza dell'infrastruttura.

  • CluedIn espone e archivia solo una rappresentazione dei dati, non la versione originale. Se CluedIn rileva intrusioni distruttive dei dati, può cancellare temporaneamente i dati di CluedIn dai server. Una volta che l'intrusione diminuisce, CluedIn regathers i dati per tornare allo stato originale.

  • Tutti gli archivi dati vengono eseguiti in modalità a disponibilità elevata.

Scalabilità

  • CluedIn viene eseguito nei contenitori Docker e usa Kubernetes per ospitare e orchestrare le diverse parti dell'applicazione. Questa architettura significa che CluedIn funziona bene negli ambienti elastici e può essere ridimensionata automaticamente in base alle dimensioni e all'infrastruttura necessarie.

  • Il supporto nativo per la scalabilità automatica sfrutta la potenza di Azure per offrire un ambiente scalabile per i carichi di lavoro di dati più grandi.

  • La modellazione di gragrafi senza schema deduce automaticamente un modello di dati dai dati di origine. Le nuove origini dati si connettono automaticamente a tutte le altre origini dati, invece di dover essere integrate in modo esplicito. Il numero di origini dati può essere ridimensionato infinitamente senza aumentare la complessità dell'integrazione.

Sicurezza

La sicurezza offre garanzie contro attacchi intenzionali e l'abuso di dati e sistemi preziosi. Per altre informazioni, vedere Panoramica del pilastro della sicurezza.

  • La sicurezza CluedIn concede autorizzazioni e controlla l'accesso a servizi diversi tramite il controllo degli accessi in base al ruolo di Azure, con il controllo delle chiavi di sicurezza di Azure e il rilevamento e la registrazione degli accessi in Monitoraggio di Azure.

  • Oltre agli account utente autenticati, CluedIn supporta anche l'accesso Single Sign-On (SSO) e i framework di gestione delle identità. Le richieste all'applicazione CluedIn usano token di accesso crittografati che non hanno alcuna correlazione con l'identità utente.

  • CluedIn gestisce le rappresentazioni di dati archiviate dietro più livelli firewall e proxy e le autentica con un set di chiavi univoche.

  • CluedIn archivia tutti i dati di origine con crittografia AES a 256 bit, che è più forte o uguale al livello di crittografia delle origini dati supportate.

  • La limitazione e la prevenzione CSRF proteggono l'accesso ai dati.

DevOps

  • CluedIn usa le pipeline di integrazione continua e recapito continuo (CI/CD) di Azure Pipelines per gestire le distribuzioni e gli aggiornamenti in sequenza nell'ambiente del servizio Azure Kubernetes.

  • CluedIn supporta unit, integrazione e test funzionali per garantire che le trasformazioni dei dati vengano trasformate come previsto. Le pipeline di elaborazione virtualizzate possono essere eseguite in memoria per i test sandbox. Le asserzioni di livello di produzione consentono di eseguire il debug e tenere traccia dei problemi relativi ai dati.

  • Per gli ambienti di test e produzione, CluedIn fornisce un grafico di Gestione pacchetti Helm per installare CluedIn rapidamente in un cluster Kubernetes. I processi di distribuzione dei dati con script completo supportano la configurazione, il test e l'implementazione.

Ottimizzazione dei costi

L'ottimizzazione dei costi riguarda l'analisi dei modi per ridurre le spese non necessarie e migliorare l'efficienza operativa. Per altre informazioni, vedere Panoramica del pilastro di ottimizzazione dei costi.

I prezzi di CluedIn sono aperti e trasparenti. È possibile visualizzare i prezzi sul loro sito Web.

Ridimensionamento di Azure e avvio di una versione di valutazione

È possibile avviare una versione di valutazione di 7 giorni di CluedIn nel sito Web, che consente anche di definire l'ambito dei costi di hosting di Azure con stime predefinite di Azure per ambienti di dimensioni diverse.

Distribuire lo scenario

  • Per distribuire CluedIn per scopi di sviluppo e valutazione con Docker, vedere CluedIn con Docker.

  • Per installare CluedIn rapidamente in un cluster Kubernetes, vedere CluedIn con Kubernetes. Il grafico Helm installa il server CluedIn, il sito Web e altri servizi necessari, ad esempio archiviazione e code.

Passaggi successivi

  • Per altre informazioni su CluedIn, vedere il sito Web Di CluedIn.
  • Per la documentazione di CluedIn, vedere la documentazione di CluedIn.