Più zone dati per l'analisi su scala cloud in Azure

Questa architettura di riferimento è destinata alle organizzazioni che hanno implementato una versione di base dell'analisi su scala cloud e sono ora pronti per ospitare nuove business unit per modernizzare le operazioni di analisi. Questo scenario più complesso usa più zone di destinazione, applicazioni dati e prodotti dati.

Apache Hive e il logo Hive sono marchi registrati o marchi di Apache Software Foundation nei Stati Uniti e/o in altri paesi. L'uso di questi marchi non implica alcuna approvazione da parte di Apache Software Foundation.

Presentazione del problema

Relecloud, l'azienda fittizia in questo esempio, è un provider di cloud privato che offre risorse di calcolo e archiviazione condivise alle organizzazioni globali. Anche se Relecloud fornisce risorse di calcolo, non vogliono vincolare la piattaforma con le proprie operazioni interne. Pertanto, si affida a Microsoft Azure per le esigenze di elaborazione interna.

Gli analisti dei dati nel gruppo operativo usano i dati di telemetria dei servizi cloud per comprendere come i clienti usano la piattaforma. Un team diverso di analisti nel gruppo di fatturazione studia i dati di fatturazione per ottenere informazioni dettagliate sui servizi che generano più ricavi.

L'ultimo trimestre, il team operativo ha modernizzato la piattaforma di analisi eseguendone la migrazione ad Azure. Un obiettivo nell'implementazione dell'analisi su scala cloud era quello di massimizzare il potenziale di ridimensionamento della piattaforma e l'aggiunta di nuovi carichi di lavoro dell'organizzazione.

Oggi la soluzione di analisi corrente non è più sufficiente per il gruppo di fatturazione. Il volume delle fatture da analizzare è troppo grande per il server locale. Il team decide di seguire il responsabile del gruppo operativo e modernizzare la piattaforma di analisi dei dati in Azure.

Gli analisti del gruppo di fatturazione hanno competenze diverse rispetto agli analisti del gruppo operativo. Gli analisti della fatturazione non vogliono essere vincolati a usare gli stessi strumenti delle operazioni. Il gruppo di fatturazione si trova in una parte diversa dell'organizzazione e vuole la flessibilità di implementare i criteri e le procedure che soddisfano le proprie esigenze.

Soluzione architetturale

Relecloud ridimensiona la piattaforma di analisi aggiungendo una nuova zona di destinazione per il gruppo di fatturazione. Questa zona di destinazione fornisce un'area di lavoro virtuale per il gruppo di fatturazione per implementare le soluzioni di analisi che soddisfano le esigenze aziendali. Avendo una zona di destinazione separata dalle altre risorse dell'organizzazione, il gruppo di fatturazione può implementare i propri criteri di accesso e tenere conto dei costi dei servizi.

Il diagramma seguente non rappresenta tutti i servizi di Azure. Il diagramma è semplificato per evidenziare i concetti di base dell'organizzazione delle risorse all'interno dell'architettura.

Diagram of a multiple landing zone architecture for cloud-scale analytics.

Zona di destinazione per la gestione dei dati

Un requisito fondamentale per un'implementazione di analisi su scala cloud è una zona di destinazione per la gestione dei dati. Questa sottoscrizione contiene risorse condivise tra tutte le zone di destinazione, inclusi i componenti di rete condivisa, ad esempio un firewall o zone DNS private. La zona di destinazione per la gestione dei dati include anche risorse per la governance dei dati e del cloud, ad esempio Criteri di Azure e Azure Purview.

Relecloud ha creato una zona di destinazione di gestione dei dati quando ha distribuito la soluzione di analisi dei dati per il gruppo operativo. Quando il gruppo di fatturazione si aggiunge alla piattaforma, usa la stessa zona di destinazione di gestione dei dati per condividere le risorse comuni con il gruppo operativo.

Zona di destinazione dei dati operativi

Il gruppo di operazioni include le soluzioni seguenti nella zona di destinazione dei dati.

Applicazioni dati operative

Il team ha creato un'applicazione dati allineata all'origine che usa processi Apache Spark in Azure Databricks per inserire dati di telemetria del servizio e archiviarli in un account azure Data Lake Archiviazione.

Questo processo copia i dati così come sono dal sistema di origine, ma non li trasforma. Gli analisti possono lavorare con i dati copiati nella piattaforma di analisi senza sovraccaricare il sistema di origine. Anziché creare una distribuzione dedicata per questa applicazione dati, il team operativo usa l'area di lavoro Databricks nel gruppo di risorse di inserimento e elaborazione condiviso.

I clienti di Relecloud possono creare account cloud per gestire le risorse e la fatturazione nei cloud privati. Ogni cliente può avere più account. Il team di analisi ha creato un'applicazione dati per importare i dati dell'account cloud. Poiché il volume e la frequenza dei dati sono molto inferiori rispetto ai dati di telemetria, il team non deve usare processi Spark. Sono state invece create pipeline di Azure Data Factory per copiare i dati.

Database di Azure per MySQL funge da metastore Hive e database SQL di Azure è il metastore di Azure Data Factory.

Prodotti di dati operativi

Gli analisti di Relecloud ottengono valore dai dati nelle applicazioni dati allineate all'origine creando nuove applicazioni dati allineate al consumer. Una di queste applicazioni dati allineate al consumer è un modello di raccomandazione del servizio cloud. I data scientist di Relecloud hanno usato Azure Machine Learning per creare un modello che esamina i servizi usati da un account cloud e suggerisce servizi correlati che potrebbero essere utili. Il team distribuisce questo modello in un cluster servizio Azure Kubernetes del servizio Azure Kubernetes in esecuzione nella zona di destinazione e gestito da Azure Machine Learning. Le applicazioni eseguite all'esterno dell'analisi su scala cloud possono chiamare l'endpoint del servizio Azure Kubernetes per ottenere raccomandazioni.

Dopo che il team di fatturazione ha creato la propria zona di destinazione, il team operativo crea un nuovo prodotto dati richiesto dal team di gestione. Il team di gestione vuole sapere quanti ricavi genera l'applicazione dati consigliata dal servizio cloud. Il nuovo prodotto Per i dati sui ricavi consigliato usa Azure Synapse Analytics per combinare i dati del servizio cloud consigliato e revenue by service in un nuovo prodotto dati. I business analyst possono connettersi ad Azure Synapse con Microsoft Power BI per trovare e segnalare le informazioni dettagliate di questo nuovo prodotto di dati.

Zona di destinazione dei dati di fatturazione

Il gruppo di fatturazione usava un sistema locale per alimentare l'analisi, ma man mano che il volume di dati è cresciuto e l'azienda si è basata più sul proprio lavoro, il sistema non poteva mantenere il ritmo. Il gruppo modernizza la piattaforma passando al cloud.

Il gruppo di fatturazione non condivide una zona di destinazione con il gruppo di operazioni, ma ottiene la propria zona di destinazione in cui ha la libertà di creare la piattaforma più adatta alle proprie esigenze. La nuova zona di destinazione è connessa alla zona di destinazione di gestione dei dati e a tutte le altre zone di destinazione dei dati con peering di rete virtuale. Questo meccanismo consente la condivisione sicura dei dati tramite la rete interna di Azure.

Applicazioni di dati di fatturazione

Per trasferire i dati dai sistemi esistenti nella piattaforma di analisi, il gruppo di fatturazione crea due applicazioni dati. La prima applicazione inserisce i dati del cliente, inclusi l'elenco completo dei clienti e tutti i dati correlati, ad esempio indirizzi dei clienti, località e assegnazioni di venditori. La seconda applicazione importa la cronologia delle fatture della società, che include tutti gli addebiti per la fatturazione ai clienti e i dati di pagamento correlati.

Entrambe queste applicazioni sono basate su pipeline nell'area di lavoro condivisa di Azure Synapse. Ogni applicazione ha un pool di calcolo dedicato per facilitare la contabilità dei costi e i limiti di sicurezza. Poiché le applicazioni possono essere completamente implementate con risorse condivise, il gruppo di fatturazione non deve creare una distribuzione per queste applicazioni dati.

Prodotto dati di fatturazione

Gli analisti della fatturazione creano un nuovo prodotto di dati denominato Revenue by Service che analizza la quantità di ricavi generati da ogni servizio cloud per Relecloud. Questo prodotto si basa sui dati nell'inserimento fatture . Il prodotto si connette anche alla zona di destinazione delle operazioni e legge i dati di utilizzo del servizio. Analogamente alle applicazioni dati, il prodotto dati si basa anche sull'area di lavoro condivisa di Azure Synapse.

Modelli di distribuzione

Per distribuire le architetture, usare i modelli di implementazione di implementazione di riferimento della zona di destinazione dei dati e della zona di destinazione dei dati seguenti:

Usare i modelli seguenti per distribuire le altre applicazioni dati e i prodotti dati nelle zone di destinazione dei dati di fatturazione e operazioni Relecloud:

Nome Zona di destinazione dei dati Type Template
Account cloud Operazioni Applicazione dati Modello batch dei prodotti di dati
Ricavi del suggeritore Operazioni Prodotto di dati Modello batch dei prodotti di dati
Suggeritore del servizio cloud Operazioni Applicazione dati Modello di analisi del prodotto di dati
Ricavi per servizio Fatturazione Prodotto di dati Modello batch dei prodotti di dati

Importante

Relecloud non deve distribuire tutti gli elementi nei modelli di implementazione di riferimento precedenti per soddisfare le proprie esigenze. I modelli richiedono un certo livello di personalizzazione. Rimuovere i servizi non necessari dai modelli prima della distribuzione.

Passaggi successivi

Passare allo scenario Lamna Healthcare per l'analisi sicura su scala cloud in Azure.

Per altre informazioni, vedere gli articoli seguenti: