Standard di elaborazione dei dati per intelligenza artificiale e analisi

Una piattaforma dati unificata dipende da standard di inserimento, trasformazione e pubblicazione coerenti, in modo che i leader possano considerare attendibili i dati per l'analisi e l'intelligenza artificiale. Raccomandazione: Stabilire standard a livello di organizzazione che controllano i dati immessi in OneLake, il modo in cui i team affinano i dati e il modo in cui i prodotti dati regolati raggiungono i consumer (vedere la figura 1). Per applicare questa raccomandazione, usare questo articolo come elenco di controllo:

Figura 1. Tre passaggi per impostare gli standard operativi per i dati.

1. Impostare gli standard di inserimento dati

OneLake funge da data lake centrale per l'analisi e l'intelligenza artificiale in Microsoft Fabric, quindi i leader devono controllare cosa entra. Raccomandazione: Impostare limiti chiari in modo che i team inseriscono solo i dati che supportano i risultati aziendali definiti. Per applicare questa raccomandazione, usare l'elenco di controllo seguente.

Quali dati unifichi? L'unificazione dei dati in OneLake significa selezionare i dati che supportano un prodotto dati associato a un risultato aziendale misurabile. Procedure consigliate: Inserire i dati in OneLake solo se supporta un prodotto dati e aggiunge valore aziendale. Considerare l'inserimento dati come decisione del prodotto anziché come impostazione predefinita tecnica. Indicazioni sulle decisioni: Decidere di inserire dati quando spiega o misura un processo aziendale o un risultato che i leader tengono traccia. Scegliere di lasciare i dati nei sistemi operativi o nell'archiviazione di reparto quando non esiste alcun caso d'uso attivo. Questa scelta riduce i costi di archiviazione e il sovraccarico di governance.
Mantenere i contenuti di collaborazione e conoscenza in Microsoft 365. I dati di Microsoft 365 supportano gli agenti Copilot di Microsoft 365. Questi agenti recuperano documenti, messaggi di posta elettronica e artefatti di collaborazione rispettando le autorizzazioni esistenti. Vedere Architettura copilot di Microsoft 365. Procedure consigliate: Usare Microsoft 365 come sistema di record per il contenuto il cui scopo principale è la collaborazione, il riferimento o il recupero delle informazioni. Usare la guida all'adozione di Microsoft 365 per preparare questi dati.
Integrare i database operativi tramite modelli supportati. I database operativi forniscono spesso scenari di analisi e intelligenza artificiale, ma l'accesso diretto crea rischi e instabilità. Procedure consigliate: Usare modelli supportati da Microsoft Fabric, ad esempio collegamenti per l'accesso virtuale e il mirroring per l'accesso replicato. I database di Azure spesso richiedono il mirroring per un'integrazione affidabile. Indicazioni sulle decisioni: Scegliere le scorciatoie quando l'accesso virtuale soddisfa alle esigenze di prestazioni. Scegliere il mirroring quando le prestazioni di analisi, l'isolamento o il riutilizzo downstream richiedono una copia fisica in OneLake.
Integrare data lake esistenti. Molte organizzazioni gestiscono già data lake, ad esempio Azure Data Lake Storage (ADLS), Google Cloud Storage o Amazon S3. Procedure consigliate: Considerare i laghi esistenti come parte del patrimonio dati unificato invece di forzare la migrazione immediata. Usare collegamenti o mirroring. Indicazioni sulle decisioni: Decidere in base all'idoneità e al rischio. Per evitare la duplicazione, scegliere i tasti di scelta rapida. Scegliere il mirroring quando la coerenza, le prestazioni o la conformità superano i costi di duplicazione.
Visualizzare gli output di Azure Databricks in OneLake. Azure Databricks spesso produce già dati di analisi curati. Procedure consigliate: Mantenere le pipeline di Databricks sul posto e visualizzare gli output Gold finali in OneLake. Indicazioni sulle decisioni: Scegliere le scorciatoie per evitare la replica e quando l'accesso remoto soddisfa le esigenze. Scegliere il mirroring quando i modelli di governance o consumo richiedono dati locali.
Separare l'assunzione di dati interni ed esterni. I dati di analisi interni e i dati esterni richiedono controlli diversi. Procedure consigliate: Creare aree di lavoro separate o aree lake per i prodotti dati esterni. Archiviare solo set di dati esterni approvati in tali posizioni. Indicazioni sulle decisioni: Decidere in anticipo se i dati supportano decisioni interne o condivisione esterna. Scegliere la separazione fisica per ridurre l'esposizione accidentale e semplificare l'applicazione dei criteri di sicurezza.

2. Impostare gli standard di trasformazione dei dati

Il recupero dei dati in OneLake è solo il primo passaggio. Il valore reale deriva dalla trasformazione dei dati non elaborati in prodotti dati di alta qualità e pronti all'uso. I leader non progettano pipeline, ma definiscono piattaforme e standard architetturali che impediscono la frammentazione. Raccomandazione: Standardizzare le piattaforme di trasformazione e applicare un'architettura di perfezionamento coerente. Per applicare questa raccomandazione, usare l'elenco di controllo seguente:

2.1. Usare la piattaforma dati appropriata

La scelta della piattaforma imposta i requisiti operativi per i prodotti dati in ambienti Microsoft e Azure. Raccomandazione: Per ogni prodotto dati, bilanciare la semplicità e l'integrazione con la necessità di funzionalità di progettazione specializzate. Per applicare questa raccomandazione, usare l'elenco di controllo seguente:

Fabric (impostazione predefinita). Fabric offre motori integrati di ingegneria dei dati, analisi e BI che operano direttamente su OneLake, che funge da patrimonio di dati regolamentati unificato per l'organizzazione. Procedure consigliate: Usare Fabric per l'analisi standard, la creazione di report e la preparazione dei dati. Favorire i motori nativi di Fabric, ad esempio Flussi di dati Gen2, Spark e SQL, per semplificare il controllo di accesso, la derivazione e la gestione dei costi. Usare OneLake come singolo livello di archiviazione. Indicazioni sulle decisioni: Scegliere Fabric quando i requisiti si adattano alle funzionalità predefinite e quando la leadership valorizza la governance e la fatturazione unificate. Accettare una personalizzazione limitata in cambio di un sovraccarico operativo inferiore.
Azure Databricks. Molte persone preferiscono Azure Databricks. Supporta l'elaborazione su larga scala e scenari avanzati di Machine Learning. Procedure consigliate: Continuare a usare Databricks in cui esistono già competenze o scalabilità. Richiedi che gli output siano collocati in OneLake o connettiti tramite scorciatoie OneLake affinché la governance, la sicurezza e l'individuazione rimangano centralizzate. Indicazioni sulle decisioni: Scegliere Databricks quando Fabric non soddisfa i requisiti correnti. Accettare un maggiore sovraccarico di integrazione e competenza come compromesso.
Applicare i limiti di proprietà della piattaforma. Definire chiaramente i limiti della piattaforma impedisce costi duplicati e logica incoerente nei sistemi. Procedure consigliate: Assegnare la responsabilità per ogni classe di carico di lavoro a una piattaforma. Richiedere una revisione dell'architettura prima di approvare l'elaborazione multipiattaforma. Indicazioni sulle decisioni: Decidere quale piattaforma possiede i risultati di inserimento, trasformazione e analisi. Evitare trasformazioni duplicate e pipeline sovrapposte che offrono lo stesso risultato aziendale.

2.2. Applicare l'architettura medallion

L'architettura medallion stabilisce attendibilità, coerenza e governance in tutti i prodotti dati definendo una chiara progressione dai dati non elaborati agli output pronti per l'azienda. Raccomandazione: Richiedere a tutti i prodotti di dati in OneLake di seguire una struttura di bronzo, argento e oro e impedire scorciatoie che ignorano questi livelli. Per applicare questa raccomandazione, usare l'elenco di controllo seguente:

Impone un livello bronzo come sistema di record (inserimento non elaborato): il livello bronzo acquisisce i dati esattamente non appena arriva in OneLake e preserva la fedeltà alla fonte originale. Procedure consigliate: Archiviare i dati come solo accodamento e non modificabili. Proibire correzioni o arricchimenti in questa fase. Richiedere che ogni set di dati in ingresso sia prima memorizzato nella fase bronzo. Indicazioni sulle decisioni: Decidere che il bronzo esiste solo per preservare la verità dai sistemi di origine. Accettare una minore usabilità in cambio di verificabilità e tracciabilità.
Impostare il livello silver come visualizzazione attendibile. Il livello silver contiene dati convalidati, standardizzati e puliti su cui i team si basano per l'analisi coerente. Procedure consigliate: Applicare regole di qualità dei dati, allineamento del formato e convalida aziendale di base. Documentare set di dati silver in modo chiaro e gestire le modifiche tramite processi di governance. Indicazioni per la decisione: Selezionare "silver" come strato risanato autorevole. Impedire ai team di ripulire i dati non elaborati in modo indipendente, che portano a interpretazioni contrastanti.
Gold (contesto aziendale, prodotti dati): Certificare i set di dati gold come prodotti di dati aziendali. Il livello oro offre prodotti dati regolati che i leader usano per decisioni, rilevamento delle prestazioni e creazione di report. Procedure consigliate: Allineare i dati oro alle definizioni e alle metriche di business approvate. Ottimizzare le strutture per il consumo. Registrare ogni set di dati gold come prodotto di dati in Microsoft Purview con proprietà, scopo e dettagli di aggiornamento. Indicazioni sulle decisioni: Decidere che qualsiasi set di dati usato tra i team o per le decisioni debba esistere in oro. Rifiutare set di dati non gestiti o non certificati che ignorano la governance.
Creare prodotti sanificati per uso esterno. La condivisione esterna richiede una separazione deliberata dai dati operativi interni. Procedure consigliate: Produrre set di dati curati che rimuovono o mascherano i campi sensibili e riducono i dettagli dove necessario. Assegnare la proprietà e applicare etichette chiare, ad esempio Uso pubblico o Uso esterno. Archiviare questi set di dati in posizioni approvate. Indicazioni sulle decisioni: Scegliere di considerare i set di dati esterni come prodotti indipendenti. Accettare i passaggi di governance aggiunti per ridurre i rischi legali e di sicurezza.

Fabric supporta questo modello tramite viste materializzate del data lake che possono gestire automaticamente le trasformazioni. Vedere Medallion Lakehouse Architecture in Fabric. Per un'architettura di analisi, vedere Analisi end-to-End con Microsoft Fabric.

Tabella. Esempio di architettura medallion. Il livello Gold combina i dati di due set di dati.

Dataset	Livello	Dati di Esempio	Cos'è successo
Transazioni di vendita	Bronzo	OrderID=984321 · StoreID=17 · Amount="1.200" · TxnDate="2026-01-05T14:32:09Z"	Questo record è arrivato dal sistema di vendita esattamente come inviato. La quantità è testo. Timestamp segue il formato di sistema. Non viene applicato alcun significato.
	Argento	OrderID=984321 · StoreID=17 · Amount=1200.00 · TxnDate=2026-01-05	La transazione è standardizzata e convalidata. La quantità è numerica. La data segue le regole dell'azienda. I dati sono ora attendibili.
Informazioni di riferimento su Store	Bronzo	StoreID="17" · RegionName="EAST "	Questo record è arrivato da un sistema di posizione. La formattazione riflette l'origine.
	Argento	StoreID=17 · Region=East	Gli identificatori dello Store sono allineati ai dati di vendita. I valori dell'area sono puliti e coerenti.
Ricavi giornalieri per area	Oro	Region=East · Date=2026-01-05 · TotalRevenue=425000	Questo valore combina le transazioni di vendita Silver con i dati di riferimento di Silver Store. I singoli record vengono riepilogati per rispondere a una domanda aziendale.

2.3. Prendere in considerazione uno strato d'oro adattivo

Adaptive Gold è incluso qui come considerazione prospettica. L'idea è che si usano agenti di intelligenza artificiale per creare livelli oro. Gli agenti possono osservare modelli che tu potresti non essere in grado di. Se gli utenti chiedono spesso "problemi principali dei clienti per area al mese", gli agenti di intelligenza artificiale possono materializzare tale set di dati. Questa funzionalità non è attualmente disponibile in Microsoft Fabric. Sarebbe necessario creare un agente di intelligenza artificiale personalizzato che opera su Fabric e i dati di telemetria di Power BI.

3. Impostare gli standard di pubblicazione dei prodotti dati

Gli standard di pubblicazione definiscono il modo in cui l'organizzazione espone prodotti dati attendibili tramite Microsoft Fabric OneLake e Microsoft Purview. L'obiettivo è ridimensionare il riutilizzo, applicare la governance e ridurre i rischi tra carichi di lavoro di analisi e intelligenza artificiale. Raccomandazione: Stabilire un singolo standard di pubblicazione che rende ogni prodotto dati approvato individuabile, disciplinato e chiaramente destinato a un pubblico definito prima dell'uso generale. Per applicare questa raccomandazione, usare l'elenco di controllo seguente:

Standardizzare la pubblicazione tramite OneLake Catalog. OneLake Catalog offre una superficie di accesso unificata per i prodotti dati tra Fabric e piattaforme di elaborazione esterne, ad esempio Databricks. Procedure consigliate: Usare OneLake come livello di esecuzione e consumo predefinito per tutti i prodotti dati approvati. Considerare Microsoft Purview come sistema di record per la governance e le definizioni aziendali. Questo allineamento consente a Power BI, agli agenti dati di Fabric e a Ricerca di intelligenza artificiale di Azure di usare i dati in modo coerente, abilitando al contempo la visibilità centralizzata della governance.
Garantire l'individuabilità. L'individuabilità garantisce ai decision maker e ai consumatori di trovare prodotti di dati attendibili senza basarsi su conoscenze informali. Procedure consigliate: Configurare la visibilità dell'area di lavoro Fabric affinché i destinatari pertinenti possano individuare gli elementi. Non hanno bisogno dell'accesso, ma solo la possibilità di richiedere l'accesso. Abilitare i flussi di lavoro delle richieste di accesso purview in modo che gli utenti possano richiedere l'autorizzazione direttamente dal catalogo. Indicazioni sulle decisioni: Scegliere un'ampia individuabilità quando l'obiettivo è il riutilizzo tra domini. Scegliere individuabilità limitata quando si applicano vincoli normativi o di riservatezza. Bilanciare la visibilità con i controlli di accesso anziché nascondere gli asset.
Obbligare l'arricchimento dei metadati al momento della pubblicazione. I metadati forniscono contesto che consente ai leader di valutare l'idoneità, la fiducia e il riutilizzo di un prodotto dati. Procedure consigliate: Richiedere metadati descrittivi nella pubblicazione. Usare i tag in Fabric per classificare i prodotti in base al dominio aziendale o all'iniziativa. Assicurarsi che le descrizioni spieghino lo scopo e l'ambito dei dati. Questa procedura supporta la ricerca nel catalogo e migliora la fiducia nel riutilizzo. Indicazioni sulle decisioni: Decidere se i requisiti dei metadati rimangono minimi o applicare uno schema standard. Scegliere uno schema standard quando l'organizzazione gestisce più domini e richiede coerenza. Scegliere un approccio più leggero per le fasi iniziali della maturità.
Approvare e certificare quando appropriato. Definire criteri di approvazione e certificazione. L'approvazione segnala il livello di attendibilità e la maturità della governance all'organizzazione. Procedure consigliate: Usare Promosso per indicare i prodotti raccomandati dal dominio. Usare Certified per indicare i prodotti che hanno superato una revisione formale della governance. Applicare la certificazione ai set di dati Gold che supportano la creazione di report esecutivi o l'analisi critica. Fare riferimento alla guida all'approvazione di Fabric in Endorsement. Indicazioni sulle decisioni: Decidere quali prodotti richiedono la certificazione. Scegliere la certificazione obbligatoria per i carichi di lavoro esecutivi o normativi. Scegliere la certificazione facoltativa quando la velocità e la sperimentazione hanno la priorità. Accettare un onboarding più lento come compromesso per una maggiore attendibilità.
Pubblicare come prodotto dati in Purview. I prodotti dati purview offrono una visualizzazione di livello superiore che raggruppa gli asset in un ciclo di vita del prodotto gestito. Procedure consigliate: Creare una voce di prodotto dati Purview per ogni prodotto dati pubblicato. Includere il nome del prodotto, la descrizione, i proprietari, lo stato di qualità e gli asset correlati, ad esempio tabelle, modelli e report. Risorse di dati di riferimento nel Unified Catalog. Indicazioni sulle decisioni: Decidere se i prodotti dati Purview sono necessari per tutti gli asset pubblicati o solo per i prodotti strategici. Scegliere la copertura completa quando la visibilità del portfolio è importante. Scegliere una copertura selettiva quando la capacità di governance è limitata.
Dichiarare destinatari e utilizzo previsti. La finalità chiara impedisce l'uso improprio e supporta la conformità tra scenari di analisi e intelligenza artificiale. Procedure consigliate: Richiedere a ogni prodotto dati di dichiarare il gruppo di destinatari previsto e il tipo di carico di lavoro supportato. Specificare l'uso interno, partner o pubblico. Identificare scenari di intelligenza artificiale, di analisi, di business intelligence o Web pubblici. Usare i metadati Purview, i termini di glossario e le etichette di riservatezza insieme per esprimere questa finalità in modo coerente. Indicazioni sulle decisioni: Decidere se l'uso esterno o dell'agente richiede un'approvazione aggiuntiva. Scegliere l'approvazione più rigorosa quando i dati lasciano i limiti dell'organizzazione. Accettare una pubblicazione più lenta come compromesso per ridurre i rischi.

Passo successivo

Standard di sicurezza dei dati

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-03-11