Scenari di utilizzo di Power BI: Preparazione avanzata dei dati

Nota

Questo articolo fa parte della serie di articoli sulla pianificazione dell'implementazione di Power BI. Questa serie è incentrata principalmente sul carico di lavoro di Power BI all'interno di Microsoft Fabric. Per un'introduzione alla serie, vedere Pianificazione dell'implementazione di Power BI.

La preparazione dei dati (talvolta definita ETL, acronimo di Extract, Transform e Load) attività spesso comporta un grande sforzo. Il tempo, la competenza e lo sforzo necessari per raccogliere, pulire, combinare e arricchire i dati dipende dalla qualità e dalla struttura dei dati di origine.

Investire tempo e impegno nella preparazione centralizzata dei dati consente di:

  • Migliorare la riutilizzabilità e ottenere il massimo valore dalle attività di preparazione dei dati.
  • Migliorare la possibilità di fornire dati coerenti a più team.
  • Ridurre il livello di impegno richiesto da altri creatori di contenuti.
  • Ottenere scalabilità e prestazioni.

Lo scenario di utilizzo avanzato della preparazione dei dati si espande nello scenario di preparazione dei dati self-service. La preparazione avanzata dei dati riguarda l'aumento del riutilizzo del flusso di dati da parte di più utenti in vari team e per vari casi d'uso.

Le aree di lavoro separate, organizzate in base allo scopo del flusso di dati, sono utili quando l'output del flusso di dati viene fornito a più creatori semantici (noti in precedenza come set di dati), soprattutto quando si trovano in team diversi nell'organizzazione. Le aree di lavoro separate sono utili anche per la gestione dei ruoli di sicurezza quando le persone che creano e gestiscono flussi di dati sono diverse dalle persone che le usano.

Nota

Lo scenario di preparazione dei dati avanzata è il secondo degli scenari di preparazione dei dati. Questo scenario si basa su ciò che è possibile eseguire con flussi di dati centralizzati, come descritto nello scenario di preparazione dei dati self-service.

Lo scenario di preparazione dei dati avanzata è uno degli scenari di business intelligence self-service. Tuttavia, un membro del team centralizzato può usare le tecniche in modo analogo a quello descritto nello scenario di business intelligence self-service gestito. Per un elenco completo degli scenari self-service, vedere l'articolo Scenari di utilizzo di Power BI.

Per brevità, alcuni aspetti descritti nell'argomento scenari di collaborazione e distribuzione dei contenuti non sono trattati in questo articolo. Per una copertura completa, leggere prima questi articoli.

Diagramma dello scenario

Suggerimento

Se non si ha familiarità con questo scenario, è consigliabile esaminare lo scenario di utilizzo della preparazione dei dati self-service. Lo scenario avanzato di preparazione dei dati self-service si basa su tale scenario.

L'obiettivo di questo scenario avanzato di preparazione dei dati è:

  • Uso di flussi di dati separati in base allo scopo: staging, trasformazione o finale. È consigliabile usare blocchi predefiniti componibili per ottenere un riutilizzo maggiore, in varie combinazioni, per supportare requisiti utente specifici. I blocchi predefiniti componibili sono descritti più avanti in questo articolo.
  • Uso di aree di lavoro separate che supportano creatori di flussi di dati o consumer di flussi di dati. I modelli di dati, che usano flussi di dati, possono trovarsi in team diversi e/o hanno casi d'uso diversi.
  • Uso di tabelle collegate (note anche come entità collegate), tabelle calcolate (note anche come entità calcolate) e motore di calcolo avanzato.

Nota

In alcuni casi i termini modello semantico e modello di dati vengono usati in modo intercambiabile. In genere, dal punto di vista servizio Power BI, viene definito modello semantico. Dal punto di vista dello sviluppo, viene definito modello di dati (o modello per brevità). In questo articolo entrambi i termini hanno lo stesso significato. Analogamente, un creatore di modelli semantici e un modello di dati hanno lo stesso significato.

Il diagramma seguente illustra una panoramica generale delle azioni utente più comuni e dei componenti di Power BI che supportano lo scenario di preparazione dei dati avanzata.

Il diagramma mostra la preparazione avanzata dei dati, che riguarda il miglioramento della portata e della riutilizzabilità dei flussi di dati. Gli elementi nel diagramma sono descritti nella tabella seguente.

Suggerimento

È consigliabile scaricare il diagramma dello scenario se si vuole incorporarlo nella presentazione, nella documentazione o nel post di blog oppure stamparlo come poster a parete. Poiché si tratta di un'immagine SVG (Scalable Vector Graphics), è possibile aumentare o ridurre le prestazioni senza perdita di qualità.

Il diagramma dello scenario illustra le azioni, gli strumenti e le funzionalità utente seguenti:

Articolo Descrizione
Articolo 1. L'autore del flusso di dati sviluppa una raccolta di tabelle all'interno di un flusso di dati. Per un flusso di dati destinato al riutilizzo, è comune (ma non necessario) che l'autore appartenga a un team centralizzato che supporta gli utenti oltre i limiti dell'organizzazione (ad esempio IT, business BI o Centro di eccellenza).
Articolo 2. Il flusso di dati si connette ai dati da una o più origini dati.
Articolo 3. Alcune origini dati possono richiedere un gateway dati locale o un gateway di rete virtuale per l'aggiornamento dei dati, ad esempio quelli che risiedono all'interno di una rete organizzativa privata. Questi gateway vengono usati sia per la creazione del flusso di dati in Power Query Online che per l'aggiornamento del flusso di dati.
Articolo 4. Tutte le aree di lavoro coinvolte hanno la modalità di licenza impostata su Capacità infrastruttura, Capacità Premium, Premium per utente o Embedded. Queste modalità di licenza consentono l'uso di tabelle collegate e tabelle calcolate tra aree di lavoro, necessarie in questo scenario.
Articolo 5. Gli autori di flussi di dati sviluppano flussi di dati usando Power Query Online, una versione basata sul Web di Power Query.
Articolo 6. Un flusso di dati di staging viene creato in un'area di lavoro dedicata alla gestione centralizzata dei flussi di dati. Un flusso di dati di staging copia i dati non elaborati così come sono dall'origine. Pochi, se presenti, vengono applicate trasformazioni.
Articolo 7. Un flusso di dati di trasformazione (noto anche come flusso di dati pulito) viene creato nella stessa area di lavoro. Origini dati usando tabelle collegate al flusso di dati di staging. Le tabelle calcolate includono passaggi di trasformazione che preparano, puliscono e modificano i dati.
Articolo 8. Gli autori di flussi di dati hanno accesso per gestire il contenuto nell'area di lavoro dedicata alla gestione centralizzata dei flussi di dati.
Articolo 9. Esistono una o più aree di lavoro destinate a fornire l'accesso al flusso di dati finale, che fornisce dati pronti per la produzione ai modelli di dati.
Articolo 10. Il flusso di dati finale viene creato in un'area di lavoro disponibile per i modelli di dati. Origini dati usando tabelle collegate al flusso di dati di trasformazione. Le tabelle calcolate rappresentano l'output preparato visibile ai modelli di dati a cui viene concesso il ruolo visualizzatore dell'area di lavoro.
Articolo 11. Gli autori di modelli semantici (che usano l'output del flusso di dati) hanno accesso al visualizzatore all'area di lavoro che contiene l'output finale del flusso di dati. Gli autori di flussi di dati hanno anche accesso per gestire e pubblicare contenuto nell'area di lavoro (non illustrato nel diagramma dello scenario).
Articolo 12. Gli autori di modelli semantici usano il flusso di dati finale come origine dati durante lo sviluppo di un modello di dati in Power BI Desktop. Quando è pronto, l'autore del modello semantico pubblica il file di Power BI Desktop (con estensione pbix) che contiene il modello di dati nel servizio Power BI (non illustrato nel diagramma dello scenario).
Articolo 13. Gli amministratori dell'infrastruttura gestiscono le impostazioni nel portale di Amministrazione.
Articolo 14. Nel portale di Amministrazione gli amministratori di Power BI possono configurare le connessioni di Azure per archiviare i dati del flusso di dati nel proprio account Azure Data Lake Archiviazione Gen2 (ADLS Gen2). Impostazioni includere l'assegnazione di un account di archiviazione a livello di tenant e l'abilitazione delle autorizzazioni di archiviazione a livello di area di lavoro.
Articolo 15. Per impostazione predefinita, i flussi di dati archiviano i dati usando l'archiviazione interna gestita dal servizio Power BI. Facoltativamente, l'output dei dati dal flusso di dati può essere archiviato nell'account ADLS Gen2 dell'organizzazione.
Articolo 16. Gli amministratori dell'infrastruttura sorvegliano e monitorano l'attività nel portale di Fabric.

Punti chiave

Di seguito sono riportati alcuni punti chiave da sottolineare sullo scenario di preparazione dei dati avanzata.

Flussi di dati

Un flusso di dati è costituito da una raccolta di tabelle (note anche come entità). Ogni tabella è definita da una query, che contiene i passaggi di preparazione dei dati necessari per caricare la tabella con i dati. Tutto il lavoro per creare un flusso di dati viene eseguito in Power Query Online. È possibile creare un flusso di dati in più prodotti, tra cui Power Apps, Dynamics 365 Customer Insights e Power BI.

Nota

Non è possibile creare flussi di dati in un'area di lavoro personale nel servizio Power BI.

Tipi di flussi di dati

L'uso di blocchi predefiniti componibili è un principio di progettazione che consente di gestire, distribuire e proteggere i componenti di sistema e quindi usarli in varie combinazioni. La creazione di flussi di dati modulari e indipendenti specifici per uno scopo è una procedura consigliata. Consentono di ottenere il riutilizzo dei dati e la scalabilità aziendale. I flussi di dati modulari sono anche più facili da gestire e testare.

Nel diagramma dello scenario vengono visualizzati tre tipi di flussi di dati: flusso di dati di staging, flusso di dati di trasformazione e flusso di dati finale.

Flusso di dati di gestione temporanea

Un flusso di dati di staging (talvolta definito flusso di dati di estrazione dati) copia i dati non elaborati così come sono dall'origine. L'estrazione dei dati non elaborati con una trasformazione minima significa che i flussi di dati di trasformazione downstream (descritti di seguito) possono usare il flusso di dati di staging come origine. Questa modularità è utile quando:

  • L'accesso a un'origine dati è limitato a intervalli di tempo ristretti e/o ad alcuni utenti.
  • La coerenza temporale è quella di garantire che tutti i flussi di dati downstream (e i modelli semantici correlati) forniscano dati estratti dall'origine dati contemporaneamente.
  • La riduzione del numero di query inviate all'origine dati è necessaria a causa delle restrizioni del sistema di origine o della capacità di supportare le query analitiche.
  • Una copia dei dati di origine è utile per i processi di riconciliazione e le verifiche della qualità dei dati.

Flusso di dati della trasformazione

Un flusso di dati di trasformazione (talvolta definito flusso di dati pulito) origini i dati dalle tabelle collegate che si connettono al flusso di dati di staging. È consigliabile separare le trasformazioni dal processo di estrazione dei dati.

Un flusso di dati di trasformazione include tutti i passaggi di trasformazione necessari per preparare e ristrutturare i dati. Tuttavia, c'è ancora un focus sulla riutilizzabilità a questo livello per garantire che il flusso di dati sia adatto a più casi d'uso e scopi.

Flusso di dati finale

Un flusso di dati finale rappresenta l'output preparato. Alcune trasformazioni aggiuntive possono verificarsi in base al caso d'uso e allo scopo. Per l'analisi, una tabella dello schema star (dimensione o fatto) è la progettazione preferita del flusso di dati finale.

Le tabelle calcolate sono visibili ai modelli di dati a cui viene concesso il ruolo visualizzatore dell'area di lavoro. Questo tipo di tabella è descritto nell'argomento tipi di tabelle del flusso di dati di seguito.

Nota

I data lake hanno spesso zone, come bronzo, argento e oro. I tre tipi di flussi di dati rappresentano un modello di progettazione simile. Per prendere le decisioni migliori possibili sull'architettura dei dati, dare un'idea a chi manterrà i dati, l'uso previsto dei dati e il livello di competenza richiesto dagli utenti che accedono ai dati.

Aree di lavoro per i flussi di dati

Se si dovesse creare tutti i flussi di dati in una singola area di lavoro, l'estensione della riutilizzabilità sarebbe significativamente limitata. L'uso di una singola area di lavoro limita anche le opzioni di sicurezza disponibili per supportare più tipi di utenti tra team e/o per casi d'uso diversi. È consigliabile usare più aree di lavoro. Offrono una maggiore flessibilità quando è necessario supportare creatori self-service da diverse aree dell'organizzazione.

I due tipi di aree di lavoro mostrati nel diagramma dello scenario includono:

  • Area di lavoro 1: archivia flussi di dati gestiti centralmente (talvolta definiti area di lavoro back-end). Contiene sia i flussi di dati di gestione temporanea che i flussi di dati di trasformazione perché sono gestiti dagli stessi utenti. I creatori di flussi di dati spesso provengono da un team centralizzato, ad esempio IT, BI o Center of Excellence. Devono essere assegnati al ruolo di amministratore, membro o collaboratore dell'area di lavoro.
  • Area di lavoro 2: archivia e distribuisce l'output finale del flusso di dati ai consumer dei dati (talvolta definito area di lavoro utente). Gli autori di modelli semantici sono spesso analisti self-service, utenti esperti o ingegneri dei dati dei cittadini. Devono essere assegnati al ruolo visualizzatore dell'area di lavoro perché devono usare solo l'output del flusso di dati finale. Per supportare creatori di modelli semantici provenienti da diverse aree dell'organizzazione, è possibile creare numerose aree di lavoro come questa, in base alle esigenze di sicurezza e dei casi d'uso.

Suggerimento

È consigliabile esaminare i modi per supportare gli autori di modelli semantici come descritto nello scenario di utilizzo della preparazione dei dati self-service. È importante comprendere che gli autori di modelli semantici possono comunque usare le funzionalità complete di Power Query in Power BI Desktop. Possono scegliere di aggiungere passaggi di query per trasformare ulteriormente i dati del flusso di dati o unire l'output del flusso di dati con altre origini.

Tipi di tabelle del flusso di dati

Tre tipi di tabelle del flusso di dati (note anche come entità) vengono illustrati nel diagramma dello scenario.

  • Tabella standard: esegue query su un'origine dati esterna, ad esempio un database. Nel diagramma dello scenario le tabelle standard vengono descritte nel flusso di dati di staging.
  • Tabella collegata: fa riferimento a una tabella da un altro flusso di dati. Una tabella collegata non duplica i dati. Invece, consente il riutilizzo di una tabella standard più volte per più scopi. Le tabelle collegate non sono visibili ai visualizzatori dell'area di lavoro perché ereditano le autorizzazioni dal flusso di dati originale. Nel diagramma dello scenario le tabelle collegate vengono rappresentate due volte:
    • Nel flusso di dati di trasformazione per l'accesso ai dati nel flusso di dati di staging.
    • Nel flusso di dati finale per l'accesso ai dati nel flusso di dati di trasformazione.
  • Tabella calcolata: esegue calcoli aggiuntivi usando un flusso di dati diverso come origine. Le tabelle calcolate consentono di personalizzare l'output in base alle esigenze per i singoli casi d'uso. Nel diagramma dello scenario le tabelle calcolate vengono rappresentate due volte:
    • Nel flusso di dati della trasformazione per eseguire trasformazioni comuni.
    • Nel flusso di dati finale per la distribuzione dell'output ai creatori di modelli semantici. Poiché le tabelle calcolate salvano nuovamente i dati (dopo l'aggiornamento del flusso di dati), i modelli di dati possono accedere alle tabelle calcolate nel flusso di dati finale. In questo caso, ai modelli di dati deve essere concesso l'accesso con il ruolo visualizzatore dell'area di lavoro.

Nota

Esistono molte tecniche di progettazione, modelli e procedure consigliate che possono portare flussi di dati da self-service a enterprise.there are many design techniques, patterns, and best practices that can take dataflows from self-service to enterprise-ready. Inoltre, i flussi di dati in un'area di lavoro con la modalità licenza impostata su Premium per utente o capacità Premium possono trarre vantaggio dalle funzionalità avanzate. Le tabelle collegate e le tabelle calcolate (note anche come entità) sono due funzionalità avanzate essenziali per aumentare la riutilizzabilità dei flussi di dati.

Motore di calcolo avanzato

Il motore di calcolo avanzato è una funzionalità avanzata disponibile con Power BI Premium.

Importante

A volte questo articolo si riferisce a Power BI Premium o alle relative sottoscrizioni di capacità (SKU P). Tenere presente che Microsoft sta attualmente consolidando le opzioni di acquisto e ritirando gli SKU di Power BI Premium per capacità. I clienti nuovi ed esistenti devono invece prendere in considerazione l'acquisto di sottoscrizioni della capacità di Fabric (SKU F).

Per altre informazioni, vedere Aggiornamenti importanti in arrivo per le licenze di Power BI Premium e Domande frequenti su Power BI Premium.

Il motore di calcolo avanzato migliora le prestazioni delle tabelle collegate (all'interno della stessa area di lavoro) che fanno riferimento (collegamento a) al flusso di dati. Per ottenere il massimo vantaggio dal motore di calcolo avanzato:

  • Suddividere i flussi di dati di gestione temporanea e trasformazione.
  • Usare la stessa area di lavoro per archiviare i flussi di dati di gestione temporanea e trasformazione.
  • Applicare operazioni complesse che possono eseguire una riduzione delle query nelle prime fasi della query. La definizione delle priorità delle operazioni piegabili consente di ottenere prestazioni di aggiornamento ottimali.
  • Usare l'aggiornamento incrementale per ridurre le durate di aggiornamento e il consumo delle risorse.
  • Eseguire test in anticipo e spesso durante la fase di sviluppo.

Aggiornamento del flusso di dati e del modello semantico

Un flusso di dati è un'origine di dati per i modelli semantici. Nella maggior parte dei casi sono coinvolte più pianificazioni di aggiornamento dati: una per ogni flusso di dati e una per ogni modello semantico. In alternativa, è possibile usare DirectQuery dal modello semantico al flusso di dati, che richiede Power BI Premium e il motore di calcolo avanzato (non illustrato nel diagramma dello scenario).

Azure Data Lake Storage Gen2

Un account ADLS Gen2 è un tipo specifico di account di archiviazione di Azure con lo spazio dei nomi gerarchico abilitato. ADLS Gen2 offre vantaggi per prestazioni, gestione e sicurezza per i carichi di lavoro analitici operativi. Per impostazione predefinita, i flussi di dati di Power BI usano l'archiviazione interna, ovvero un account data lake predefinito gestito dal servizio Power BI. Facoltativamente, le organizzazioni possono portare il proprio data lake connettendosi a un account ADLS Gen2 nella propria organizzazione.

Ecco alcuni vantaggi dell'uso del proprio data lake:

  • Gli utenti (o i processi) possono accedere direttamente ai dati del flusso di dati archiviati nel data lake. Questo è utile quando il riutilizzo del flusso di dati si verifica oltre Power BI. Ad esempio, Azure Data Factory può accedere ai dati del flusso di dati.
  • Altri strumenti o sistemi possono gestire i dati nel data lake. In questo caso, Power BI potrebbe usare i dati anziché gestirli (non illustrati nel diagramma dello scenario).

Quando si usano tabelle collegate o tabelle calcolate, assicurarsi che ogni area di lavoro sia assegnata allo stesso account di archiviazione ADLS Gen2.

Nota

I dati del flusso di dati in ADLS Gen2 vengono archiviati all'interno di un contenitore specifico di Power BI. Questo contenitore è illustrato nel diagramma dello scenario di utilizzo della preparazione dei dati self-service.

impostazioni del portale di Amministrazione

Esistono due impostazioni importanti da gestire nel portale di Amministrazione:

  • Connessioni di Azure: la sezione Connessioni di Azure del portale di Amministrazione include un'impostazione per configurare una connessione a un account ADLS Gen2. Questa impostazione consente a un amministratore di Power BI di portare i propri flussi di dati nel data lake . Dopo la configurazione, le aree di lavoro possono usare l'account Data Lake per l'archiviazione.
  • Archiviazione a livello di area di lavoro: un amministratore di Power BI può impostare le autorizzazioni di archiviazione a livello di area di lavoro. Se abilitata, l'impostazione consente agli amministratori dell'area di lavoro di usare un account di archiviazione diverso a quello impostato a livello di tenant. L'abilitazione di questa impostazione è utile per le business unit decentralizzate che gestiscono il proprio data lake in Azure.

Configurazione del gateway

In genere, è necessario un gateway dati locale per la connessione a origini dati che si trovano all'interno di una rete organizzativa privata o di una rete virtuale.

Un gateway dati è necessario quando:

  • Creazione di un flusso di dati in Power Query Online che si connette a dati aziendali privati.
  • Aggiornamento di un flusso di dati che si connette ai dati aziendali privati.

Suggerimento

I flussi di dati richiedono un gateway dati centralizzato in modalità standard. Un gateway in modalità personale non è supportato quando si utilizzano flussi di dati.

Supervisione del sistema

Il log attività registra le attività utente che si verificano nel servizio Power BI. Gli amministratori di Power BI possono usare i dati del log attività raccolti per eseguire il controllo per aiutarli a comprendere i modelli di utilizzo e l'adozione. Il log attività è utile anche per supportare le attività di governance, i controlli di sicurezza e i requisiti di conformità. Nello scenario di preparazione dei dati avanzata, i dati del log attività sono utili per tenere traccia della gestione e dell'uso dei flussi di dati.

Per altri scenari utili che consentono di prendere decisioni di implementazione di Power BI, vedere l'articolo Scenari di utilizzo di Power BI.