Guida allo studio per l'esame DP-203: Ingegneria dei dati in Microsoft Azure

Avvertimento

Questo esame è stato ritirato il 31 marzo 2025 alle 11:59 ora solare centrale. Altre informazioni.

Scopo di questo documento

Questa guida allo studio dovrebbe aiutare a comprendere cosa aspettarsi dall'esame e include un riepilogo dei possibili argomenti trattati dall'esame e collegamenti a risorse aggiuntive. Le informazioni e i materiali forniti in questo documento dovrebbero aiutare a concentrarsi sugli studi durante la preparazione dell'esame.

Collegamenti utili Descrizione
Come conseguire la certificazione Alcune certificazioni richiedono solo il superamento di un esame, mentre altre richiedono il superamento di più esami.
Rinnovo della certificazione Le certificazioni Microsoft Associate, Expert e Specialty hanno scadenza annuale. È possibile rinnovarle superando una valutazione online gratuita su Microsoft Learn.
Profilo personale di Microsoft Learn La connessione del profilo di certificazione a Microsoft Learn consente di pianificare e rinnovare gli esami e di condividere e stampare i certificati.
Assegnazione dei punteggi degli esami e report dei punteggi Per superare l'esame, è necessario un punteggio minimo pari a 700.
Sandbox dell'esame è possibile esplorare l'ambiente di esame visitando la sandbox dell'esame.
Richiedere gli alloggi Se si usano dispositivi con assistive technology oppure si ha bisogno di tempo supplementare o di modifiche a qualsiasi aspetto dell'esperienza di esame, è possibile richiedere un alloggio.
Eseguire una valutazione pratica gratuita Testa le tue competenze con domande di prova per contribuire alla preparazione all'esame.

Aggiornamenti all'esame

Gli esami vengono aggiornati periodicamente per rispecchiare le competenze necessarie per svolgere un ruolo.

La versione in lingua inglese dell'esame viene sempre aggiornata per prima. Alcuni esami vengono localizzati in altre lingue e le versioni localizzate vengono aggiornate circa otto settimane dopo l'aggiornamento della versione inglese. Le altre lingue disponibili sono elencate nella sezione sulla pianificazione dell'esame della pagina dei dettagli dell'esame. Se l'esame non è disponibile nella lingua preferita, è possibile richiedere 30 minuti in più per completare l'esame.

Nota

I punti elenco che seguono ognuna delle competenze misurate illustrano come viene valutata tale competenza. Nell'esame possono essere trattati alcuni argomenti correlati.

Nota

La maggior parte delle domande riguarda funzionalità disponibili a livello generale. L'esame può contenere anche domande su funzionalità di anteprima, se queste funzionalità sono d'uso comune.

Competenze misurate a partire dal 24 ottobre 2024

Profilo dei partecipanti

I candidati per questo esame dovranno avere esperienza in materia di integrazione, trasformazione e consolidamento dei dati da vari sistemi di dati strutturati, non strutturati e in streaming in uno schema adatto per la creazione di soluzioni di analisi.

Gli ingegneri dei dati di Azure aiutano gli stakeholder a comprendere i dati tramite l'esplorazione e a creare e gestire pipeline di elaborazione dati sicure e conformi usando diversi strumenti e tecniche. Usano vari framework e servizi dati di Azure per archiviare e produrre set di dati puliti e ottimizzati per l'analisi. Questo archivio dati può essere progettato con modelli di architettura diversi in base ai requisiti aziendali, tra cui:

  • Data warehouse moderno

  • Big Data

  • Architettura di lakehouse

Gli ingegneri dei dati di Azure garantiscono anche che l'operatività di pipeline di dati e archivi dati sia ad alte prestazioni, efficiente, organizzata e affidabile, in base a un set di requisiti e vincoli aziendali. Sono in grado di identificare e risolvere i problemi operativi e di qualità dei dati. Si occupano anche di progettare, implementare, monitorare e ottimizzare le piattaforme dati in base ai requisiti delle pipeline di dati.

I candidati per questo esame devono avere una solida conoscenza dei linguaggi di elaborazione dei dati, tra cui:

  • SQL

  • Pitone

  • Linguaggio di programmazione Scala

È necessario comprendere i modelli di elaborazione parallela e architettura dei dati. Devono essere esperti nell'uso di quanto segue per creare soluzioni di elaborazione dati:

  • Azure Data Factory

  • Azure Synapse Analytics

  • Analisi di flusso di Azure

  • Hub eventi di Azure

  • Azure Data Lake Storage

  • Azure Databricks

Riepilogo delle competenze

  • Progettare e implementare l'archiviazione dei dati (15-20%)

  • Sviluppare l'elaborazione dei dati (40-45%)

  • Proteggere, monitorare e ottimizzare l'archiviazione e l'elaborazione dei dati (30-35%)

Progettare e implementare l'archiviazione dei dati (15-20%)

Implementare una strategia di partizione

  • Implementare una strategia di partizione per i file

  • Implementare una strategia di partizione per i carichi di lavoro analitici

  • Implementare una strategia di partizione per i carichi di lavoro di streaming

  • Implementare una strategia di partizione per Azure Synapse Analytics

  • Identificare quando è necessario il partizionamento in Azure Data Lake Storage Gen2

Progettare e implementare il livello di esplorazione dei dati

  • Creare ed eseguire query usando una soluzione di calcolo che sfrutta cluster SQL serverless e Spark

  • Consigliare e implementare modelli di database di Azure Synapse Analytics

  • Eseguire il push di una derivazione dei dati nuova o aggiornata in Microsoft Purview

  • Esplorare e cercare i metadati in Microsoft Purview Data Catalog

Sviluppare l'elaborazione dei dati (40-45%)

Inserire e trasformare i dati

  • Progettare e implementare caricamenti di dati incrementali

  • Trasformare i dati usando Apache Spark

  • Trasformare i dati usando Transact-SQL (T-SQL) in Azure Synapse Analytics

  • Inserire e trasformare i dati usando Azure Synapse Pipelines o Azure Data Factory

  • Trasformare i dati usando Analisi di flusso di Azure

  • Pulire i dati

  • Gestire i dati duplicati

  • Evitare la duplicazione dei dati usando Analisi di flusso di Azure recapitato esattamente una volta

  • Gestire i dati mancanti

  • Gestire i dati in ritardo

  • Dividere i dati

  • Eseguire lo shredding di JSON

  • Codificare e decodificare i dati

  • Configurare la gestione degli errori per una trasformazione

  • Normalizzare e denormalizzare i dati

  • Eseguire l'analisi esplorativa dei dati

Sviluppare una soluzione di elaborazione batch

  • Sviluppare soluzioni di elaborazione batch usando Azure Data Lake Storage Gen2, Azure Databricks, Azure Synapse Analytics e Azure Data Factory

  • Usare PolyBase per caricare i dati in un pool SQL

  • Implementare Collegamento ad Azure Synapse ed eseguire query sui dati replicati

  • Creare pipeline di dati

  • Ridimensionare le risorse

  • Configurare le dimensioni del batch

  • Creare test per le pipeline di dati

  • Integrare notebook Jupyter o Python in una pipeline di dati

  • Eseguire l’upsert dei dati batch

  • Ripristinare uno stato precedente dei dati

  • Configurare la gestione delle eccezioni

  • Configurare la conservazione dei batch

  • Leggere da e scrivere in un delta lake

Sviluppare una soluzione di elaborazione di flusso

  • Creare una soluzione di elaborazione di flusso usando Analisi di flusso e Hub eventi di Azure

  • Elaborare i dati usando lo streaming strutturato Spark

  • Creare aggregazioni con finestre

  • Gestire lo spostamento schema

  • Elaborare dati di serie temporali

  • Elaborare dati tra partizioni

  • Eseguire l'elaborazione all'interno di una partizione

  • Configurare checkpoint e watermarking durante l'elaborazione

  • Ridimensionare le risorse

  • Creare test per le pipeline di dati

  • Ottimizzare le pipeline per scopi analitici o transazionali

  • Gestire le interruzioni

  • Configurare la gestione delle eccezioni

  • Eseguire l’upsert dei dati di flusso

  • Riprodurre i dati di flusso archiviati

  • Leggere da e scrivere in un delta lake

Gestire batch e pipeline

  • Attivare batch

  • Gestire i caricamenti in batch non riusciti

  • Convalidare i caricamenti in batch

  • Gestire pipeline di dati in Azure Data Factory o Azure Synapse Pipelines

  • Pianificare le pipeline di dati in Data Factory o in Azure Synapse Pipelines

  • Implementare il controllo della versione per gli artefatti della pipeline

  • Gestire i processi Spark in una pipeline

Proteggere, monitorare e ottimizzare l'archiviazione e l'elaborazione dei dati (30-35%)

Implementare la sicurezza dei dati

  • Implementare maschere dati

  • Crittografare i dati inattivi e in movimento

  • Implementare la sicurezza a livello di riga e a livello di colonna

  • Implementare il controllo degli accessi in base al ruolo di Azure

  • Implementare elenchi di controllo di accesso (ACL) in stile POSIX per Data Lake Storage Gen2

  • Implementare criteri di conservazione dati

  • Implementare endpoint sicuri (privati e pubblici)

  • Implementare token di risorsa in Azure Databricks

  • Caricare un DataFrame con informazioni sensibili

  • Scrivere dati crittografati in tabelle o file Parquet

  • Gestire informazioni sensibili

Monitorare l'archiviazione dei dati e l'elaborazione dei dati

  • Implementare la registrazione usata da Monitoraggio di Azure

  • Configurare i servizi di monitoraggio

  • Monitorare l'elaborazione dei flussi

  • Misurare le prestazioni dello spostamento dati

  • Monitorare e aggiornare le statistiche sui dati in un sistema

  • Monitorare le prestazioni della pipeline di dati

  • Misurare le prestazioni delle query

  • Pianificare e monitorare i test della pipeline

  • Interpretare le metriche e i log di Monitoraggio di Azure

  • Implementare una strategia di avvisi per le pipeline

Ottimizzare e risolvere i problemi relativi all'archiviazione e all'elaborazione dei dati

  • Compattare file di piccole dimensioni

  • Gestire l'asimmetria nei dati

  • Gestire lo spill di dati

  • Ottimizzare la gestione delle risorse

  • Ottimizzare le query usando gli indicizzatori

  • Ottimizzare le query usando la cache

  • Risolvere i problemi relativi a un processo Spark non riuscito

  • Risolvere i problemi relativi a un'esecuzione della pipeline non riuscita, incluse le attività eseguite nei servizi esterni

Risorse di studio

È consigliabile seguire il corso di formazione e acquisire esperienza pratica prima di sostenere l'esame. Sono disponibili opzioni di studio in autonomia e formazione in aula oltre a collegamenti a documentazione, siti della community e video.

Risorse di studio Collegamenti alle sessioni di apprendimento e alla documentazione
Approfondisci Scegliere tra percorsi di apprendimento e moduli autogestiti o seguire un corso con docente
Trova la documentazione Archiviazione di Azure Data Lake
Azure Synapse Analytics
Azure Databricks
Data Factory
Analisi di flusso di Azure
Hub eventi
Monitoraggio di Azure
Fai una domanda Domande e risposte Microsoft | Microsoft Docs
Richiedi supporto della community Analisi in Azure | TechCommunity
Azure Synapse Analytics | TechCommunity
Segui Microsoft Learn Microsoft Learn - Microsoft Tech Community
Trova un video Zona idoneità per gli esami
Dati esposti
Visualizzare altri video Microsoft Learn

Registro modifiche

Chiave per comprendere la tabella: i gruppi di argomenti (noti anche come gruppi funzionali) sono in grassetto e sono seguiti dagli obiettivi all'interno di ogni gruppo. La tabella fornisce un confronto tra le due versioni delle competenze misurate per l'esame e la terza colonna descrive l'entità delle modifiche.

Area di competenza precedente al 24 ottobre 2024 Area di competenza a partire dal 24 ottobre 2024 Modifica
Sviluppare l'elaborazione dei dati Sviluppare l'elaborazione dei dati Nessuna modifica
Inserire e trasformare i dati Inserire e trasformare i dati Secondarie