Che cos'è l'ingegneria dei dati in Microsoft Fabric?

La progettazione dei dati in Microsoft Fabric consente agli utenti di progettare, creare e gestire infrastrutture e sistemi che consentono alle organizzazioni di raccogliere, archiviare, elaborare e analizzare grandi volumi di dati.

Microsoft Fabric offre varie funzionalità di ingegneria dei dati per garantire che i dati siano facilmente accessibili, ben organizzati e di alta qualità. Dalla home page del data engineering è possibile:

  • Creare e gestire i dati usando un lakehouse

  • Progettare pipeline per copiare dati in un lakehouse

  • Usare le definizioni dei processi Spark per inviare un processo batch/streaming al cluster Spark

  • Usare i notebook per scrivere codice per l'inserimento, la preparazione e la trasformazione dei dati

    Screenshot showing Data Engineering objects.

Lakehouse

Lakehouses sono architetture di dati che consentono alle organizzazioni di archiviare e gestire dati strutturati e non strutturati in un'unica posizione, usando vari strumenti e framework per elaborare e analizzare tali dati. Questi strumenti e framework possono includere query e analisi basate su SQL, nonché l'apprendimento automatico e altre tecniche di analisi avanzate.

Definizione del processo di Apache Spark

Le definizioni dei processi Spark sono set di istruzioni che definiscono come eseguire un processo in un cluster Spark. Include informazioni quali le origini dati di input e output, le trasformazioni e le impostazioni di configurazione per l'applicazione Spark. La definizione del processo Spark consente di inviare processi batch/streaming al cluster Spark, applicare logica di trasformazione diversa ai dati ospitati nel lakehouse insieme a molti altri elementi.

Notebook

I notebook sono un ambiente di elaborazione interattivo che consente agli utenti di creare e condividere documenti contenenti codice live, equazioni, visualizzazioni e testo narrativo. Consentono agli utenti di scrivere ed eseguire codice in vari linguaggi di programmazione, tra cui Python, R e Scala. È possibile usare notebook per l'inserimento, la preparazione, l'analisi e altre attività correlate ai dati.

Pipeline di dati

Le pipeline di dati sono una serie di passaggi che possono raccogliere, elaborare e trasformare i dati dal formato non elaborato a un formato che è possibile usare per l'analisi e il processo decisionale. Sono un componente fondamentale dell'ingegneria dei dati, poiché offrono un modo per spostare i dati dall'origine alla destinazione in modo affidabile, scalabile ed efficiente.

Introduzione all'esperienza di Ingegneria dei dati: