Che cos'è l'ingegneria dei dati in Microsoft Fabric?
La progettazione dei dati in Microsoft Fabric consente agli utenti di progettare, creare e gestire infrastrutture e sistemi che consentono alle organizzazioni di raccogliere, archiviare, elaborare e analizzare grandi volumi di dati.
Microsoft Fabric offre varie funzionalità di ingegneria dei dati per garantire che i dati siano facilmente accessibili, ben organizzati e di alta qualità. Dalla home page del data engineering è possibile:
Creare e gestire i dati usando un lakehouse
Progettare pipeline per copiare dati in un lakehouse
Usare le definizioni dei processi Spark per inviare un processo batch/streaming al cluster Spark
Usare i notebook per scrivere codice per l'inserimento, la preparazione e la trasformazione dei dati
Lakehouse
Lakehouses sono architetture di dati che consentono alle organizzazioni di archiviare e gestire dati strutturati e non strutturati in un'unica posizione, usando vari strumenti e framework per elaborare e analizzare tali dati. Questi strumenti e framework possono includere query e analisi basate su SQL, nonché l'apprendimento automatico e altre tecniche di analisi avanzate.
Definizione del processo di Apache Spark
Le definizioni dei processi Spark sono set di istruzioni che definiscono come eseguire un processo in un cluster Spark. Include informazioni quali le origini dati di input e output, le trasformazioni e le impostazioni di configurazione per l'applicazione Spark. La definizione del processo Spark consente di inviare processi batch/streaming al cluster Spark, applicare logica di trasformazione diversa ai dati ospitati nel lakehouse insieme a molti altri elementi.
Notebook
I notebook sono un ambiente di elaborazione interattivo che consente agli utenti di creare e condividere documenti contenenti codice live, equazioni, visualizzazioni e testo narrativo. Consentono agli utenti di scrivere ed eseguire codice in vari linguaggi di programmazione, tra cui Python, R e Scala. È possibile usare notebook per l'inserimento, la preparazione, l'analisi e altre attività correlate ai dati.
Pipeline di dati
Le pipeline di dati sono una serie di passaggi che possono raccogliere, elaborare e trasformare i dati dal formato non elaborato a un formato che è possibile usare per l'analisi e il processo decisionale. Sono un componente fondamentale dell'ingegneria dei dati, poiché offrono un modo per spostare i dati dall'origine alla destinazione in modo affidabile, scalabile ed efficiente.
Contenuto correlato
Introduzione all'esperienza di Ingegneria dei dati:
- Per altre informazioni sui lakehouse, vedere Che cos'è una lakehouse in Microsoft Fabric?
- Per iniziare a usare una lakehouse, vedere Creare una lakehouse in Microsoft Fabric.
- Per altre informazioni sulle definizioni dei processi Apache Spark, vedere Che cos'è una definizione di processo Apache Spark?
- Per iniziare a usare una definizione di processo Apache Spark, vedere Come creare una definizione di processo Apache Spark in Fabric.
- Per altre informazioni sui notebook, vedere Creare ed eseguire il notebook.
- Per iniziare a usare l'attività di copia della pipeline, vedere Come copiare i dati usando l'attività di copia.
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per