Introduzione
L'analisi scientifica dei dati è un campo multidisciplinare che usa metodi scientifici, processi, algoritmi e strumenti per estrarre conoscenze e informazioni dettagliate da dati strutturati e non strutturati.
In un tipico progetto di data science, è una pratica comune iniziare con Exploratory Data Analysis (EDA) in cui implica la comprensione dei modelli, l'individuazione di anomalie, il test delle ipotesi e il controllo dei presupposti correlati ai dati sottostanti.
Le informazioni ottenute da EDA possono guidare i data scientist nella scelta dei modelli statistici o di Machine Learning appropriati che meglio soddisfano i dati.
I notebook di Microsoft Fabric consentono di integrare facilmente i risultati di esplorazione in un flusso di lavoro di data science. Può quindi essere utilizzato per alimentare una soluzione di reporting a monte, come un report di Power BI.
Comprendere il processo di data science
L'esplorazione dei dati è un'analisi preliminare dei dati che imposta la fase per tutti i passaggi successivi del processo di data science.
- Definire il problema: insieme agli utenti aziendali e agli analisti, decidere cosa deve prevedere il modello e quando ha esito positivo.
- Ottenere i dati: trovare le origini dati e ottenere l'accesso archiviando i dati in un Lakehouse.
- Preparare i dati: Esplorare i dati leggendo i dati da una lakehouse in un notebook. Pulire e trasformare i dati in base ai requisiti del modello.
- Eseguire il training del modello: scegliere un algoritmo e i valori di iperparametri in base a tentativi ed errori monitorando gli esperimenti con MLflow.
- Generare informazioni dettagliate: usare l'assegnazione dei punteggi batch del modello per generare le stime richieste.
In questo modulo viene illustrato come caricare i dati ed eseguire l'esplorazione dei dati. Lavorando in un notebook all'interno di Microsoft Fabric, utilizzi Python per comprendere i diversi tipi di distribuzione dei dati. Si apprenderà il concetto di dati mancanti e strategie per gestire i dati mancanti in modo efficace. Infine, si visualizzano i dati usando varie tecniche e librerie di visualizzazione dei dati.