Usare Python per Apache Spark

Microsoft Fabric offre supporto Python predefinito per Apache Spark. Il supporto include PySpark, che consente agli utenti di interagire con Spark usando interfacce Spark o Python familiari.

È possibile analizzare i dati usando Python tramite definizioni di processi di batch Spark o con notebook interattivi di Fabric. Questo articolo offre una panoramica dello sviluppo di applicazioni Spark in Synapse tramite il linguaggio Python.

Creare ed eseguire sessioni di notebook

Il notebook Microsoft Fabric è un'interfaccia Web che consente di creare file che contengono codice in tempo reale, visualizzazioni e testo descrittivo. I notebook possono essere usati per convalidare idee ed eseguire esperimenti rapidi per ottenere informazioni cognitive dettagliate dai dati. I notebook sono anche ampiamente usati per la preparazione e la visualizzazione dei dati, l'apprendimento automatico e altri scenari di Big Data.

Per iniziare a usare Python nei notebook di Microsoft Fabric, modificare il linguaggio primario impostando l'opzione del linguaggio su PySpark (Python) nella parte superiore del notebook.

%%pyspark
# Enter your Python code here

È possibile usare più linguaggi in un notebook specificando il comando magic per il linguaggio all'inizio di una cella.

Per altre informazioni sui notebook in Microsoft Fabric Analytics, vedere Come usare i notebook.

Installare i pacchetti

Le librerie forniscono codice riutilizzabile che può essere incluso nei programmi o nei progetti. Per rendere disponibile il codice partner o il codice compilato localmente per le applicazioni, installare una libreria in linea nella sessione del notebook. In alternativa, l'amministratore dell'area di lavoro può creare un ambiente, installare la libreria e allegare l'ambiente come impostazione predefinita dell'area di lavoro nell'impostazione dell'area di lavoro.

Per altre informazioni sulla gestione delle librerie in Microsoft Fabric, vedere Gestire le librerie Apache Spark.

Utilità notebook

Microsoft Spark Utilities (MSSparkUtils) è un pacchetto predefinito che consente di eseguire facilmente attività comuni. È possibile usare MSSparkUtils per lavorare con i file system, per ottenere variabili di ambiente, per concatenare i notebook e per lavorare con i segreti. MSSparkUtils è supportato per i notebook PySpark.

Per iniziare, eseguire i comandi seguenti:

from notebookutils import mssparkutils
mssparkutils.notebook.help()

Per altre informazioni sui comandi MSSparkUtils supportati, vedere Usare Utilità di Microsoft Spark.

Usare Pandas in Spark

L'API Pandas in Spark consente di ridimensionare il carico di lavoro Pandas a qualsiasi dimensione eseguendolo in maniera distribuita tra più nodi. Se si ha già familiarità con Pandas e si vuole usare Spark per Big Data, l'API Pandas in Spark rende immediatamente produttivi.

È possibile eseguire la migrazione delle applicazioni senza modificare il codice. È possibile avere una singola codebase che funziona sia con Pandas, per i test e per i set di dati più piccoli, che con Spark, per i set di dati di produzione e distribuiti. È possibile passare dall'API Pandas all'API Pandas in Spark e viceversa in modo semplice e senza sovraccarichi.

Runtime di Python

Il Runtime di Microsoft Fabric è un ambiente curato ottimizzato per la data science e l'apprendimento automatico. Il runtime di Microsoft Fabric offre una gamma di librerie open source di Python diffuse, tra cui librerie come Pandas, PyTorch, scikit-learn e XGBoost.

Visualizzazione Python

L'ecosistema Python offre più librerie di grafici che sono dotate di molte funzionalità diverse. Per impostazione predefinita, ogni istanza di Spark in Microsoft Fabric contiene un set di librerie open source curate e diffuse. È anche possibile aggiungere o gestire altre librerie o versioni. Per altre informazioni sulla gestione delle librerie, vedere Riepilogo delle procedure consigliate per la gestione delle librerie.

Per altre informazioni su come creare visualizzazioni Python, vedere Visualizzazione Python.

Informazioni su come usare l'API Pandas in Apache Spark: API Pandas in Apache Spark
Gestire le librerie Apache Spark in Microsoft Fabric
Visualizzare i dati in Python: Visualizzare i dati in Python

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-07-22