Usare Python per Apache Spark

Microsoft Fabric offre supporto Python predefinito per Apache Spark. Ciò include il supporto per PySpark, che consente agli utenti di interagire con Spark usando interfacce Spark o Python familiari. È possibile analizzare i dati usando Python tramite definizioni di processi batch Spark o con notebook interattivi di Fabric. Questo documento offre una panoramica dello sviluppo di applicazioni Spark in Synapse usando il linguaggio Python.

Creare ed eseguire sessioni di notebook

Il notebook di Microsoft Fabric è un'interfaccia Web che consente di creare file contenenti codice live, visualizzazioni e testo narrativo. I notebook possono essere usati per convalidare idee ed eseguire esperimenti rapidi per ottenere informazioni cognitive dettagliate dai dati. I notebook sono ampiamente usati anche per la preparazione dei dati, la visualizzazione dei dati, l'apprendimento automatico e altri scenari di Big Data.

Per iniziare a usare Python nei notebook di Microsoft Fabric, modificare il linguaggio principale nella parte superiore del notebook impostando l'opzione del linguaggio su PySpark (Python).To get started with Python notebooks in Microsoft Fabric notebooks, change the primary language at the top of your notebook by setting the language option to PySpark (Python).

Inoltre, è possibile usare più lingue in un notebook specificando il comando magic del linguaggio all'inizio di una cella.

%%pyspark
# Enter your Python code here

Per altre informazioni sui notebook in Microsoft Fabric Analytics, vedere Come usare i notebook.

Installare i pacchetti

Le librerie forniscono codice riutilizzabile che può essere utile includere nei programmi o nei progetti. Per rendere disponibile codice di terze parti o creato localmente per le applicazioni, è possibile installare una libreria in linea nella sessione del notebook o l'amministratore dell'area di lavoro può creare un ambiente, installare la libreria in essa e collegare l'ambiente come impostazione predefinita dell'area di lavoro nell'impostazione dell'area di lavoro.

Per altre informazioni sulla gestione delle librerie in Microsoft Fabric, vedere Gestire le librerie Apache Spark.

Utilità notebook

Microsoft Spark Utilities (MSSparkUtils) è un pacchetto predefinito che consente di eseguire facilmente attività comuni. È possibile usare MSSparkUtils per lavorare con i file system, per ottenere variabili di ambiente, per concatenare i notebook e per lavorare con i segreti. MSSparkUtils è supportato per i notebook PySpark.

Per iniziare, è possibile eseguire i comandi seguenti:

from notebookutils import mssparkutils
mssparkutils.notebook.help()

Per altre informazioni sui comandi MSSparkUtils supportati, vedere Usare Microsoft Spark Utilities.

Usare Pandas in Spark

L'API Pandas in Spark consente di ridimensionare il carico di lavoro Pandas a qualsiasi dimensione eseguendolo distribuito tra più nodi. Se si ha già familiarità con pandas e si vuole sfruttare Spark per Big Data, l'API Pandas in Spark rende immediatamente produttiva e consente di eseguire immediatamente la migrazione delle applicazioni senza modificare il codice. È possibile avere una singola codebase che funziona sia con pandas (test, set di dati più piccoli) che con Spark (produzione, set di dati distribuiti) ed è possibile passare dall'API Pandas all'API Pandas in Spark in modo semplice e senza sovraccarichi.

Runtime python

Microsoft Fabric Runtime è un ambiente curato ottimizzato per l'analisi scientifica dei dati e l'apprendimento automatico. Il runtime di Microsoft Fabric offre una gamma di librerie open source di Python più diffuse, tra cui librerie come Pandas, PyTorch, Scikit-Learn, XGBoost e altro ancora.

Visualizzazione Python

L'ecosistema Python offre più librerie di grappo che sono dotate di molte funzionalità diverse. Per impostazione predefinita, ogni istanza di Spark in Microsoft Fabric contiene un set di librerie open source curate e diffuse. È anche possibile aggiungere o gestire librerie o versioni aggiuntive. Per altre informazioni sulla gestione delle librerie, vedere Riepilogo delle procedure consigliate per la gestione delle librerie.

Per altre informazioni su come creare visualizzazioni Python, vedere La visualizzazione Python.