Usare Python per Apache Spark

Importante

Microsoft Fabric è attualmente in ANTEPRIMA. Queste informazioni si riferiscono a un prodotto di versione preliminare che può essere modificato sostanzialmente prima che venga rilasciato. Microsoft non garantisce alcuna garanzia, espressa o implicita, rispetto alle informazioni fornite qui.

Microsoft Fabric offre il supporto Python predefinito per Apache Spark. Questo include il supporto per PySpark, che consente agli utenti di interagire con Spark usando interfacce Spark o Python familiari. È possibile analizzare i dati usando Python tramite definizioni di processi batch Spark o con notebook interattivi di Fabric. Questo documento offre una panoramica dello sviluppo di applicazioni Spark in Synapse usando il linguaggio Python.

Creare ed eseguire sessioni notebook

Il notebook di Microsoft Fabric è un'interfaccia Web per creare file che contengono codice live, visualizzazioni e testo narrativo. I notebook possono essere usati per convalidare idee ed eseguire esperimenti rapidi per ottenere informazioni cognitive dettagliate dai dati. I notebook sono anche ampiamente usati nella preparazione dei dati, nella visualizzazione dei dati, nell'apprendimento automatico e in altri scenari big data.

Per iniziare a usare Python nei notebook di Microsoft Fabric, modificare il linguaggio primario nella parte superiore del notebook impostando l'opzione del linguaggio su PySpark (Python).

È inoltre possibile usare più lingue in un notebook specificando il comando magic della lingua all'inizio di una cella.

%%pyspark
# Enter your Python code here

Per altre informazioni sui notebook all'interno di Microsoft Fabric Analytics, vedere Come usare i notebook.

Installare i pacchetti

Le librerie forniscono codice riutilizzabile che è possibile includere nei programmi o nei progetti. Per rendere disponibile codice di terze parti o in locale per le applicazioni, è possibile installare una libreria in una delle aree di lavoro o nella sessione del notebook.

Per altre informazioni su come gestire le librerie Python, vedere Gestione delle librerie Python.

Utilità notebook

Microsoft Spark Utilities (MSSparkUtils) è un pacchetto predefinito per semplificare l'esecuzione di attività comuni. È possibile usare MSSparkUtils per usare file system, per ottenere variabili di ambiente, per concatenare i notebook e per usare i segreti. MSSparkUtils è supportato per i notebook PySpark.

Per iniziare, è possibile eseguire i comandi seguenti:

from notebookutils import mssparkutils
mssparkutils.notebook.help()

Per altre informazioni sui comandi MSSparkUtils supportati, vedere Usare Microsoft Spark Utilities.

Usare Pandas in Spark

L'API Pandas in Spark consente di ridimensionare il carico di lavoro Pandas in qualsiasi dimensione eseguendolo distribuito in più nodi. Se si ha già familiarità con pandas e si vuole sfruttare Spark per Big Data, l'API pandas in Spark rende immediatamente produttivi e consente di eseguire immediatamente la migrazione delle applicazioni senza modificare il codice. È possibile disporre di una singola codebase che funziona sia con pandas (test, set di dati più piccoli) sia con Spark (produzione, set di dati distribuiti) ed è possibile passare dall'API Pandas all'API Pandas in Spark facilmente e senza sovraccarico.

Runtime di Python

Microsoft Fabric Runtime è un ambiente curato ottimizzato per l'analisi scientifica dei dati e l'apprendimento automatico. Il runtime di Microsoft Fabric offre una gamma di librerie open source popolari, tra cui librerie come Pandas, PyTorch, Scikit-Learn, XGBoost e altro ancora.

Visualizzazione Python

L'ecosistema Python offre più librerie di grafici che sono dotate di molte funzionalità diverse. Per impostazione predefinita, ogni istanza di Spark in Microsoft Fabric contiene un set di librerie open source curate e popolari. È anche possibile aggiungere o gestire librerie o versioni aggiuntive usando le funzionalità di gestione delle librerie di Microsoft Fabric.

Altre informazioni su come creare visualizzazioni Python visitando la visualizzazione Python.

Passaggi successivi