Condividi tramite


API Pandas in Spark

Nota

Questa funzionalità è disponibile nei cluster che eseguono Databricks Runtime 10.0 (EoS) e versioni successive. Per i cluster che eseguono Databricks Runtime 9.1 LTS e versioni successive, usare invece Koalas .

Usato comunemente dai data scientist, pandas è un pacchetto Python che offre strutture di dati e strumenti di analisi dei dati facili da usare per il linguaggio di programmazione Python. Tuttavia, pandas non aumenta il numero di istanze in Big Data. L'API Pandas in Spark riempie questo divario fornendo API equivalenti pandas che funzionano in Apache Spark. L'API Pandas in Spark è utile non solo per gli utenti pandas, ma anche per gli utenti di PySpark, perché l'API Pandas in Spark supporta molte attività difficili da eseguire con PySpark, ad esempio tracciando i dati direttamente da un dataframe PySpark.

Requisiti

L'API Pandas in Spark è disponibile a partire da Apache Spark 3.2 (inclusa a partire da Databricks Runtime 10.0 (EoS)) usando l'istruzione seguente import :

import pyspark.pandas as ps

Notebook

Il notebook seguente illustra come eseguire la migrazione da pandas all'API pandas in Spark.

da pandas all'API pandas nel notebook spark

Ottenere il notebook

Risorse