Informazioni di riferimento su PySpark

Questa pagina offre una panoramica delle informazioni di riferimento disponibili per PySpark, un'API Python per Spark. Per altre informazioni su PySpark, vedere PySpark in Azure Databricks.

Reference	Description
Classi principali	Classi principali per l'uso di PySpark SQL, inclusi i concetti fondamentali relativi a SparkSession e DataFrame.
Sessione Spark	Punto di ingresso per la lettura dei dati e l'esecuzione di query SQL nelle applicazioni PySpark.
Configuration	Opzioni di configurazione di runtime per Spark SQL, incluse le impostazioni di esecuzione e ottimizzazione. Per informazioni sulla configurazione disponibile solo in Databricks, vedere Impostare le proprietà di configurazione di Spark in Azure Databricks.
DataFrame	Raccolta distribuita di dati organizzati in colonne denominate, analogamente a una tabella in un database relazionale.
Input/output	Metodi per la lettura e la scrittura di dati in vari formati di file e origini dati.
Colonna	Operazioni per l'uso delle colonne del dataframe, incluse trasformazioni ed espressioni.
Tipi di dati	Tipi di dati disponibili in PySpark SQL, inclusi tipi primitivi, tipi complessi e tipi definiti dall'utente.
Fila	Rappresenta una riga di dati in un dataframe, fornendo l'accesso ai singoli valori di campo.
Funzioni	Funzioni predefinite per operazioni di manipolazione, trasformazione e aggregazione dei dati.
Finestra	Funzioni window per l'esecuzione di calcoli in un set di righe di tabella correlate alla riga corrente.
raggruppamento	Metodi per raggruppare i dati ed eseguire operazioni di aggregazione su dataframe raggruppati.
catalogo	Interfaccia per la gestione di database, tabelle, funzioni e altri metadati del catalogo.
Avro	Supporto per la lettura e la scrittura di dati in formato Apache Avro.
Osservazione	Raccoglie le metriche e osserva i dataframe durante l'esecuzione delle query per il monitoraggio e il debug.
Funzione definita dall'utente	Funzioni definite dall'utente per l'applicazione della logica Python personalizzata alle colonne dataframe.
UDTF	Funzioni di tabella definite dall'utente che restituiscono più righe per ogni riga di input.
VariantVal	Gestisce dati semistrutturati con schema flessibile, supportando tipi dinamici e strutture annidate.
ProtoBuf	Supporto per la serializzazione e la deserializzazione dei dati tramite il formato Buffer di protocollo.
Origine dati Python	API per l'implementazione di origini dati personalizzate da leggere da sistemi esterni. Per informazioni sulle origini dati personalizzate, vedere Origini dati personalizzate pySpark.
Processore con stato	Gestisce lo stato tra batch di streaming per operazioni complesse con stato in streaming strutturato.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-01-16

Condividi tramite

Informazioni di riferimento su PySpark

Commenti e suggerimenti

Risorse aggiuntive