Condividi tramite


Informazioni di riferimento su PySpark

Questa pagina offre una panoramica delle informazioni di riferimento disponibili per PySpark, un'API Python per Spark. Per altre informazioni su PySpark, vedere PySpark in Azure Databricks.

Reference Description
Classi principali Classi principali per l'uso di PySpark SQL, inclusi i concetti fondamentali relativi a SparkSession e DataFrame.
Sessione Spark Punto di ingresso per la lettura dei dati e l'esecuzione di query SQL nelle applicazioni PySpark.
Configuration Opzioni di configurazione di runtime per Spark SQL, incluse le impostazioni di esecuzione e ottimizzazione.
Per informazioni sulla configurazione disponibile solo in Databricks, vedere Impostare le proprietà di configurazione di Spark in Azure Databricks.
DataFrame Raccolta distribuita di dati organizzati in colonne denominate, analogamente a una tabella in un database relazionale.
Input/output Metodi per la lettura e la scrittura di dati in vari formati di file e origini dati.
Colonna Operazioni per l'uso delle colonne del dataframe, incluse trasformazioni ed espressioni.
Tipi di dati Tipi di dati disponibili in PySpark SQL, inclusi tipi primitivi, tipi complessi e tipi definiti dall'utente.
Fila Rappresenta una riga di dati in un dataframe, fornendo l'accesso ai singoli valori di campo.
Funzioni Funzioni predefinite per operazioni di manipolazione, trasformazione e aggregazione dei dati.
Finestra Funzioni window per l'esecuzione di calcoli in un set di righe di tabella correlate alla riga corrente.
raggruppamento Metodi per raggruppare i dati ed eseguire operazioni di aggregazione su dataframe raggruppati.
catalogo Interfaccia per la gestione di database, tabelle, funzioni e altri metadati del catalogo.
Avro Supporto per la lettura e la scrittura di dati in formato Apache Avro.
Osservazione Raccoglie le metriche e osserva i dataframe durante l'esecuzione delle query per il monitoraggio e il debug.
Funzione definita dall'utente Funzioni definite dall'utente per l'applicazione della logica Python personalizzata alle colonne dataframe.
UDTF Funzioni di tabella definite dall'utente che restituiscono più righe per ogni riga di input.
VariantVal Gestisce dati semistrutturati con schema flessibile, supportando tipi dinamici e strutture annidate.
ProtoBuf Supporto per la serializzazione e la deserializzazione dei dati tramite il formato Buffer di protocollo.
Origine dati Python API per l'implementazione di origini dati personalizzate da leggere da sistemi esterni. Per informazioni sulle origini dati personalizzate, vedere Origini dati personalizzate pySpark.
Processore con stato Gestisce lo stato tra batch di streaming per operazioni complesse con stato in streaming strutturato.