Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questa pagina offre una panoramica delle informazioni di riferimento disponibili per PySpark, un'API Python per Spark. Per altre informazioni su PySpark, vedere PySpark in Azure Databricks.
| Reference | Description |
|---|---|
| Classi principali | Classi principali per l'uso di PySpark SQL, inclusi i concetti fondamentali relativi a SparkSession e DataFrame. |
| Sessione Spark | Punto di ingresso per la lettura dei dati e l'esecuzione di query SQL nelle applicazioni PySpark. |
| Configuration | Opzioni di configurazione di runtime per Spark SQL, incluse le impostazioni di esecuzione e ottimizzazione. Per informazioni sulla configurazione disponibile solo in Databricks, vedere Impostare le proprietà di configurazione di Spark in Azure Databricks. |
| DataFrame | Raccolta distribuita di dati organizzati in colonne denominate, analogamente a una tabella in un database relazionale. |
| Input/output | Metodi per la lettura e la scrittura di dati in vari formati di file e origini dati. |
| Colonna | Operazioni per l'uso delle colonne del dataframe, incluse trasformazioni ed espressioni. |
| Tipi di dati | Tipi di dati disponibili in PySpark SQL, inclusi tipi primitivi, tipi complessi e tipi definiti dall'utente. |
| Fila | Rappresenta una riga di dati in un dataframe, fornendo l'accesso ai singoli valori di campo. |
| Funzioni | Funzioni predefinite per operazioni di manipolazione, trasformazione e aggregazione dei dati. |
| Finestra | Funzioni window per l'esecuzione di calcoli in un set di righe di tabella correlate alla riga corrente. |
| raggruppamento | Metodi per raggruppare i dati ed eseguire operazioni di aggregazione su dataframe raggruppati. |
| catalogo | Interfaccia per la gestione di database, tabelle, funzioni e altri metadati del catalogo. |
| Avro | Supporto per la lettura e la scrittura di dati in formato Apache Avro. |
| Osservazione | Raccoglie le metriche e osserva i dataframe durante l'esecuzione delle query per il monitoraggio e il debug. |
| Funzione definita dall'utente | Funzioni definite dall'utente per l'applicazione della logica Python personalizzata alle colonne dataframe. |
| UDTF | Funzioni di tabella definite dall'utente che restituiscono più righe per ogni riga di input. |
| VariantVal | Gestisce dati semistrutturati con schema flessibile, supportando tipi dinamici e strutture annidate. |
| ProtoBuf | Supporto per la serializzazione e la deserializzazione dei dati tramite il formato Buffer di protocollo. |
| Origine dati Python | API per l'implementazione di origini dati personalizzate da leggere da sistemi esterni. Per informazioni sulle origini dati personalizzate, vedere Origini dati personalizzate pySpark. |
| Processore con stato | Gestisce lo stato tra batch di streaming per operazioni complesse con stato in streaming strutturato. |