Dela via


PySpark-referens

Den här sidan innehåller en översikt över referensen som är tillgänglig för PySpark, ett Python-API för Spark. Mer information om PySpark finns i PySpark på Azure Databricks.

Hänvisning Description
Kärnklasser Huvudklasser för att arbeta med PySpark SQL, inklusive grunderna SparkSession och DataFrame.
Spark-session Startpunkten för att läsa data och köra SQL-frågor i PySpark-program.
Configuration Körningskonfigurationsalternativ för Spark SQL, inklusive körnings- och optimerarinställningar.
Information om konfiguration som endast är tillgänglig på Databricks finns i Ange Spark-konfigurationsegenskaper på Azure Databricks.
DataFrame Distribuerad insamling av data ordnade i namngivna kolumner, ungefär som en tabell i en relationsdatabas.
Indata/utdata Metoder för att läsa data från och skriva data till olika filformat och datakällor.
Kolumn Åtgärder för att arbeta med DataFrame-kolumner, inklusive transformeringar och uttryck.
Datatyper Tillgängliga datatyper i PySpark SQL, inklusive primitiva typer, komplexa typer och användardefinierade typer.
Rad Representerar en rad med data i en DataFrame som ger åtkomst till enskilda fältvärden.
Funktioner Inbyggda funktioner för datamanipulering, transformering och aggregeringsåtgärder.
Fönster Fönsterfunktioner för att utföra beräkningar över en uppsättning tabellrader som är relaterade till den aktuella raden.
Gruppering Metoder för att gruppera data och utföra aggregeringsåtgärder på grupperade DataFrames.
Katalog Gränssnitt för att hantera databaser, tabeller, funktioner och andra katalogmetadata.
Avro Stöd för att läsa och skriva data i Apache Avro-format.
Observation Samlar in prestandametriker och analyserar DataFrames under frågekörning för övervakning och felsökning.
UDF Användardefinierade funktioner för att tillämpa anpassad Python-logik på DataFrame-kolumner.
UDTF Användardefinierade tabellfunktioner som returnerar flera rader för varje indatarad.
VariantVal Hanterar halvstrukturerade data med flexibelt schema som stöder dynamiska typer och kapslade strukturer.
ProtoBuf Stöd för serialisering och deserialisering av data med formatet Protokollbuffertar.
Python DataSource API:er för att implementera anpassade datakällor som ska läsas från externa system. Information om anpassade datakällor finns i PySpark-anpassade datakällor.
Tillståndskänslig processor Hanterar tillstånd mellan strömmande batchar för komplexa tillståndskänsliga åtgärder i strukturerad direktuppspelning.