PySpark-referens

Den här sidan innehåller en översikt över referensen som är tillgänglig för PySpark, ett Python-API för Spark. Mer information om PySpark finns i PySpark på Azure Databricks.

Hänvisning	Description
Kärnklasser	Huvudklasser för att arbeta med PySpark SQL, inklusive grunderna SparkSession och DataFrame.
Spark-session	Startpunkten för att läsa data och köra SQL-frågor i PySpark-program.
Configuration	Körningskonfigurationsalternativ för Spark SQL, inklusive körnings- och optimerarinställningar. Information om konfiguration som endast är tillgänglig på Databricks finns i Ange Spark-konfigurationsegenskaper på Azure Databricks.
DataFrame	Distribuerad insamling av data ordnade i namngivna kolumner, ungefär som en tabell i en relationsdatabas.
Indata/utdata	Metoder för att läsa data från och skriva data till olika filformat och datakällor.
Kolumn	Åtgärder för att arbeta med DataFrame-kolumner, inklusive transformeringar och uttryck.
Datatyper	Tillgängliga datatyper i PySpark SQL, inklusive primitiva typer, komplexa typer och användardefinierade typer.
Rad	Representerar en rad med data i en DataFrame som ger åtkomst till enskilda fältvärden.
Funktioner	Inbyggda funktioner för datamanipulering, transformering och aggregeringsåtgärder.
Fönster	Fönsterfunktioner för att utföra beräkningar över en uppsättning tabellrader som är relaterade till den aktuella raden.
Gruppering	Metoder för att gruppera data och utföra aggregeringsåtgärder på grupperade DataFrames.
Katalog	Gränssnitt för att hantera databaser, tabeller, funktioner och andra katalogmetadata.
Avro	Stöd för att läsa och skriva data i Apache Avro-format.
Observation	Samlar in prestandametriker och analyserar DataFrames under frågekörning för övervakning och felsökning.
UDF	Användardefinierade funktioner för att tillämpa anpassad Python-logik på DataFrame-kolumner.
UDTF	Användardefinierade tabellfunktioner som returnerar flera rader för varje indatarad.
VariantVal	Hanterar halvstrukturerade data med flexibelt schema som stöder dynamiska typer och kapslade strukturer.
ProtoBuf	Stöd för serialisering och deserialisering av data med formatet Protokollbuffertar.
Python DataSource	API:er för att implementera anpassade datakällor som ska läsas från externa system. Information om anpassade datakällor finns i PySpark-anpassade datakällor.
Tillståndskänslig processor	Hanterar tillstånd mellan strömmande batchar för komplexa tillståndskänsliga åtgärder i strukturerad direktuppspelning.

Feedback

Var den här sidan hjälpsam?

Last updated on 2026-01-16

Dela via

PySpark-referens

Feedback

Ytterligare resurser