Dela via


PySpark-referens

Den här sidan innehåller en översikt över referensen som är tillgänglig för PySpark, ett Python API för Spark. Mer information om PySpark finns i PySpark på Azure Databricks.

Datatyper

En fullständig lista över PySpark-datatyper finns i PySpark-datatyper.

Klasserna

Hänvisning Description
Katalog Gränssnitt för att hantera databaser, tabeller, funktioner och andra katalogmetadata.
Kolumn Åtgärder för att arbeta med DataFrame-kolumner, inklusive transformeringar och uttryck.
Datatyper Tillgängliga datatyper i PySpark SQL, inklusive primitiva typer, komplexa typer och användardefinierade typer.
DataFrame Distribuerad insamling av data ordnade i namngivna kolumner, ungefär som en tabell i en relationsdatabas.
DataFrameNaFunctions Funktioner för att arbeta med data som saknas i en DataFrame.
DataFrameReader Gränssnitt som används för att läsa in en DataFrame från externa lagringssystem.
DataFrameStatFunctions Funktioner för statistiska funktioner med en DataFrame.
DataFrameWriter Gränssnitt som används för att skriva en DataFrame till externa lagringssystem.
DataFrameWriterV2 Gränssnitt som används för att skriva en DataFrame till extern lagring (version 2).
DataSource API:er för att implementera anpassade datakällor som ska läsas från externa system. Information om anpassade datakällor finns i PySpark-anpassade datakällor.
DataSourceArrowWriter En basklass för datakällskrivare som bearbetar data med PyArrows RecordBatch.
DataSourceRegistration En omslutning för registrering av datakällor.
DataSourceReader En basklass för datakällans läsare.
DataSourceStreamArrowWriter En basklass för dataströmsskrivare som bearbetar data med PyArrows RecordBatch.
DataSourceStreamReader En basklass för läsare av strömmande datakällor.
DataSourceStreamWriter En basklass för dataströmsskrivare.
DataSourceWriter En basklass för datakällaförfattare som ansvarar för att spara data till en anpassad datakälla i batchläge.
DataStreamReader Gränssnitt som används för att läsa in en strömmande DataFrame från externa lagringssystem.
DataStreamWriter Gränssnitt som används för att skriva en strömmande DataFrame till externa lagringssystem.
Geografi En klass som representerar ett geografivärde i Python.
geometri En klass som representerar ett geometrivärde i Python.
GroupedData Metoder för att gruppera data och utföra aggregeringsåtgärder på grupperade DataFrames.
InputPartition En basklass som representerar en indatapartition som returneras av partitions() metoden DataSourceReader.
Observation Samlar in prestandametriker och analyserar DataFrames under frågekörning för övervakning och felsökning.
PlotAccessor Accessor för DataFrame-plottningsfunktioner i PySpark.
ProtoBuf Stöd för serialisering och deserialisering av data med formatet Protokollbuffertar.
Rad Representerar en rad med data i en DataFrame som ger åtkomst till enskilda fältvärden.
RuntimeConfig Körningskonfigurationsalternativ för Spark SQL, inklusive körnings- och optimerarinställningar.
Information om konfiguration som endast är tillgänglig på Databricks finns i Set Spark-konfigurationsegenskaper på Azure Databricks.
SimpleDataSourceStreamReader En basklass för förenklade läsare av strömmande datakällor som läser data och planerar den senaste förskjutningen samtidigt.
SparkSession Startpunkten för att läsa data och köra SQL-frågor i PySpark-program.
Tillståndskänslig processor Hanterar tillstånd mellan strömmande batchar för komplexa tillståndskänsliga åtgärder i strukturerad direktuppspelning.
StreamingQuery Ett handtag till en fråga som körs kontinuerligt i bakgrunden när nya data tas emot.
StreamingQueryListener Abstrakt klass för att lyssna på strömning av frågelivscykelhändelser.
StreamingQueryManager Hanterar alla aktiva StreamingQuery instanser som är associerade med en SparkSession.
UserDefinedFunction (UDF) Användardefinierade funktioner för att tillämpa anpassad Python logik på DataFrame-kolumner.
UDF-registrering Omslutning för användardefinierad funktionsregistrering. Den här instansen kan nås av spark.udf.
UserDefinedTableFunction (UDTF) Användardefinierade tabellfunktioner som returnerar flera rader för varje indatarad.
UDTFRegistration Wrapper för användardefinierad tabellfunktionsregistrering. Den här instansen kan nås av spark.udtf.
VariantVal Representerar halvstrukturerade data med flexibelt schema som stöder dynamiska typer och kapslade strukturer.
Fönster Fönsterfunktioner för att utföra beräkningar över en uppsättning tabellrader som är relaterade till den aktuella raden.
WindowSpec Fönsterfunktioner för att utföra beräkningar över en uppsättning tabellrader som är relaterade till den aktuella raden.
WriterCommitMessage Ett incheckningsmeddelande som returneras av DataSourceWriter.write och skickas tillbaka till drivrutinen som en indataparameter för DataSourceWriter.commit eller DataSourceWriter.abort.

Functions

En fullständig lista över tillgängliga inbyggda funktioner finns i PySpark-funktioner.