Share via


Referentie voor PySpark

Deze pagina bevat een overzicht van de referentie die beschikbaar is voor PySpark, een Python-API voor Spark. Zie PySpark op Azure Databricks voor meer informatie over PySpark.

Gegevenstypen

Zie PySpark-gegevenstypen voor een volledige lijst met PySpark-gegevenstypen.

Klassen

Reference Description
Avro Ondersteuning voor het lezen en schrijven van gegevens in Apache Avro-formaat.
Catalogus Interface voor het beheren van databases, tabellen, functies en andere catalogusmetagegevens.
kolom Bewerkingen voor het werken met DataFrame-kolommen, inclusief transformaties en expressies.
gegevenstypen Beschikbare gegevenstypen in PySpark SQL, waaronder primitieve typen, complexe typen en door de gebruiker gedefinieerde typen.
DataFrame Gedistribueerde verzameling gegevens die zijn ingedeeld in benoemde kolommen, vergelijkbaar met een tabel in een relationele database.
DataFrameNaFunctions Functionaliteit voor het werken met ontbrekende gegevens in een DataFrame.
DataFrameReader Interface die wordt gebruikt voor het laden van een DataFrame vanuit externe opslagsystemen.
DataFrameStatFunctions Functionaliteit voor statistische functies met een DataFrame.
DataFrameWriter Interface die wordt gebruikt voor het schrijven van een DataFrame naar externe opslagsystemen.
DataFrameWriterV2 Interface die wordt gebruikt voor het schrijven van een DataFrame naar externe opslag (versie 2).
DataSource API's voor het implementeren van aangepaste gegevensbronnen voor het lezen van externe systemen. Zie Aangepaste gegevensbronnen van PySpark voor informatie over aangepaste gegevensbronnen.
DataSourceArrowWriter Een basisklasse voor schrijvers van gegevensbronnen die gegevens verwerken met behulp van PyArrow RecordBatch.
DataSourceRegistration Een wrapper voor registratie van gegevensbronnen.
DataSourceReader Een basisklasse voor lezers van gegevensbronnen.
DataSourceStreamArrowWriter Een basisklasse voor schrijvers van gegevensstromen die gegevens verwerken met behulp van PyArrow RecordBatch.
DataSourceStreamReader Een basisklasse voor lezers van streaminggegevensbronnen.
DataSourceStreamWriter Een basisklasse voor gegevensstroomschrijvers.
GroupedData Methoden voor het groeperen van gegevens en het uitvoeren van aggregatiebewerkingen op gegroepeerde DataFrames.
Observatie Verzamelt metrische gegevens en bekijkt DataFrames tijdens het uitvoeren van query's voor bewaking en foutopsporing.
PlotAccessor Accessor voor dataframe-plottingfunctionaliteit in PySpark.
ProtoBuf Ondersteuning voor het serialiseren en deserialiseren van gegevens met behulp van protocolbuffers-indeling.
Roeien Vertegenwoordigt een rij met gegevens in een DataFrame, die toegang biedt tot afzonderlijke veldwaarden.
RuntimeConfig Runtime-configuratieopties voor Spark SQL, inclusief uitvoerings- en optimalisatie-instellingen.
Zie Spark-configuratie-eigenschappen instellen in Azure Databricks voor meer informatie over de configuratie die alleen beschikbaar is in Databricks.
SparkSession- Het toegangspunt voor het lezen van gegevens en het uitvoeren van SQL-query's in PySpark-toepassingen.
Stateful Processor Hiermee beheert u de status in streamingbatches voor complexe stateful bewerkingen in gestructureerde streaming.
UserDefinedFunction (UDF) Door de gebruiker gedefinieerde functies voor het toepassen van aangepaste Python-logica op DataFrame-kolommen.
UDFRegistration Wrapper voor door de gebruiker gedefinieerde functieregistratie. Dit exemplaar kan worden geopend door spark.udf.
UserDefinedTableFunction (UDTF) Door de gebruiker gedefinieerde tabelfuncties die meerdere rijen retourneren voor elke invoerrij.
UDTFRegistration Wrapper voor door de gebruiker gedefinieerde tabelfunctieregistratie. Dit exemplaar kan worden geopend door spark.udtf.
VariantVal Vertegenwoordigt semi-gestructureerde gegevens met een flexibel schema, dat dynamische typen en geneste structuren ondersteunt.
Venster Vensterfuncties voor het uitvoeren van berekeningen in een set tabelrijen die betrekking hebben op de huidige rij.
WindowSpec Vensterfuncties voor het uitvoeren van berekeningen in een set tabelrijen die betrekking hebben op de huidige rij.

Functies

Zie PySpark-functies voor een volledige lijst met beschikbare ingebouwde functies.