Referentie voor PySpark

Deze pagina bevat een overzicht van de referentie die beschikbaar is voor PySpark, een Python-API voor Spark. Zie PySpark op Azure Databricks voor meer informatie over PySpark.

Reference	Description
Kernklassen	Hoofdklassen voor het werken met PySpark SQL, met inbegrip van de basisprincipes van SparkSession en DataFrame.
Spark-sessie	Het toegangspunt voor het lezen van gegevens en het uitvoeren van SQL-query's in PySpark-toepassingen.
Configuration	Runtime-configuratieopties voor Spark SQL, inclusief uitvoerings- en optimalisatie-instellingen. Zie Spark-configuratie-eigenschappen instellen in Azure Databricks voor meer informatie over de configuratie die alleen beschikbaar is in Databricks.
DataFrame	Gedistribueerde verzameling gegevens die zijn ingedeeld in benoemde kolommen, vergelijkbaar met een tabel in een relationele database.
Invoer/Uitvoer	Methoden voor het lezen van gegevens van en het schrijven van gegevens naar verschillende bestandsindelingen en gegevensbronnen.
kolom	Bewerkingen voor het werken met DataFrame-kolommen, inclusief transformaties en expressies.
gegevenstypen	Beschikbare gegevenstypen in PySpark SQL, waaronder primitieve typen, complexe typen en door de gebruiker gedefinieerde typen.
Roeien	Vertegenwoordigt een rij met gegevens in een DataFrame, die toegang biedt tot afzonderlijke veldwaarden.
Functies	Ingebouwde functies voor gegevensbewerkingen, transformaties en aggregatiebewerkingen.
Venster	Vensterfuncties voor het uitvoeren van berekeningen in een set tabelrijen die betrekking hebben op de huidige rij.
groeperen	Methoden voor het groeperen van gegevens en het uitvoeren van aggregatiebewerkingen op gegroepeerde DataFrames.
Catalogus	Interface voor het beheren van databases, tabellen, functies en andere catalogusmetagegevens.
Avro	Ondersteuning voor het lezen en schrijven van gegevens in Apache Avro-formaat.
Observatie	Verzamelt metrische gegevens en bekijkt DataFrames tijdens het uitvoeren van query's voor bewaking en foutopsporing.
UDF	Door de gebruiker gedefinieerde functies voor het toepassen van aangepaste Python-logica op DataFrame-kolommen.
UDTF	Door de gebruiker gedefinieerde tabelfuncties die meerdere rijen retourneren voor elke invoerrij.
VariantVal	Verwerkt semi-gestructureerde gegevens met een flexibel schema, ondersteuning voor dynamische typen en geneste structuren.
ProtoBuf	Ondersteuning voor het serialiseren en deserialiseren van gegevens met behulp van protocolbuffers-indeling.
Python DataSource	API's voor het implementeren van aangepaste gegevensbronnen voor het lezen van externe systemen. Zie Aangepaste gegevensbronnen van PySpark voor informatie over aangepaste gegevensbronnen.
Stateful Processor	Hiermee beheert u de status in streamingbatches voor complexe stateful bewerkingen in gestructureerde streaming.

Feedback

Is deze pagina nuttig?

Last updated on 2026-01-16

Delen via

Referentie voor PySpark

Feedback

Aanvullende resources