Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of mappen te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen om mappen te wijzigen.
Deze pagina bevat een overzicht van de referentie die beschikbaar is voor PySpark, een Python-API voor Spark. Zie PySpark op Azure Databricks voor meer informatie over PySpark.
Gegevenstypen
Zie PySpark-gegevenstypen voor een volledige lijst met PySpark-gegevenstypen.
Klassen
| Reference | Description |
|---|---|
| Avro | Ondersteuning voor het lezen en schrijven van gegevens in Apache Avro-formaat. |
| Catalogus | Interface voor het beheren van databases, tabellen, functies en andere catalogusmetagegevens. |
| kolom | Bewerkingen voor het werken met DataFrame-kolommen, inclusief transformaties en expressies. |
| gegevenstypen | Beschikbare gegevenstypen in PySpark SQL, waaronder primitieve typen, complexe typen en door de gebruiker gedefinieerde typen. |
| DataFrame | Gedistribueerde verzameling gegevens die zijn ingedeeld in benoemde kolommen, vergelijkbaar met een tabel in een relationele database. |
| DataFrameNaFunctions | Functionaliteit voor het werken met ontbrekende gegevens in een DataFrame. |
| DataFrameReader | Interface die wordt gebruikt voor het laden van een DataFrame vanuit externe opslagsystemen. |
| DataFrameStatFunctions | Functionaliteit voor statistische functies met een DataFrame. |
| DataFrameWriter | Interface die wordt gebruikt voor het schrijven van een DataFrame naar externe opslagsystemen. |
| DataFrameWriterV2 | Interface die wordt gebruikt voor het schrijven van een DataFrame naar externe opslag (versie 2). |
| DataSource | API's voor het implementeren van aangepaste gegevensbronnen voor het lezen van externe systemen. Zie Aangepaste gegevensbronnen van PySpark voor informatie over aangepaste gegevensbronnen. |
| DataSourceArrowWriter | Een basisklasse voor schrijvers van gegevensbronnen die gegevens verwerken met behulp van PyArrow RecordBatch. |
| DataSourceRegistration | Een wrapper voor registratie van gegevensbronnen. |
| DataSourceReader | Een basisklasse voor lezers van gegevensbronnen. |
| DataSourceStreamArrowWriter | Een basisklasse voor schrijvers van gegevensstromen die gegevens verwerken met behulp van PyArrow RecordBatch. |
| DataSourceStreamReader | Een basisklasse voor lezers van streaminggegevensbronnen. |
| DataSourceStreamWriter | Een basisklasse voor gegevensstroomschrijvers. |
| GroupedData | Methoden voor het groeperen van gegevens en het uitvoeren van aggregatiebewerkingen op gegroepeerde DataFrames. |
| Observatie | Verzamelt metrische gegevens en bekijkt DataFrames tijdens het uitvoeren van query's voor bewaking en foutopsporing. |
| PlotAccessor | Accessor voor dataframe-plottingfunctionaliteit in PySpark. |
| ProtoBuf | Ondersteuning voor het serialiseren en deserialiseren van gegevens met behulp van protocolbuffers-indeling. |
| Roeien | Vertegenwoordigt een rij met gegevens in een DataFrame, die toegang biedt tot afzonderlijke veldwaarden. |
| RuntimeConfig | Runtime-configuratieopties voor Spark SQL, inclusief uitvoerings- en optimalisatie-instellingen. Zie Spark-configuratie-eigenschappen instellen in Azure Databricks voor meer informatie over de configuratie die alleen beschikbaar is in Databricks. |
| SparkSession- | Het toegangspunt voor het lezen van gegevens en het uitvoeren van SQL-query's in PySpark-toepassingen. |
| Stateful Processor | Hiermee beheert u de status in streamingbatches voor complexe stateful bewerkingen in gestructureerde streaming. |
| UserDefinedFunction (UDF) | Door de gebruiker gedefinieerde functies voor het toepassen van aangepaste Python-logica op DataFrame-kolommen. |
| UDFRegistration | Wrapper voor door de gebruiker gedefinieerde functieregistratie. Dit exemplaar kan worden geopend door spark.udf. |
| UserDefinedTableFunction (UDTF) | Door de gebruiker gedefinieerde tabelfuncties die meerdere rijen retourneren voor elke invoerrij. |
| UDTFRegistration | Wrapper voor door de gebruiker gedefinieerde tabelfunctieregistratie. Dit exemplaar kan worden geopend door spark.udtf. |
| VariantVal | Vertegenwoordigt semi-gestructureerde gegevens met een flexibel schema, dat dynamische typen en geneste structuren ondersteunt. |
| Venster | Vensterfuncties voor het uitvoeren van berekeningen in een set tabelrijen die betrekking hebben op de huidige rij. |
| WindowSpec | Vensterfuncties voor het uitvoeren van berekeningen in een set tabelrijen die betrekking hebben op de huidige rij. |
Functies
Zie PySpark-functies voor een volledige lijst met beschikbare ingebouwde functies.