Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Deze pagina bevat een overzicht van de referentie die beschikbaar is voor PySpark, een Python-API voor Spark. Zie PySpark op Azure Databricks voor meer informatie over PySpark.
| Reference | Description |
|---|---|
| Kernklassen | Hoofdklassen voor het werken met PySpark SQL, met inbegrip van de basisprincipes van SparkSession en DataFrame. |
| Spark-sessie | Het toegangspunt voor het lezen van gegevens en het uitvoeren van SQL-query's in PySpark-toepassingen. |
| Configuration | Runtime-configuratieopties voor Spark SQL, inclusief uitvoerings- en optimalisatie-instellingen. Zie Spark-configuratie-eigenschappen instellen in Azure Databricks voor meer informatie over de configuratie die alleen beschikbaar is in Databricks. |
| DataFrame | Gedistribueerde verzameling gegevens die zijn ingedeeld in benoemde kolommen, vergelijkbaar met een tabel in een relationele database. |
| Invoer/Uitvoer | Methoden voor het lezen van gegevens van en het schrijven van gegevens naar verschillende bestandsindelingen en gegevensbronnen. |
| kolom | Bewerkingen voor het werken met DataFrame-kolommen, inclusief transformaties en expressies. |
| gegevenstypen | Beschikbare gegevenstypen in PySpark SQL, waaronder primitieve typen, complexe typen en door de gebruiker gedefinieerde typen. |
| Roeien | Vertegenwoordigt een rij met gegevens in een DataFrame, die toegang biedt tot afzonderlijke veldwaarden. |
| Functies | Ingebouwde functies voor gegevensbewerkingen, transformaties en aggregatiebewerkingen. |
| Venster | Vensterfuncties voor het uitvoeren van berekeningen in een set tabelrijen die betrekking hebben op de huidige rij. |
| groeperen | Methoden voor het groeperen van gegevens en het uitvoeren van aggregatiebewerkingen op gegroepeerde DataFrames. |
| Catalogus | Interface voor het beheren van databases, tabellen, functies en andere catalogusmetagegevens. |
| Avro | Ondersteuning voor het lezen en schrijven van gegevens in Apache Avro-formaat. |
| Observatie | Verzamelt metrische gegevens en bekijkt DataFrames tijdens het uitvoeren van query's voor bewaking en foutopsporing. |
| UDF | Door de gebruiker gedefinieerde functies voor het toepassen van aangepaste Python-logica op DataFrame-kolommen. |
| UDTF | Door de gebruiker gedefinieerde tabelfuncties die meerdere rijen retourneren voor elke invoerrij. |
| VariantVal | Verwerkt semi-gestructureerde gegevens met een flexibel schema, ondersteuning voor dynamische typen en geneste structuren. |
| ProtoBuf | Ondersteuning voor het serialiseren en deserialiseren van gegevens met behulp van protocolbuffers-indeling. |
| Python DataSource | API's voor het implementeren van aangepaste gegevensbronnen voor het lezen van externe systemen. Zie Aangepaste gegevensbronnen van PySpark voor informatie over aangepaste gegevensbronnen. |
| Stateful Processor | Hiermee beheert u de status in streamingbatches voor complexe stateful bewerkingen in gestructureerde streaming. |