Not
Åtkomst till denna sida kräver auktorisation. Du kan prova att logga in eller byta katalog.
Åtkomst till denna sida kräver auktorisation. Du kan prova att byta katalog.
Den här sidan innehåller en översikt över referensen som är tillgänglig för PySpark, ett Python-API för Spark. Mer information om PySpark finns i PySpark på Azure Databricks.
| Hänvisning | Description |
|---|---|
| Kärnklasser | Huvudklasser för att arbeta med PySpark SQL, inklusive grunderna SparkSession och DataFrame. |
| Spark-session | Startpunkten för att läsa data och köra SQL-frågor i PySpark-program. |
| Configuration | Körningskonfigurationsalternativ för Spark SQL, inklusive körnings- och optimerarinställningar. Information om konfiguration som endast är tillgänglig på Databricks finns i Ange Spark-konfigurationsegenskaper på Azure Databricks. |
| DataFrame | Distribuerad insamling av data ordnade i namngivna kolumner, ungefär som en tabell i en relationsdatabas. |
| Indata/utdata | Metoder för att läsa data från och skriva data till olika filformat och datakällor. |
| Kolumn | Åtgärder för att arbeta med DataFrame-kolumner, inklusive transformeringar och uttryck. |
| Datatyper | Tillgängliga datatyper i PySpark SQL, inklusive primitiva typer, komplexa typer och användardefinierade typer. |
| Rad | Representerar en rad med data i en DataFrame som ger åtkomst till enskilda fältvärden. |
| Funktioner | Inbyggda funktioner för datamanipulering, transformering och aggregeringsåtgärder. |
| Fönster | Fönsterfunktioner för att utföra beräkningar över en uppsättning tabellrader som är relaterade till den aktuella raden. |
| Gruppering | Metoder för att gruppera data och utföra aggregeringsåtgärder på grupperade DataFrames. |
| Katalog | Gränssnitt för att hantera databaser, tabeller, funktioner och andra katalogmetadata. |
| Avro | Stöd för att läsa och skriva data i Apache Avro-format. |
| Observation | Samlar in prestandametriker och analyserar DataFrames under frågekörning för övervakning och felsökning. |
| UDF | Användardefinierade funktioner för att tillämpa anpassad Python-logik på DataFrame-kolumner. |
| UDTF | Användardefinierade tabellfunktioner som returnerar flera rader för varje indatarad. |
| VariantVal | Hanterar halvstrukturerade data med flexibelt schema som stöder dynamiska typer och kapslade strukturer. |
| ProtoBuf | Stöd för serialisering och deserialisering av data med formatet Protokollbuffertar. |
| Python DataSource | API:er för att implementera anpassade datakällor som ska läsas från externa system. Information om anpassade datakällor finns i PySpark-anpassade datakällor. |
| Tillståndskänslig processor | Hanterar tillstånd mellan strömmande batchar för komplexa tillståndskänsliga åtgärder i strukturerad direktuppspelning. |