Sdílet prostřednictvím


Referenční informace k PySpark

Tato stránka obsahuje přehled referenčních informací dostupných pro PySpark, rozhraní PYTHON API pro Spark. Další informace o PySparku najdete v tématu PySpark v Azure Databricks.

Odkazy Description
Základní třídy Hlavní třídy pro práci s PySpark SQL, včetně základů SparkSession a DataFrame.
Session Spark Vstupní bod pro čtení dat a spouštění dotazů SQL v aplikacích PySpark.
Configuration Možnosti konfigurace modulu runtime pro Spark SQL, včetně nastavení spouštění a optimalizace
Informace o konfiguraci, která je dostupná jenom v Databricks, najdete v tématu Nastavení vlastností konfigurace Sparku v Azure Databricks.
DataFrame Distribuovaná kolekce dat uspořádaných do pojmenovaných sloupců, podobně jako tabulka v relační databázi.
vstupní/výstupní Metody čtení dat z a zápisu dat do různých formátů souborů a zdrojů dat.
sloupce Operace pro práci se sloupci datového rámce, včetně transformací a výrazů
Datové typy Dostupné datové typy v PySpark SQL, včetně primitivních typů, složitých typů a uživatelsky definovaných typů.
Veslovat Představuje řádek dat v datovém rámci, který poskytuje přístup k hodnotám jednotlivých polí.
Functions Integrované funkce pro manipulaci s daty, transformaci a agregační operace
Okno Funkce okna pro provádění výpočtů v sadě řádků tabulky souvisejících s aktuálním řádkem
seskupení Metody seskupení dat a provádění agregačních operací u seskupených datových rámců
Katalog Rozhraní pro správu databází, tabulek, funkcí a dalších metadat katalogu
Avro Podpora čtení a zápisu dat ve formátu Apache Avro
Pozorování Shromažďuje metriky a sleduje datové rámce během provádění dotazů za účelem monitorování a ladění.
UDF Uživatelem definované funkce pro použití vlastní logiky Pythonu na sloupce datového rámce
UDTF Funkce tabulkové definované uživatelem, které vracejí více řádků na každý vstupní řádek.
VariantVal Zpracovává částečně strukturovaná data s flexibilním schématem a podporuje dynamické typy a vnořené struktury.
ProtoBuf Podpora serializace a deserializace dat pomocí formátu Protocol Buffers.
Zdroj dat Pythonu Rozhraní API pro implementaci vlastních zdrojů dat pro čtení z externích systémů Informace o vlastních zdrojích dat najdete v tématu Vlastní zdroje dat PySpark.
Stavový procesor Spravuje stav napříč dávkami streamování pro složité stavové operace ve strukturovaném streamování.