Referenční informace k PySpark

Tato stránka obsahuje přehled referenčních informací dostupných pro PySpark, rozhraní PYTHON API pro Spark. Další informace o PySparku najdete v tématu PySpark v Azure Databricks.

Odkazy	Description
Základní třídy	Hlavní třídy pro práci s PySpark SQL, včetně základů SparkSession a DataFrame.
Session Spark	Vstupní bod pro čtení dat a spouštění dotazů SQL v aplikacích PySpark.
Configuration	Možnosti konfigurace modulu runtime pro Spark SQL, včetně nastavení spouštění a optimalizace Informace o konfiguraci, která je dostupná jenom v Databricks, najdete v tématu Nastavení vlastností konfigurace Sparku v Azure Databricks.
DataFrame	Distribuovaná kolekce dat uspořádaných do pojmenovaných sloupců, podobně jako tabulka v relační databázi.
vstupní/výstupní	Metody čtení dat z a zápisu dat do různých formátů souborů a zdrojů dat.
sloupce	Operace pro práci se sloupci datového rámce, včetně transformací a výrazů
Datové typy	Dostupné datové typy v PySpark SQL, včetně primitivních typů, složitých typů a uživatelsky definovaných typů.
Veslovat	Představuje řádek dat v datovém rámci, který poskytuje přístup k hodnotám jednotlivých polí.
Functions	Integrované funkce pro manipulaci s daty, transformaci a agregační operace
Okno	Funkce okna pro provádění výpočtů v sadě řádků tabulky souvisejících s aktuálním řádkem
seskupení	Metody seskupení dat a provádění agregačních operací u seskupených datových rámců
Katalog	Rozhraní pro správu databází, tabulek, funkcí a dalších metadat katalogu
Avro	Podpora čtení a zápisu dat ve formátu Apache Avro
Pozorování	Shromažďuje metriky a sleduje datové rámce během provádění dotazů za účelem monitorování a ladění.
UDF	Uživatelem definované funkce pro použití vlastní logiky Pythonu na sloupce datového rámce
UDTF	Funkce tabulkové definované uživatelem, které vracejí více řádků na každý vstupní řádek.
VariantVal	Zpracovává částečně strukturovaná data s flexibilním schématem a podporuje dynamické typy a vnořené struktury.
ProtoBuf	Podpora serializace a deserializace dat pomocí formátu Protocol Buffers.
Zdroj dat Pythonu	Rozhraní API pro implementaci vlastních zdrojů dat pro čtení z externích systémů Informace o vlastních zdrojích dat najdete v tématu Vlastní zdroje dat PySpark.
Stavový procesor	Spravuje stav napříč dávkami streamování pro složité stavové operace ve strukturovaném streamování.

Váš názor

Byla tato stránka užitečná?

Last updated on 2026-01-16

Sdílet prostřednictvím

Referenční informace k PySpark

Váš názor

Další materiály