Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Tato stránka obsahuje přehled referenčních informací dostupných pro PySpark, rozhraní PYTHON API pro Spark. Další informace o PySparku najdete v tématu PySpark v Azure Databricks.
| Odkazy | Description |
|---|---|
| Základní třídy | Hlavní třídy pro práci s PySpark SQL, včetně základů SparkSession a DataFrame. |
| Session Spark | Vstupní bod pro čtení dat a spouštění dotazů SQL v aplikacích PySpark. |
| Configuration | Možnosti konfigurace modulu runtime pro Spark SQL, včetně nastavení spouštění a optimalizace Informace o konfiguraci, která je dostupná jenom v Databricks, najdete v tématu Nastavení vlastností konfigurace Sparku v Azure Databricks. |
| DataFrame | Distribuovaná kolekce dat uspořádaných do pojmenovaných sloupců, podobně jako tabulka v relační databázi. |
| vstupní/výstupní | Metody čtení dat z a zápisu dat do různých formátů souborů a zdrojů dat. |
| sloupce |
Operace pro práci se sloupci datového rámce, včetně transformací a výrazů |
| Datové typy | Dostupné datové typy v PySpark SQL, včetně primitivních typů, složitých typů a uživatelsky definovaných typů. |
| Veslovat | Představuje řádek dat v datovém rámci, který poskytuje přístup k hodnotám jednotlivých polí. |
| Functions | Integrované funkce pro manipulaci s daty, transformaci a agregační operace |
| Okno | Funkce okna pro provádění výpočtů v sadě řádků tabulky souvisejících s aktuálním řádkem |
| seskupení | Metody seskupení dat a provádění agregačních operací u seskupených datových rámců |
| Katalog | Rozhraní pro správu databází, tabulek, funkcí a dalších metadat katalogu |
| Avro | Podpora čtení a zápisu dat ve formátu Apache Avro |
| Pozorování | Shromažďuje metriky a sleduje datové rámce během provádění dotazů za účelem monitorování a ladění. |
| UDF | Uživatelem definované funkce pro použití vlastní logiky Pythonu na sloupce datového rámce |
| UDTF | Funkce tabulkové definované uživatelem, které vracejí více řádků na každý vstupní řádek. |
| VariantVal | Zpracovává částečně strukturovaná data s flexibilním schématem a podporuje dynamické typy a vnořené struktury. |
| ProtoBuf | Podpora serializace a deserializace dat pomocí formátu Protocol Buffers. |
| Zdroj dat Pythonu | Rozhraní API pro implementaci vlastních zdrojů dat pro čtení z externích systémů Informace o vlastních zdrojích dat najdete v tématu Vlastní zdroje dat PySpark. |
| Stavový procesor | Spravuje stav napříč dávkami streamování pro složité stavové operace ve strukturovaném streamování. |