Dokumentacja referencyjna PySpark

Ta strona zawiera omówienie dostępnych materiałów referencyjnych dla PySpark, Python API dla Spark. Aby uzyskać więcej informacji na temat programu PySpark, zobacz PySpark w usłudze Azure Databricks.

Reference	Description
Podstawowe klasy	Główne klasy do pracy z PySpark SQL, w tym podstawy SparkSession i DataFrame.
Sesja Spark	Punkt wejścia do odczytywania danych i wykonywania zapytań SQL w aplikacjach PySpark.
Configuration	Opcje konfiguracji środowiska uruchomieniowego dla usługi Spark SQL, w tym ustawienia wykonywania i optymalizatora. Aby uzyskać informacje na temat konfiguracji dostępnej tylko w usłudze Databricks, zobacz Ustawianie właściwości konfiguracji platformy Spark w usłudze Azure Databricks.
DataFrame	Rozproszona kolekcja danych uporządkowana w nazwane kolumny, podobnie jak tabela w relacyjnej bazie danych.
wejściowe/wyjściowe	Metody odczytywania danych z i zapisywania danych w różnych formatach plików i źródłach danych.
Kolumna	Operacje pracy z kolumnami ramki danych, w tym przekształceniami i wyrażeniami.
Data types (Typy danych)	Dostępne typy danych w języku SQL PySpark, w tym typy pierwotne, typy złożone i typy zdefiniowane przez użytkownika.
Szereg	Reprezentuje wiersz danych w ramce danych, zapewniając dostęp do poszczególnych wartości pól.
Funkcje	Wbudowane funkcje do manipulowania danymi, przekształcania i agregacji.
Okno	Funkcje okien do wykonywania obliczeń w zestawie wierszy tabeli powiązanych z bieżącym wierszem.
grupowanie	Metody grupowania danych i wykonywania operacji agregacji na zgrupowanych ramkach danych.
Katalog	Interfejs do zarządzania bazami danych, tabelami, funkcjami i innymi metadanymi wykazu.
Avro	Obsługa odczytywania i zapisywania danych w formacie Apache Avro.
Obserwacja	Zbiera metryki i obserwuje ramki danych podczas wykonywania zapytań na potrzeby monitorowania i debugowania.
UDF	Funkcje zdefiniowane przez użytkownika do stosowania niestandardowej logiki języka Python do kolumn ramek danych.
UDTF	Funkcje tabeli zdefiniowane przez użytkownika, które zwracają wiele wierszy dla każdego wiersza wejściowego.
VariantVal	Obsługuje częściowo ustrukturyzowane dane za pomocą elastycznego schematu, obsługując typy dynamiczne i struktury zagnieżdżone.
ProtoBuf	Obsługa serializacji i deserializacji danych przy użyciu formatu Protocol Buffers.
Źródło danych języka Python	Interfejsy API do implementacji niestandardowych źródeł danych umożliwiających odczyt z systemów zewnętrznych. Aby uzyskać informacje o niestandardowych źródłach danych, zobacz PySpark custom data sources (Niestandardowe źródła danych PySpark).
Procesor stanowy	Zarządza stanem w partiach przetwarzania strumieniowego na potrzeby złożonych operacji stanowych w strukturalnym przetwarzaniu strumieniowym.

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2026-01-16

Udostępnij przez

Dokumentacja referencyjna PySpark

Sprzężenie zwrotne

Dodatkowe źródła