Udostępnij przez


Dokumentacja referencyjna PySpark

Ta strona zawiera omówienie dostępnych materiałów referencyjnych dla PySpark, Python API dla Spark. Aby uzyskać więcej informacji na temat programu PySpark, zobacz PySpark w usłudze Azure Databricks.

Reference Description
Podstawowe klasy Główne klasy do pracy z PySpark SQL, w tym podstawy SparkSession i DataFrame.
Sesja Spark Punkt wejścia do odczytywania danych i wykonywania zapytań SQL w aplikacjach PySpark.
Configuration Opcje konfiguracji środowiska uruchomieniowego dla usługi Spark SQL, w tym ustawienia wykonywania i optymalizatora.
Aby uzyskać informacje na temat konfiguracji dostępnej tylko w usłudze Databricks, zobacz Ustawianie właściwości konfiguracji platformy Spark w usłudze Azure Databricks.
DataFrame Rozproszona kolekcja danych uporządkowana w nazwane kolumny, podobnie jak tabela w relacyjnej bazie danych.
wejściowe/wyjściowe Metody odczytywania danych z i zapisywania danych w różnych formatach plików i źródłach danych.
Kolumna Operacje pracy z kolumnami ramki danych, w tym przekształceniami i wyrażeniami.
Data types (Typy danych) Dostępne typy danych w języku SQL PySpark, w tym typy pierwotne, typy złożone i typy zdefiniowane przez użytkownika.
Szereg Reprezentuje wiersz danych w ramce danych, zapewniając dostęp do poszczególnych wartości pól.
Funkcje Wbudowane funkcje do manipulowania danymi, przekształcania i agregacji.
Okno Funkcje okien do wykonywania obliczeń w zestawie wierszy tabeli powiązanych z bieżącym wierszem.
grupowanie Metody grupowania danych i wykonywania operacji agregacji na zgrupowanych ramkach danych.
Katalog Interfejs do zarządzania bazami danych, tabelami, funkcjami i innymi metadanymi wykazu.
Avro Obsługa odczytywania i zapisywania danych w formacie Apache Avro.
Obserwacja Zbiera metryki i obserwuje ramki danych podczas wykonywania zapytań na potrzeby monitorowania i debugowania.
UDF Funkcje zdefiniowane przez użytkownika do stosowania niestandardowej logiki języka Python do kolumn ramek danych.
UDTF Funkcje tabeli zdefiniowane przez użytkownika, które zwracają wiele wierszy dla każdego wiersza wejściowego.
VariantVal Obsługuje częściowo ustrukturyzowane dane za pomocą elastycznego schematu, obsługując typy dynamiczne i struktury zagnieżdżone.
ProtoBuf Obsługa serializacji i deserializacji danych przy użyciu formatu Protocol Buffers.
Źródło danych języka Python Interfejsy API do implementacji niestandardowych źródeł danych umożliwiających odczyt z systemów zewnętrznych. Aby uzyskać informacje o niestandardowych źródłach danych, zobacz PySpark custom data sources (Niestandardowe źródła danych PySpark).
Procesor stanowy Zarządza stanem w partiach przetwarzania strumieniowego na potrzeby złożonych operacji stanowych w strukturalnym przetwarzaniu strumieniowym.